输入“/”快速插入内容

240225 - 0219|谷歌 Gemini 生图功能紧急关闭;Tesla Optimus 大更新:有史以来最快的步态,速度约为 0.6 米/秒;英伟达成立最壕 AI 实验室:Jim Fan 领衔,专攻具身智能;清华叉院、理想提出 DriveVLM,视觉大语言模型提升自动驾驶能力;Stable Diffusion 3 震撼发布,采用 Sora 同源技术,文字终于不乱码了;Gemini 1.5 Pro 在几秒钟内将一部完整的电影变成了摘要;马斯克:Neuralink 首位人类受试者已康复 可凭思维控制鼠标;Sora 到底懂不懂物理世界?一场头脑风暴正在 AI 圈大佬间展开...

2024年2月26日修改
Writer: Leon | Date: 2024/02/26 | #AI Weekly
代码块
Thailand at Wat Phra Kaew Battle of the Thai army VS Kaiju, F16 squadron, war of the world, realistic, 16k resolution. --ar 16:9 --v 6.0
🎞️ 上周二三事
谷歌 Gemini 生图功能紧急关闭,口碑一夜塌房,Yann LeCun:我早就知道
Gemini AI 图像生成功能出现偏见,谷歌紧急关闭并承诺改进
❗️ 问题原因 Gemini AI 模型生成偏见图像,引发负面反响
🔄 谷歌回应 Gemini 图像生成功能已关闭,承诺改进
💬 Yann LeCun 观点 AI 专家 LeCun 早有预料,指出数据偏差问题
英伟达成立最壕 AI 实验室:Jim Fan 领衔,专攻具身智能
英伟达成立最壕 AI 实验室,专攻具身智能
⭐️ 重点研究方向: 通用具身智能体,2024 年机器人、游戏 AI 和模拟
📄 相关成果: Eureka、Voyager、MineDojo、VIMA 等具体项目成果
👤 黄仁勋的影响: 推动具身智能研究,引发高校和产业关注
清华叉院、理想提出 DriveVLM,视觉大语言模型提升自动驾驶能力
⭐️ DriveVLM 特点 结合视觉语言模型和传统自动驾驶系统
⏩ DriveVLM-Dual 优势 提升规划能力,处理复杂场景
📊 数据集和实验 SUP-AD 数据集验证了 DriveVLM 性能
与生成式 AI 相比,自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统,人们面临的主要挑战是 AI 的场景理解,这会涉及到复杂、不可预测的场景,例如恶劣天气、复杂的道路布局和不可预见的人类行为。现有的自动驾驶系统通常包括 3D 感知、运动预测和规划组成部分。具体来说,3D 感知仅限于检测和跟踪熟悉的物体,忽略了罕见物体及其属性, 运动预测和规划则关注物体的轨迹动作,通常会忽略物体和车辆之间的决策级交互。
最近清华大学交叉信息研究院、理想汽车提交的新论文中,作者提出了 DriveVLM,受到最近生成式 AI 领域兴起的视觉语言模型(VLM)启发,DriveVLM 在视觉理解和推理方面表现出了非凡的能力。 在业界,这是第一个提出自动驾驶快慢系统的工作,方法充分结合了主流自动驾驶 pipeline 和具备逻辑思考的大模型 pipeline,并第一个完成端测部署的大模型工作(基于 Orin 平台)。DriveVLM 包含一个 Chain-of-Though (CoT) 流程,该流程具有三个关键模块:场景描述、场景分析和分层规划。场景描述模块用语言描述驾驶环境,并识别场景中的关键对象;场景分析模块深入研究关键对象的特征及其对自我车辆的影响;分层规划模块从元动作和决策描述到路径点逐步制定计划。
2770 亿美元,英伟达创史上最大单日涨幅,黄仁勋:生成式 AI 已到临界点
⬆️🔴 股价暴涨 英伟达市值单日暴涨 2770 亿美元,创历史新高
👥 黄仁勋财富增长 黄仁勋财富增加 85 亿美元,即将跻身全球前 20 富豪行列
💻 AI 生成工厂 英伟达 CEO 表示生成式 AI 已到临界点,数据中心转向加速计算
Stable Diffusion 3 震撼发布,采用 Sora 同源技术,文字终于不乱码了
🪄✨ 技术背后 Stable Diffusion 3 使用 Diffusion Transformer 和 Flow Matching 技术。
1️⃣ 参数量 参数量从 800M 到 8B,适用于便携式设备。
⤴️ 开源计划 CEO 表示会在得到反馈后将模型开源。
📰 收购消息 Stability AI 收购了图像生成应用公司 Clipdrop。
Gemini 1.5 Pro 在几秒钟内将一部完整的电影变成了摘要