输入“/”快速插入内容

240225 - 0219｜谷歌 Gemini 生图功能紧急关闭；Tesla Optimus 大更新：有史以来最快的步态，速度约为 0.6 米/秒；英伟达成立最壕 AI 实验室：Jim Fan 领衔，专攻具身智能；清华叉院、理想提出 DriveVLM，视觉大语言模型提升自动驾驶能力；Stable Diffusion 3 震撼发布，采用 Sora 同源技术，文字终于不乱码了；Gemini 1.5 Pro 在几秒钟内将一部完整的电影变成了摘要；马斯克：Neuralink 首位人类受试者已康复可凭思维控制鼠标；Sora 到底懂不懂物理世界？一场头脑风暴正在 AI 圈大佬间展开...

2024年2月26日修改

Writer: Leon ｜ Date: 2024/02/26 ｜ #AI Weekly

common.docs_name - LarkCCM_Docs_Menu_Image

代码块

Thailand at Wat Phra Kaew Battle of the Thai army VS Kaiju, F16 squadron, war of the world, realistic, 16k resolution. --ar 16:9 --v 6.0 ​

🎞️ 上周二三事

谷歌 Gemini 生图功能紧急关闭，口碑一夜塌房，Yann LeCun：我早就知道​

https://mp.weixin.qq.com/s/gmzBY9XhNEQtUVfRF5pfPg

Gemini AI 图像生成功能出现偏见，谷歌紧急关闭并承诺改进

❗️ 问题原因 Gemini AI 模型生成偏见图像，引发负面反响

🔄 谷歌回应 Gemini 图像生成功能已关闭，承诺改进

💬 Yann LeCun 观点 AI 专家 LeCun 早有预料，指出数据偏差问题

英伟达成立最壕 AI 实验室：Jim Fan 领衔，专攻具身智能

https://mp.weixin.qq.com/s/3l7N2zdbxPchAqjF_Nqq8w

英伟达成立最壕 AI 实验室，专攻具身智能

⭐️ 重点研究方向： 通用具身智能体，2024 年机器人、游戏 AI 和模拟​

📄 相关成果： Eureka、Voyager、MineDojo、VIMA 等具体项目成果

👤 黄仁勋的影响： 推动具身智能研究，引发高校和产业关注​

清华叉院、理想提出 DriveVLM，视觉大语言模型提升自动驾驶能力​

https://mp.weixin.qq.com/s/v6f29qeZAZOi4NdnwRlvZw

⭐️ DriveVLM 特点结合视觉语言模型和传统自动驾驶系统

⏩ DriveVLM-Dual 优势提升规划能力，处理复杂场景

📊 数据集和实验 SUP-AD 数据集验证了 DriveVLM 性能

与生成式 AI 相比，自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统，人们面临的主要挑战是 AI 的场景理解，这会涉及到复杂、不可预测的场景，例如恶劣天气、复杂的道路布局和不可预见的人类行为。现有的自动驾驶系统通常包括 3D 感知、运动预测和规划组成部分。具体来说，3D 感知仅限于检测和跟踪熟悉的物体，忽略了罕见物体及其属性， 运动预测和规划则关注物体的轨迹动作，通常会忽略物体和车辆之间的决策级交互。​

最近清华大学交叉信息研究院、理想汽车提交的新论文中，作者提出了 DriveVLM，受到最近生成式 AI 领域兴起的视觉语言模型（VLM）启发，DriveVLM 在视觉理解和推理方面表现出了非凡的能力。 在业界，这是第一个提出自动驾驶快慢系统的工作，方法充分结合了主流自动驾驶 pipeline 和具备逻辑思考的大模型 pipeline，并第一个完成端测部署的大模型工作（基于 Orin 平台）。DriveVLM 包含一个 Chain-of-Though （CoT） 流程，该流程具有三个关键模块：场景描述、场景分析和分层规划。场景描述模块用语言描述驾驶环境，并识别场景中的关键对象；场景分析模块深入研究关键对象的特征及其对自我车辆的影响；分层规划模块从元动作和决策描述到路径点逐步制定计划。​

2770 亿美元，英伟达创史上最大单日涨幅，黄仁勋：生成式 AI 已到临界点​

https://mp.weixin.qq.com/s/Wb4ZU-lYoS6Kj0gNezMlaA

⬆️🔴 股价暴涨 英伟达市值单日暴涨 2770 亿美元，创历史新高​

👥 黄仁勋财富增长 黄仁勋财富增加 85 亿美元，即将跻身全球前 20 富豪行列​

💻 AI 生成工厂 英伟达 CEO 表示生成式 AI 已到临界点，数据中心转向加速计算​

Stable Diffusion 3 震撼发布，采用 Sora 同源技术，文字终于不乱码了​

https://mp.weixin.qq.com/s/KOjeMQJoTLQt6uDBGRMXeQ

🪄✨ 技术背后 Stable Diffusion 3 使用 Diffusion Transformer 和 Flow Matching 技术。​

1️⃣ 参数量参数量从 800M 到 8B，适用于便携式设备。

⤴️ 开源计划 CEO 表示会在得到反馈后将模型开源。

📰 收购消息 Stability AI 收购了图像生成应用公司 Clipdrop。

Gemini 1.5 Pro 在几秒钟内将一部完整的电影变成了摘要

https://x.com/mattshumer_/status/1759737197710704939?s=20