输入“/”快速插入内容

7.4 兵马俑复活!央视盛赞国产 AI 复活召唤术

2024年7月4日创建
🌟 技术突破
💡 兵马俑复活!央视盛赞国产 AI 技术 EMO 复活召唤术
机器之心|阅读原文
阿里巴巴通义实验室研发的 AI 技术 EMO(Emote Portrait Alive)通过一张照片和音频,成功使历史人物“复活”,并进行表演。在央视《2024 中国·AI 盛典》上,这项技术让兵马俑与宝石 Gem 对唱《从军行》,北宋文学家苏轼与李玉刚合唱《水调歌头》,展现了 AI 在视频生成领域的创新与应用。EMO 技术无需 3D 建模,直接从音频生成表情和唇部动作,其“弱控制设计”提升了视频生成的自然度和质量。通义实验室的这项研究不仅在学术界获得好评,也在社交媒体上引起广泛关注,预示着 AI 技术在创意领域的广阔应用前景。
💡 Meta 3D Gen 模型实现 60 秒生成逼真 3D 内容
新智元|阅读原文
Meta 的 GenAI 团队推出了 3D Gen 模型,该技术能在 60 秒内从文本直接生成高质量的 3D 资产,其纹理清晰、形态逼真,生成速度比现有技术快 3 到 60 倍。该模型特别适用于电影特效、AR/VR 和视频游戏等领域,大幅简化了 3D 内容的创作流程。3D Gen 模型通过 AssetGen 和 TextureGen 两个组件,分别负责 3D 资产和纹理的生成,有效结合了视图空间、体积空间和 UV 空间的表示,提高了生成效率和质量。尽管模型尚未开放 API 和代码,但其技术报告已公布,展示了模型的创新和潜力。
💡 上交大&上海 AI Lab 推出高效微调框架 FLoRA
量子位|阅读原文
上海交通大学与上海 AI Lab 联合研发的 FLoRA 微调框架,在参数量减少 80%的情况下,性能超越了 LoRA 等低秩微调方法。FLoRA 通过 Tucker 分解构建低秩核心空间,保留了参数间的拓扑关系,有效适配了 N 维张量微调。实验显示,在视觉、语言和多模态任务上,FLoRA 均展现出显著的性能提升,同时减少了训练时间和显存开销。论文与核心代码即将开源。
💡 微软开源 GraphRAG:大模型问答与推理能力极大增强
AIGC开放社区|阅读原文
微软开源了 GraphRAG 技术,一种基于图谱的检索增强生成(RAG)方法,旨在增强大模型在搜索、问答、摘要和推理方面的能力。GraphRAG 通过构建知识图谱和社区摘要,提升了模型对文本中复杂联系的理解,增强了全局检索和上下文理解能力,同时优化了资源利用率,提高了摘要质量和多样性。在处理大规模数据集时,GraphRAG 展现出了全面性和多样性的优势,显著降低了对计算资源的需求,尤其在解读复杂文档如 PDF、Word 时表现出色。
💡 腾讯元宝「深度搜索」,AI 居然写了份研究报告!
量子位|阅读原文