输入“/”快速插入内容

奇绩大模型日报(6月 13日)

2024年6月13日修改
资讯
IDC最新报告,7大维度11家大模型厂商比拼,唯一全优是谁?
如果考试题太简单,学渣也能拿一百昏。在 AI 圈,我们应该拿怎样的「试卷」来检验一直处于流量 C 位的大模型的真实水平?是高考题吗?当然不是!也有些人认为,在各种 Benchmark 榜单上,谁排第一谁最强。其实并非如此,有时候,越「权威」的榜单就越容易被策略性刷榜。因此,模型的「强」不能只是在某个 Benchmark 上排名第一,而是要在多个维度上都很能打。近日,全球领先的国际数据公司(IDC) 最新发布的大模型实测报告《中国大模型市场主流产品评估,2024》从基础能力到应用能力 7 大维度对 11 家大模型厂商的 16 款市场主流产品进行实测。报告显示,百度文心大模型整体竞争力位于领先水平,产品能力处于第一梯队,是唯一一家在 7 大维度上均为优势厂商的企业。文心一言、文心一格在问答理解类、推理类、创作表达类、数学类、代码类等基础能力,toC 通用场景类、toB 特定行业类等应用能力等 7 大维度均具备领先优势。其他评测厂商中,阿里获 6 项优势维度,OpenAI GPT-4 和商汤分获 5 项。
50%
50%
Stability Al开源Stable Diffusion 3 Medium文生图模型
6月12日晚间消息,人工智能初创公司Stability AI宣布正式开源发布其最新的文本到图像生成模型Stable Diffusion 3 Medium (SD3 Medium)。Stable Diffusion 3 Medium 包含 20 亿个参数,是 StabilityAI迄今为止最先进的文本到图像开放模型,更小的 VRAM 占用空间旨在使其更适合在消费级 GPU 以及企业级 GPU 上运行。
50%
50%
又一Sora级选手来炸街!
Sora 再不开放使用,真的要被偷家了!今日,旧金山初创公司 Luma AI(打出一手王牌,推出新一代 AI 视频生成模型 Dream Machine。人人免费可用。
50%
50%
万字综述大模型高效推理:无问芯穹与清华、上交最新联合研究全面解析大模型推理优化
近年来,大语言模型(Large Language Models, LLMs)受到学术界和工业界的广泛关注,得益于其在各种语言生成任务上的出色表现,大语言模型推动了各种人工智能应用(例如ChatGPT、Copilot等)的发展。然而,大语言模型的落地应用受到其较大的推理开销的限制,对部署资源、用户体验、经济成本都带来了巨大挑战。例如,将包含700亿参数量的LLaMA-2-70B模型进行部署推理,至少需要6张RTX 3090Ti显卡或2张NVIDIA A100显卡,以部署在A100显卡上为例,该模型生成512长度的词块(token)序列需要耗时超过50秒。许多研究工作致力于设计优化大语言模型推理开销的技术,优化模型的推理延迟、吞吐、功耗和存储等指标,成为许多研究的重要目标。为了对这些优化技术有更全面、更系统的认知,为大语言模型的部署实践和未来研究提供建议和指南,来自清华大学电子工程系、无问芯穹和上海交通大学的研究团队对大语言模型的高效推理技术进行了一次全面的调研和整理,在《A Survey on Efficient Inference for Large Language Models》(简称LLM Eff-Inference)这篇万字长文综述将领域相关工作划分归类为三个优化层次(即数据层、模型层和系统层),并逐个层次地介绍和总结相关技术工作。此外,该工作还对造成大语言模型推理不高效的根本原因进行分析,并基于对当前已有工作的综述,深入探讨高效推理领域未来应关注的场景、挑战和路线,为研究者提供可行的未来研究方向。
50%
50%
「AI+物理先验知识」,浙大、中国科学院通用蛋白质-配体相互作用评分方法登Nature子刊
蛋白质就像是身体中的精密锁具,而药物分子则是钥匙,只有完美契合的钥匙才能解锁治疗之门。科学家们一直在寻找高效的方法来预测这些「钥匙」和「锁」之间的匹配度,即蛋白质-配体相互作用。然而,传统的数据驱动方法往往容易陷入「死记硬背」,记住配体和蛋白质训练数据,而不是真正学习它们之间的相互作用。近日,浙江大学和中国科学院研究团队,提出了一种名为 EquiScore 的新型评分方法,利用异构图神经网络整合物理先验知识,并在等变几何空间中表征蛋白质-配体相互作用。EquiScore 基于一个新数据集进行训练,该数据集采用多种数据增强策略和严格的冗余消除方案构建。在两个大型外部测试集上,与其他 21 种方法相比,EquiScore 始终名列前茅。当 EquiScore 与不同的对接方法一起使用时,它可以有效增强这些对接方法的筛选能力。EquiScore 在一系列结构类似物的活性排序任务中也表现出色,表明其具有指导先导化合物优化的潜力。最后,研究了 EquiScore 的不同可解释性水平,这可能为基于结构的药物设计提供更多见解。
50%
50%