输入“/”快速插入内容

奇绩大模型日报(10月 26-27日)

2024年10月31日修改
🔉潜空间活动报名
🍰
本期活动将在11月9日 10:00开始,我们邀请到的嘉宾是鱼哲,Lepton AI 创始成员,曾在阿里云担任高性能 AI 平台产品负责人,专注于 AI 在多个行业的落地及应用。Lepton AI 致力于建立高效可用的AI 基础设施,让团队更关注于应用构建及落地。在本次分享中鱼哲将带来关于AI产品相关的思考,分享主题《Beyond Infra, what matters?—— 不同AI产品形态对团队的挑战》
除嘉宾分享外,每期设置了【匹配合伙人 Cofounder Matching】环节。你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流,将有机会找到志同道合、有共同创业梦想的小伙伴。
报名通道已开启,欢迎扫描下方二维码报名。
资讯
微软开源OmniParser
近期,AI 操控计算机领域迎来一波热潮。微软推出的 OmniParser,展示了其卓越的屏幕解析能力,结合视觉和语言模型(VLM),可以将UI截图解析为结构化信息,识别交互元素,并生成精准操作。OmniParser的创新之处在于其无需依赖 HTML 结构或 Android 视图图层,便可在PC和移动平台上完成多样化的界面解析任务。
OmniParser的核心功能包括:
1.
交互区域检测:利用数据集标注点击区域和可操作元素,OmniParser准确识别屏幕上可交互的按钮和图标。
2.
功能语义描述:微调的描述模型能够为检测到的 UI 元素生成上下文相关的功能描述,使模型理解界面含义。
OmniParser还可以作为 VLM 的插件,显著增强模型的任务完成能力。在 GPT-4V 和 OmniParser结合的实验中,模型在 WindowsAgentArena 基准上达到最佳水平。此外,OmniParser还提升了在 ScreenSpot 和 Mind2Web 基准上的解析和操作表现。
在操作示例中,OmniParser帮助用户在旅游网站上筛选素食餐厅,并自动添加至行程,这种模拟任务展示了该工具从解析到操作的完整能力流程。当前,OmniParser已经支持与其他 VLM 模型(如 Phi-3.5 和 Llama-3.2)的结合,有望进一步推动AI操控界面的普及应用。
OmniParser的发布标志着屏幕解析与 AI 操作的新发展,为创建多平台、多任务的计算机控制智能体奠定了基础。
50%
50%
斯坦福开源学术研究神器STORM新功能
斯坦福大学今年推出的开源工具 STORM 利用大语言模型(LLM)自动生成类维基百科的文章,支持长篇内容创作。用户仅需输入主题,STORM 即可在三分钟内生成长篇文章或研究报告并支持 PDF 下载。STORM 借助 LLM 进行信息检索、构建大纲,并通过专家模拟对话生成深入、准确的内容,尤其适合需要广泛引用的内容创作。其代码开源后,GitHub Star 已超12k。
近期,团队推出了升级版 Co-STORM,引入协作对话机制,实现更高效的学术研究支持。Co-STORM 包含以下角色:
LLM专家:基于外部知识来源生成答案,并提出后续问题。
主持人:生成引导性问题,利用未使用的信息引导深层对话。
人类用户:观察或引导对话,深入了解主题。
Co-STORM 在生成过程中通过动态思维导图(3.2)跟踪和参与讨论(3.3),提示专家基于对话历史生成上下文响应(3.4),主持人则提出新问题以引导对话(3.5)。最终,思维导图支持生成完整引用报告。
评估显示,Co-STORM 优于传统 RAG Chatbot 和 STORM + QA 基线,在深度和新颖性上尤其出色。多智能体角色设计有效提升了对话一致性和参与度。主持人通过引入“已知未知”信息引导用户探索“未知未知”领域,使其获取更广泛、更深入的信息,提升了报告质量和问答轮次质量
50%
50%
AIDE:递归自我改进的机器学习代码生成 Agent
OpenAI 近期发布了新的基准测试 MLE-bench,专注于机器学习自动化(MLE)中的自主执行任务。测试集涵盖 75 个 Kaggle 问题,提供一个平台来评估 LLM 在端到端机器学习中的表现。基准测试显示,GPT-4o 和 AIDE 框架的结合在奖牌数量上超越了其他开源框架。而在引入 o1-preview 模型后,性能提升翻倍,使其在 16.9% 的任务中达到 Kaggle 铜牌水平,多轮尝试后这一比例提升至 34.1%。
AIDE 是一种专注于代码优化的机器学习代码生成 Agent,使用递归自我改进(recursive self-improvement)策略,通过「解空间树搜索」进行优化,包括解决方案生成、评估与筛选三个关键组件。其 AI Function 范式将任务分解为具体指令,逐步优化,使得大模型在受限问题中表现出色。此外,AIDE 在 MLE-bench 中 16.9% 的任务上获得奖牌,甚至在 Kaggle 数据科学比赛中击败了 50% 的人类参赛者。
在 MLE-bench 中,AIDE 展现了出色的适配能力。UCL 名誉教授 Edward Grefenstette 和谷歌 DeepMind 团队认为,AIDE 的框架对 OpenAI 的智能体开发产生了深远影响。AIDE 的设计理念是构建更具自我改进潜力的 AI 工具,以递归优化方法解决复杂问题。然而,当前的技术仍然面临多步任务的局限性。为进一步推动 AIDE 的发展,团队计划发布新的产品 AI Function Builder,使得用户通过 API 接口即可使用 AI 功能,大幅简化应用流程。
50%
50%