豆包大模型:性能飞跃,引领语言模型新潮流
豆包大模型:性能飞跃,引领语言模型新潮流
2024年12月8日修改
近年来,随着人工智能技术的飞速发展,大模型成为了行业内的热门话题。近日,豆包大模型的披露评测成绩引起了广泛关注,其较上一代“云雀”提升了 19%,展现出了强大的实力和潜力。
豆包大模型于 5 月 15 日正式推出,并在火山引擎原动力大会上惊艳亮相。该模型以其超低价格掀起了大模型降价潮,同时其卓越的模型能力也成为了行业焦点。在火山引擎的产品资料中,豆包模型团队公布的一期内部测试结果显示,在 MMLU、BBH、GSM8K、HumanEval 等 11 个业界主流的公开评测集上,Doubao-pro-4k 的总分为 76.8 分,相比上一代模型云雀 Skylark2 的 64.5 分有了显著提升。
此次评测涵盖了包括豆包通用模型 -pro、云雀 Skylark2 在内的九款国产大语言模型,于今年 5 月完成。除云雀 Skylark2 外,其他模型均为各家厂商最新发布的高级版本,通过 API 调用进行测试。评测结果表明,豆包大模型在多个方面表现出色。在评估代码能力的 HumanEval 和 MBPP 评测集上,豆包相比上一代模型提升了约 50%,这一成绩令人瞩目。在专业知识和指令遵循的评测集上,豆包分别获得了 33%和 24%的性能提升,并且成为得分最高的国产模型。此外,豆包模型在数学能力、语言理解能力以及综合评测集 CMMLU 和 CEval 的评测中也有不俗表现,得分排在前三。
然而,尽管豆包大模型取得了优异的成绩,但与 OpenAI 公布的 GPT-4 在这些评测集上的 80.1 分相比,仍存在一定的差距。这也表明,在大模型领域,我们仍有不断进步和提升的空间。
值得一提的是,此前智源研究院公布的覆盖全球 91 个语言模型的评测报告中,在偏重考察中文能力的主观评测中,云雀 Skylark2 排名第一,中文能力超过 GPT-4。这也从一个侧面反映了我国在语言模型领域的不断进步和发展。
目前,豆包模型尚未加入到第三方机构测试中,但预计在未来一到两个月内,许多第三方评测机构将会陆续披露该模型的评测结果。与此同时,与模型同名的 AI 对话助手“豆包”的官方公布月活用户数已经达到 2600 万,用户可以自由体验测试,这也为豆包大模型的进一步优化和改进提供了丰富的数据支持。
总的来说,豆包大模型的出现标志着我国在语言模型领域取得了重要的突破和进展。随着技术的不断创新和发展,我们有理由相信,豆包大模型将在未来发挥更加重要的作用,为人们的生活和工作带来更多的便利和创新。同时,我们也期待着我国的语言模型产业能够不断壮大,在全球范围内展现出更加卓越的实力和竞争力。