输入“/”快速插入内容

使用智谱 GLM-4-9B 和 SiliconCloud 云服务快速构建一个编码类智能体应用

2024年8月2日修改
📌
原创:是莫尔索
公众号:莫尔索随笔
GLM-4-9B 有多强
智谱家 GLM-4-9B 模型的发布,可以称得上大模型开源领域的又一个里程碑事件,除了开源行为本身值得肯定,我觉得开源出来的模型可以接入线上应用直接使用,可能对我们做应用层的开发者意义更大。话不多说,看 GLM-4-9B 的介绍:
首先 GLM-4-9B 模型结构与 GLM-3-9B 变化不大,主要是模型层数由 28 增加到 40,词表大小由 65024 扩充到 151552、支持的上下文长度支持从 32K、128K 扩展到 128K、1M(GLM-4-9B-Chat-1M),做应用最关注的就是长上下文(多轮对话记忆保持、各种阅读助手、长文本理解等常见场景)能力和 Function Call() 能力(工具调用,构建智能体应用的基础)。
1M 的上下文长度(约 200 万中文字符)方面,GLM-4-9B 在大海捞针([1])测试中全绿。
大海捞针测试
不过根据英伟达研究团队最近新提出的名为RULER()的新基准,这里选用的测试方法(测试的 LWM 声称上下文长度 1M,实际不到 4K)测出来的结果有水分,这个我还会自己测试下。
很多大模型上下文长度虚标严重
Function Call 能力也属于 gpt-4-turbo 级别,使用 Berkeley Function-Calling Leaderboard([2]) 测试集,这个对我来说比较有说服力,有兴趣的可以看看测试集设计,不过毕竟测试集公开,混在训练集里也不好说,这个我也按照相同思路设计了对应的私有中文测试集,引入之前也会再跑一次作为交叉验证。
虽然开源,但也存在限制,就是学术研究免费,商业用途需要登记且必须遵守相关条款和条件,详见 Github 项目介绍:https://github.com/THUDM/GLM-4
SiliconCloud 有多好用
SiliconCloud 是硅基流动推出的 GenAI 云服务,这是国内同类产品中我体验最好的一家,便宜且推理速度还快,国外已经有很多类似服务了,比如 Banana([3]), Replicate([4]), Beam([5]), Modal([6])OctoAI([7])ModelZ([8])BentoML([9])等,这类服务主要用于私有模型或常见开源模型托管,通过它们自研的推理加速引擎、大模型基础设施优化能力,大幅降低大模型的部署及推理成本,降低 AI 应用的成本,加速 AI 产品的落地 。
推理价格
SiliconCloud 便宜又快的原因就在于硅基流动自研的 LLM 推理加速引擎 SiliconLLM ,支持 Llama3、Mixtral、DeepSeek、Baichuan、ChatGLM()、Falcon、01-ai(零一万物开源的系列模型)、GPT-NeoX 等模型加速,下面是 SiliconLLM 与推理框架vLLM([10])(伯克利大学 LMSYS 组织开源)、Tensorrt-LLM([11])(英伟达开源)的性能比较。