加载失败,
Qwen2模型开源,你值得拥有!
Qwen2模型开源,你值得拥有!
2024年8月12日修改
转载请联系原作者取得授权
写在前面
期待已久的Qwen2,他如约而至,他来了,他带着5个尺寸的大模型迎面走来了。
代码块
Blog: https://qwenlm.github.io/blog/qwen2/
HF: https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f
Qwen2本次开源了4个Dense模型和1个MoE模型,Dense模型包括0.5B、1.5B、7B和72B 4个尺寸,MoE模型总参数为57B,激活参数14B。
Qwen2系列模型为多语言模型,除英文和中文外,还支持其他27种语言;同时具有RAG、工具调用、角色扮演、Agent等多种功能。
模型细节
Qwen2模型跟Qwen1.5模型一致,主要采用更多的数据(据说数据量在7T以上)进行模型训练。
几种模型支持最大上下文不同:
•
0.5B、1.5B模型支持最大上下文为32K;
•
57B-A14B MoE模型支持最大上下文为64K;
•
7B、72B模型支持最大上下文为128K。
除英文和中文外的27种语言如下:
•
西欧:德语、法语、西班牙语、葡萄牙语、 意大利语、荷兰语
•
东欧及中欧:俄语、捷克语、波兰语
•
中东:阿拉伯语、波斯语、希伯来语、土耳其语
•
东亚:日语、韩语
•
东南亚:越南语、泰语、印尼语、马来语、老挝语、缅甸语、宿务语、高棉语、菲律宾语
•
南亚:印地语、孟加拉语、乌尔都语
其中,MoE模型的共有72个专家,其中,8个共享专家和64个路由专家,每次模型推理时,8个共享专家一直被使用,路由专家则从64个中选择8个激活。
附件不支持打印
加载失败,