通义新一代开源模型Qwen2.5，又给AI圈带来一点小小震撼。

Qwen2.5-72B，硬刚Llama3.1-405B

首先是性能水平。Qwen2.5旗舰模型Qwen2.5-72B刷新开源性能天花板，其指令跟随版本Qwen2.5-72B-Instruct在MMLU-redux、MATH、MBPP等基准测评中，以不到1/5的参数获得超越Llama3.1-405B的成绩。

在MMLU-redux等十多个基准测评中，Qwen2.5-72B表现超越Llama3.1-405B

两个月前Meta开源Llama3.1-405B，不仅贡献了性能无敌的巨无霸，更是制造了AI圈新共识：开源超越闭源。

Llama3.1-405B在很多任务中都可与GPT-4o、Claude 3.5 Sonnet等顶级闭源模型一战。

Qwen也有同样发展趋势。三个月前发布的Qwen2-72B，性能超越文心4.0、豆包pro、混元pro等中国闭源模型，也胜过了当时最先进开源模型Llama3-70B。

Qwen2-72B在Hugging Face的开源大模型榜单Open LLM Leaderboard一举登顶，Hugging Face联合创始人兼CEO Clem发文：“Qwen2是王者，中国在全球开源大模型领域处于领导地位。”

Qwen2-72B在HuggingFace的开源大模型榜单Open LLM Leaderboard一举登顶

HuggingFace CEO Clem：Qwen2是王者，中国在全球开源大模型领域处于领导地位

而这一次，Qwen2.5又比Qwen2更胜一筹，整体性能提升18%左右。Qwen2.5-72B对同级尺寸的Llama3-70B实现性能完胜，甚至直接“越级”硬刚405B。

开源两强相争，最高兴的是开发者。405B虽然强悍，但很少有小企业和个人开发者用得起。通义千问把顶级模型的使用成本打了下来。

百模上架，最小模型都学了18T数据

通义带来的第二重震撼是模型数量。Qwen2.5全系列涵盖多个尺寸的大语言、多模态、数学和代码模型，每个尺寸又有基础版本、指令跟随版本、多种量化版本，总计上架100多个模型，刷新业界纪录。

语言模型方面，Qwen2.5开源了7个尺寸，0.5B、1.5B、3B、7B、14B、32B、72B，全部都在18T tokens数据上进行预训练，数据量超过了Llama3的15T。这些模型在同等参数赛道都创造了业界最佳成绩。

通义团队介绍，Qwen2.5的型号设定充分考虑下游场景的不同需求，比如3B是适配手机等端侧设备的黄金尺寸；32B是最受开发者期待的“性价比之王”，可在性能和功耗之间获得最佳平衡，Qwen2.5-32B的整体表现超越了上一代的Qwen2-72B。

专项模型方面，代码模型Qwen2.5-Coder 在多达5.5T tokens 的编程相关数据上作了训练；数学模型Qwen2.5-Math支持使用思维链和工具集成推理（TIR）解决中英双语的数学题，是迄今为止最先进的开源数学模型系列。

多模态模型方面，视觉语言模型Qwen2-VL-72B能识别不同分辨率和长宽比的图片，理解20分钟以上长视频，具备自主操作手机和机器人的视觉智能体能力。日前权威测评LMSYS Chatbot Arena Leaderboard发布最新一期的视觉模型性能测评结果,Qwen2-VL-72B成为全球得分最高的开源模型。

5万衍生模型，Qwen成了开发者首选

阿里云CTO周靖人公布了一张曲线图，全球三大开源模型家族Llama、Qwen、Mistral的衍生模型数量。截至9月中旬，Qwen系列的累计下载数据超过4000万，全世界的开发者又在Qwen的基础上二次训练了5万多个新模型，也就是Qwen的衍生模型。

全球三大开源模型族群的衍生模型数量，数据来自Hugging Face

排名第一的Llama拥有将近7万衍生模型，Mistral的数据是2.5万左右，排名第三。三个世界级模型群分别产自美国、中国、欧洲，与全球大模型的整体格局形成某种有趣的映照。

通义在开源大模型圈可以说是先发后至。

2023年8月通义首次开源，中国大模型市场处在“百模大战”时期，Qwen不过是平平无奇的“百模”之一，在海外的大模型核心竞争圈更是没有认知。

海外开发者对Qwen2模型的评价

一年之后，“百模”战局趋于收敛，有人离场、有人停滞，有人继续逆水行舟。通义是为数不多仍在坚定开展基模攻坚的大模型团队。

一年间，通义的开源模型有过四次大型迭代，日拱一卒，从2023年12月的Qwen-72B开始，逐步走进世界大模型竞争腹地，成为众多权威榜单的“登顶”常客。

基模的下游是应用，在中国的应用市场，通义是开发者的首选模型。金沙江创投主管合伙人朱啸虎就曾在多个场合提到，“在很多场景下，国内开源模型不比闭源模型差，完全足够支撑中国AI应用的发展。阿里的通义千问比Llama 3要还强，所以很多创业公司都是拿它来训练自己的垂直模型。”

Qwen的这片生态雨林，可能就是中国大模型对开源社区和AI技术最重要的贡献。

全球5万衍生模型，阿里通义造出开源雨林

Qwen2.5-72B，硬刚Llama3.1-405B

百模上架，最小模型都学了18T数据

5万衍生模型，Qwen成了开发者首选

文章目录

评论