国产大模型又有重磅!阿里发布通义千问旗舰版模型,采用开源策略

红星资本局1月30日消息,据“阿里云”微信公众号,1月29日凌晨,阿里云通义千问旗舰版模型Qwen2.5-Max全新升级发布。

据介绍,Qwen2.5-Max模型是阿里云通义团队对MoE(混合专家)模型的最新探索成果,预训练数据超过20万亿tokens,展现出极强劲的综合性能,在多项公开主流模型评测基准上录得高分。这是继DeepSeek之后又一国产AI大模型,且同样是开源模型。

阿里云发布新AI大模型

阿里美股大涨

阿里云通义团队将Qwen2.5-Max与目前领先的开源MoE模型DeepSeek V3、最大的开源稠密模型Llama-3.1-405B,以及同样位列开源稠密模型前列的Qwen2.5-72B进行了对比。在所有11项基准测试中,Qwen2.5-Max全部超越了对比模型。在测试大学水平知识的MMLU-Pro、评估编程能力的LiveCodeBench、综合能力评估的LiveBench,以及近似人类偏好的Arena-Hard等多个权威评测中,该模型均展现出与DeepSeek V3、GPT-4和Claude-3.5-Sonnet比肩,甚至领先的性能。

1月28日,阿里还开源了全新的视觉理解模型Qwen2.5-VL,推出了3B、7B、72B三个尺寸版本。其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越GPT-4o与Claude3.5。

值得一提的是,阿里云是今年总台春晚云计算AI独家合作伙伴,主要为春晚提供两部分技术支持:一是阿里云云转播技术支持全球华人云上看春晚,二是阿里云通义大模型技术支持春晚节目创新,创造全新的视听效果。

受新模型的影响,阿里巴巴(BABA.US)当天的股价一度涨超7%,收涨6.71%;1月29日盘中再度大涨,收涨0.71%,报96.715美元。

采用开源模型策略

不同于OpenAI等多数大模型厂商采取的闭源策略,阿里云、Meta(脸书母公司)和DeepSeek采用的都是开源策略。

DeepSee发布的DeepSeek-R1模型,以较低成本实现与OpenAI开发的GPT-o1相当的性能,引发市场对AI硬件需求的担忧,英伟达等半导体板块暴跌。DeepSeek的成功也被认为是开源模型的胜利。

图灵奖得主、Meta首席人工智能科学家杨立昆(Yann LeCun)此前表示,DeepSeek成功的正确解读应是“开源模型正超越专有模型”。

“DeepSeek从开放研究和开源获益良多,他们提出新想法,并基于其他人的工作进行创新。”杨立昆表示,“由于他们的工作是公开和开源的,所有人都能从中获益。这就是开源研究和开源技术的力量。”

阿里集团CEO吴泳铭曾表示:“通义的开源模型在中文世界的开发者使用广泛,当开发者使用阿里云的开源模型,需要把应用部署到线上的时候,就会自然而然地选用阿里云的服务。”

1月29日,MetaCEO马克·扎克伯格在财报后电话会上表示,在开源领域,一家公司的进步最终会使其他公司都受益,Meta也将持续发布自己的免费开源模型Llama系列。

红星新闻记者 吴丹若

上一篇:县城春节电影票贵过一线城市高达109.9元,电影院回应
下一篇:多国对DeepSeek使用设限
免责声明:

1、本网站所展示的内容均转载自网络其他平台,主要用于个人学习、研究或者信息传播的目的;所提供的信息仅供参考,并不意味着本站赞同其观点或其内容的真实性已得到证实;阅读者务请自行核实信息的真实性,风险自负。

2、如因作品内容、版权和其他问题请与本站管理员联系,我们将在收到通知后的3个工作日内进行处理。