争夺“最大值”,阿里正式开启720亿参数模型

日期:2023-12-04 18:30:19 / 人气:129

争夺“最大值”,阿里正式开启720亿参数模型。“12月1日,阿里云正式开放720亿参数的大模型Qwen-72B。
根据阿里官方信息,Qwen-72B基于3T tokens高质量数据进行训练,在10项权威基准评测中获得开源模型最好成绩,并在部分评测中超越闭源GPT-3.5和GPT-4。
阿里云CTO周表示,开源生态对于推动中国模式的技术进步和应用非常重要。依桐钱文将持续投入开源,希望成为“AI时代最开放的大模型”,与合作伙伴一起推动大模型的生态建设。
同时,依桐钱文还开放了18亿参数型号Qwen-1.8B和音响型号Qwen-Audio。
此前,依桐千问系列模型在8月份开放了Qwen-7B和Qwen-7B-Chat,阿里云成为国内首家开放AI模型的头部科技企业。9月,阿里云又开放了140亿参数模型Qwen-14B。
此次发布的Qwen-72B是依桐家族迄今为止最大的AI机型。至此,在“依桐”系列大模型家族中,已经开启了18亿、70亿、140亿、720亿四个参数规模的大语言模型。
早在11月8日举行的2023世界互联网大会上,阿里巴巴CEO武勇明就曾预测过最新模型开源的消息,称即将开放720亿个参数模型,这将是国内最大的开源模型。
不到一个月后,720亿参数模型如期而至,但它并不是国内最大的开源模型——11月27日,浪潮发布并开放了source 2.0基础模型,包括1026亿、518亿、21亿参数规模。
相比之下,国际领先的开源模型Llama系列的最大模型参数为700亿(7月发布)。
在过去一年的大模型市场竞争中,参数尺度是玩家竞争的焦点之一。究其原因,大规模模型能力的基石是以亿为单位计算的参数规模训练下形成的质变。但需要指出的是,业内普遍认为,在达到性能质变的奇点之后,参数尺度与模型性能的关系将不再是完美的正相关。
一位大型模型从业者告诉《城界》:“除了不断增加模型的规模,我认为在市场的现阶段,提高模型的可用性也是非常重要的。比如通过模型压缩技术,超大规模的模型可以运行在客户的边缘。因为很多领域并不需要超大规模的模型,相反,超大规模的模型运算还可能带来资源的浪费。”
据他介绍,模型压缩领域有很多技术,比如模型量化、剪枝、知识提炼等。早期主要应用场景在边缘AI领域,旨在让模型运行在资源有限的嵌入式设备上。但随着大模型AI对资源的高要求,模型压缩也成为大模型推理优化的重要方向。
(作者|董文淑,编辑|董玉清)”


作者:焦点注册登录平台




现在致电 8888910 OR 查看更多联系方式 →

COPYRIGHT © 焦点注册登录平台 版权所有