如何看待周鸿祎祝贺阿里通义Qwen2登顶开源大模型世界榜单第一?开源潜力真的有这么大吗?

知乎热榜4个月前发布 NIUC!
1,060 0 0

段小草的回答

刚刚又在时间线上刷到了Qwen2的动态,作为iQwen我啪的一下就点了进去,原来是周鸿祎在聊Qwen2登顶开源大模型榜单Open LLM Leaderboard的事情,顺便发表了很多有关开源的观点。今天就顺着老周的观点聊聊大模型开源和大模型测评的话题。

如何看待周鸿祎祝贺阿里通义Qwen2登顶开源大模型世界榜单第一?开源潜力真的有这么大吗?

老周的观点总结起来就是:开源社区的力量是无穷的,开放协作共享知识的社区能聚集更大的人力物力;未来开源大模型的能力会超过闭源;大模型能力和场景相结合是人工智能下一步发展方向。

对于大模型开源,我一直是明确支持的,而且我认为,那些反对开源模型的人,非蠢既坏。不开源的确是一种选择的自由,但绝对不应该否定开源工作。我觉得但凡是学过计算机、对计算机有热爱、仍在从事互联网行业的人,不说信仰开源,至少会感恩开源。

开源由来已久,没有开源软件(OSS)就没有操作系统和基础设施,就没有互联网和移动互联网,任何一家互联网企业的业务都是构筑在无数开源软件基础上的。

大模型的开源同样如此,即便是那些闭源的模型公司,又有哪家没有使用开源的Transformer呢?特别是在高昂的训练成本面前,开源大模型显得更加珍贵。

开源的好处可太多了,比如充分调动社区活力,更加可靠可信赖,成本更低

上次Qwen2发布时有一张图我印象特别深刻,我给它起名叫「Qwen2和它的朋友们」。

如何看待周鸿祎祝贺阿里通义Qwen2登顶开源大模型世界榜单第一?开源潜力真的有这么大吗?

作为开源模型,阿里团队没有把功劳完全留给自己,而是充分感谢了那些在模型训练、微调、量化、部署、运行、评估以及Agent、RAG等业务框架中协作共享的开源小伙伴们。作为在OpenDevin蹭过PR的末流菜鸟,四舍五入我也参与了Qwen2的工作,与有荣焉。

所以参与开源本身是很令人感动的事情,在开源社区里,你只管开源模型,有人会愿意无私地来做量化、微调、框架,只为更多人更便利地使用模型。如果没有开源大模型,社区也不会如此热闹。

而在OpenAI的下游,你会看到很多趴在GPT API上挖空心思商业化的团队(没有贬义),因为他们在付费调用闭源模型,他们的目的就是盈利。

开源模型也相对更加安全和稳定可靠。开放本身就是一种安全,尽管OSS开源软件也有过投毒代码,但相比于控制一切的巨头,更多人还是会愿意相信开源软件。

至于稳定可靠就更好理解了,前段时间GPT崩了,利用GPT API服务的Perplexity也崩了,捎带把吃不下流量的Gemini和Claude也带崩了。如果开源模型,可以自己部署,也可以在多个云上做分布式容灾,更不用说本地部署的数据安全问题。从这个角度讲,开源模型在部署和运行方面肯定更可靠。

最后就是成本了(这里的成本指部署和推理成本)。虽然经过了几轮大模型API降价,大模型调用成本已经很低了。但…有没有可能,降价本身就有开源模型的因素在里面。

现在想做大模型落地,比较好的验证逻辑分为两步,第一步是是先拿最强的大模型去跑通业务流程;第二步是一点一点地往下调更小、更便宜甚至开源的模型,直到ROI的临界点。

开源模型成本一定是更低的,而且像Qwen2这样性能强劲的开源模型会卷得闭源模型跟着降价,某种意义上也是给开发者带来了更普惠的大模型。

顺便再聊几句模型测评吧。

不管哪一家大模型,只要有新模型发布,总会搬出一堆测评分数来证明自己的能力。大模型测评就像大模型的考试,通过特定的题目来测试模型,让用户更直观地了解不同模型的能力差异。

通过模型测评,我们可以全面了解模型在不同任务上的表现,确保模型安全无害。但模型这么多,大家都想得高分,也会(有意无意地)污染训练集,想要保证测评结果的公正客观其实并不容易。

也正是因为模型评测中存在刷分问题,才会有ChatBot Arena(当然模型对战也有模型对战的问题)和不断更新的测评集。比如题目里提到的LiveBench[1],就是Yann LeCun和Abacus.AI、NYU最新推出的测评集,通过每月发布新问题、确保每个问题都有可验证的、客观的事实答案以及提高问题的难度从6个类别18个不同任务来客观地评价模型。

应该说LiveBench难度还是比较高的,排第一的GPT-4o也只有53分(不像很多测试集现在已经被刷到接近90分了)。而Qwen2-72B目前在LiveBench上排名第9(开源模型第一),超过了LLaMA3-70B:

如何看待周鸿祎祝贺阿里通义Qwen2登顶开源大模型世界榜单第一?开源潜力真的有这么大吗?

在另一份同样是最近刚刚更新的HELM v1.4[2]上,Qwen2-72B则排名第5(开源模型第一):

如何看待周鸿祎祝贺阿里通义Qwen2登顶开源大模型世界榜单第一?开源潜力真的有这么大吗?

除了这种公开的测试集,很多大模型用户都有自己压箱底的测评问题或独有的测评任务来验证模型能力。

Qwen2开源以后,我拿之前做的一个客服信息的分类任务来测试,Qwen2只通过prompt就已经能达到93%的一级分类准度和72%的二级细分准度,再微调一下成绩还会更好。

如何看待周鸿祎祝贺阿里通义Qwen2登顶开源大模型世界榜单第一?开源潜力真的有这么大吗?

而之前我用同样的prompt测其他开源模型,分类准度都不太理想。这次Qwen2的表现让我觉得至少在这个场景下是可以拿来做落地尝试了。

对于不做开发的普通用户来说,直接用免费的通义网页版或者通义App就好了。通义的产品功能线很全,除了最基础的聊天功能,在通义App的工具、角色、频道页面上还能体验到很多实用好玩的功能。

如何看待周鸿祎祝贺阿里通义Qwen2登顶开源大模型世界榜单第一?开源潜力真的有这么大吗?

我用的最多的就是智文的阅读助手和听悟的音频总结。在学习和办公场景下非常方便实用,可以快速总结图书、文章、音频甚至播客的内容,极大提高汲取新信息的效率。

毕业季来临,马上要进入职场的应届生们也可以到「我的毕业很有AI」频道学习一下互联网、外企黑话,测试一下自己的班味儿浓度:

如何看待周鸿祎祝贺阿里通义Qwen2登顶开源大模型世界榜单第一?开源潜力真的有这么大吗?

总之,Qwen2作为开源模型,已经在各种评测集上证明了自己的实力。对于开发者,Qwen2也许是当前最好的选择,阿里云的百炼平台现在有免费的API和token,也兼容OpenAI接口格式,可以很方便地进行业务测试。对于普通用户,免费的通义App也提供了很多实用功能,不妨来试一试。

© 版权声明

相关文章

暂无评论

暂无评论...