Serendipity的回答
相比于OpenAI扭扭捏捏、踌躇不定的挤牙膏姿态,相比李彦宏说闭源模型能力会持续领先,开源意义不大的样子,我还是更欣赏Meta和阿里这种走开源路线的厂商。它们真正贯彻了互联网的精神:开放、平等、协作、分享。
今日,阿里云用Qwen2再次向我们证明了一个道理:开源并不代表落后,反而成为了我们角逐国际舞台的重要力量。
一、关于大模型
我相信未来几年仍然是LLM大放异彩的时光,更宽泛的说,注定是生成式 AI(AIGC)大放光芒的一段岁月。
从LLM出现以后,我感觉自己几乎每天都会使用LLM来办公以及生活等,轮番上阵,不曾停歇。无论是代码生成、文档解读,还是无趣时的闲聊,似乎没有哪天是LLM与我缺席的。
阿里的通义千问算是我比较常用的一个LLM了,他们非常贴心的开放了自己的智能体,一个类似prompt库的智能体集合,非常方便。其在输入问题时其也可自动化的联网搜索,这是目前免费的gpt-3.5所无法提供的联网以及插件功能,加之网络访问问题,合起来构成我不怎么用openai的原因。
今天,通义开源了Qwen2系列。Qwen的开源在海外一直备受关注,口碑很好。果然,这次也是刚刚开源,就登上了HuggingFace的开源大模型的榜首,HF的联合创始人兼首席执行官克莱门特·德朗格,还在X上宣布了。这排面,确实可以。
从官方发布的技术Blog来看,Qwen2-72B在十多个权威测评中,都获得了超越了美国最强的开源模型Llama3-70B。在这里可以看到:
此外,我对其能将Qwen2各尺寸开源的行为,表示最高的敬意和欢愉。
二、不失崇高:开源之旅
我对阿里的开源选择,一直都是持续关注的,不仅仅作为一个科研人员,一个技术爱好者,也作为一个大模型使用者来说,开源的伟大,无需多言。
去年八月初,阿里云便率先开源了自己的QWen-7B和QWen-7B-Chat,一度冲上HuggingFace趋势榜单,Github也获星颇多,两个模型的参数规模都是70亿。
接着,仅仅半个多月后,阿里云马上又紧跟着宣布开源通义千问多模态大模型Qwen-VL和Qwen-VL-Chat,我当时读了相关报告,然后马上体验,之后还写了回答,里面也讲了我对多模态图文交互功能的期待。
这次,Qwen2开源系列包含5个尺寸的预训练和指令微调模型,Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B,其中Qwen2-57B-A14B为混合专家模型(MoE)。系列模型还大幅提升了代码、数学、推理、指令遵循、多语言理解等能力
今日,阿里云用Qwen2再次向我们证明了一个道理:开源并不代表落后。打败OpenAI的,一定不是一个表现更优秀的闭源模型,而是开源这条赛道。
同时,开源也更受人们的欢迎和期待,大家也有更多的好奇心和兴趣
这形成了良性循环,促进开源模型更好的进步,促使整个通义模型大家庭都在以一种十分惊人的速度持续迭代和更新完善。
三、关于Qwen2
我还抢先体验了一下Qwen2,进行了匿名的随机对战测试。不得不说,Qwen的能力确实够强,文本生成速度飞快,也够专业,可为实力强劲。
看来阿里不仅开源频率和速度全球无二、模型性能也不断进化,两面齐开花。
这样的精彩表现,一是阿里本身的技术能力,二是秉持着伟大的互联网开源精神,多方互相协作的结果。
不到一年时间,通义先后开源数十款不同尺寸的模型,包括大语言模型、多模态模型、混合专家模型、代码大模型。开源频率和速度全球无二,模型的性能也随着版本迭代而肉眼可见地进化,从Qwen-72B开始,逐渐步入全球大模型竞争的核心腹地,在权威榜单多次创造中国大模型的“首次”。
可以说,Qwen是国内唯一出现在OpenAI视野里,可以参与国际竞争的国产大模型。不久前,OpenAI创始人奥特曼在X上转发了一条OpenAI研究员公布的消息,GPT-4o在测试阶段登上了Chatbot Arena(LMSys Arena)榜首位置,这个榜单是OpenAI唯一认可证明其地位的榜单,而Qwen是其中唯一上榜的国内模型。
不仅仅是作为一个使用者,各国的开发者也都对此持赞誉态度。毕竟,大众的眼睛是雪亮的。
根据通义千问技术博客披露(https://qwenlm.github.io/zh/blog/qwen2/),在Qwen1.5系列中,只有32B和110B的模型使用了GQA。这一次,所有尺寸的模型都使用了GQA,以便让用户体验到GQA带来的推理加速和显存占用降低的优势。针对小模型,由于embedding参数量较大,研发团队使用了tie embedding的方法让输入和输出层共享参数,增加非embedding参数的占比。
我还注意到优化了多语言场景中常见的语言转换(code switch)问题,千问这次,还是针对性地对除中英文以外的27种语言进行了增强,这下算是“one wrold one dream”了233333
其在长文本的表现上也可圈可点,能够完美处理128k上下文长度内的信息抽取任务。
最后,我本人是研究网络安全的,我看到Qwen2的技术报告也提到了自己安全部分的进展,特定关注了一下。
阿里的报告展示了大型模型在四种多语言不安全查询类别(非法活动、欺诈、色情、隐私暴力)中生成有害响应的比例。测试数据来源于Jailbreak,并被翻译成多种语言进行评估。
通过显著性检验(P值),发现Qwen2-72B-Instruct模型在安全性方面与GPT-4的表现相当,并且显著优于Mixtral-8x22B模型。(PS:Llama-3在处理多语言提示方面表现不佳,因此没有将其纳入比较。)
模型的安全性问题一直以来都是研究者高度关注的问题,例如OpenAI首席科学家Ilya Sutskever此前持续强调对齐问题,也因对公司模型的安全性担忧,曾参与对Sam Altman的反对行动。
很高兴Qwen在安全方向上迈出有意义的一步进展。
四、一些感想
Qwen从最开始单一感官的、仅支持文本输入的语言模型,到“五官全开”的、支持文本、图像、音频等多种信息输入的多模态模型,到如今性能全面超越所有国内闭源大模型,一步步我都持续关注,看在眼里,为这样的进取而开心。更重要的是,秉持着伟大的互联网精神,这还是开源的。
从去年到现在,阿里这种连续快速的开源动作,显示出了其拥抱开源的决心和态度。国内头部大模型厂商的技术引领和技术共享,不仅对于推进中国大模型生态建设意义重大,而且对于所有开发者和用户的帮助和体验也都是极为重要的。
我很欣赏开源的做法,在相当长的时间内,开源必将带来更大的普及性,占据更大的讨论价值和研究地位,取得更大的技术进步。 此外,得益于阿里云的存在,通义千问本身也在提供云端的自研大模型,这种开源和云端的一体结合共存,我觉得为了会吸引越来越多的普通用户和开发者。
最后,希望秉持着Meta和阿里云这种开源精神的大模型厂商越来越多,技术共享,百花齐放,构建更开放完善的LLM生态。
以上,谢谢。