如何看待通义千问最新发布的Qwen2 Technical Report,有哪些值得关注的地方? ?

知乎热榜4个月前发布 NIUC!
810 0 0

Trisimo崔思莫的回答

Qwen 2 在7万亿Tokens数据上进行训练,最后表现比Llama 3 15万亿 Tokens的表现要好。

我觉得Qwen 2的技术比Meta在LLM上的技术更好一些,用了更少的数据,更少的算力。

最后效果更好,语言支持也更多。

Qwen 2的主要问题是后训练阶段,微调还不大行,比llama要差一点,但两者和三大的微调能力都有差距。这在实战时,很吃亏,脑子好使,不见得适应任务。

© 版权声明

相关文章

暂无评论

暂无评论...