Trisimo崔思莫的回答
Qwen 2 在7万亿Tokens数据上进行训练,最后表现比Llama 3 15万亿 Tokens的表现要好。
我觉得Qwen 2的技术比Meta在LLM上的技术更好一些,用了更少的数据,更少的算力。
最后效果更好,语言支持也更多。
Qwen 2的主要问题是后训练阶段,微调还不大行,比llama要差一点,但两者和三大的微调能力都有差距。这在实战时,很吃亏,脑子好使,不见得适应任务。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...
Trisimo崔思莫的回答
Qwen 2 在7万亿Tokens数据上进行训练,最后表现比Llama 3 15万亿 Tokens的表现要好。
我觉得Qwen 2的技术比Meta在LLM上的技术更好一些,用了更少的数据,更少的算力。
最后效果更好,语言支持也更多。
Qwen 2的主要问题是后训练阶段,微调还不大行,比llama要差一点,但两者和三大的微调能力都有差距。这在实战时,很吃亏,脑子好使,不见得适应任务。