Trisimo崔思莫的回答
Mamba憋屈了很久,受尽委屈和凌辱,这次总算扬眉吐气了。和主流大厂Mistral牵上了手,效果看起来很不错。这是我2024年初的一个预言,Mamba会走向主流。
但我认为是Mistral更需要Mamba,Mamba 2五月最后一天推出,七月份Mistral就给到成品。Mistral: 急! 这个模型目前还没有太大的实战价值,等下一代超大模型诞生。
要做闭源SOTA讲究的是个生态位,ChatGPT吃了大头,其他公司就要找差异化路线,这很难,现在前面又顶着拿着百亿补贴的Claude,Gemini,Grok,对于Mistral来说,生态位其实已经没有了。
Mamba 2现在还在早期阶段,它的价值主要就是价格低,尤其是做长文本,长文本序列越往后,越是费钱。对于开发,文本窗口不足,理解不了大项目逻辑的。 同时,Mamba的推理能力也没有明显降低。
想象一下,ChatGPT 百万Tokens卖你15美金,Mamba在同性能下,卖你1.5美元,文本窗口是你的好几倍,那么买API的开发者会不会动摇?
我觉得谷歌可能会把Gemma开源模型也切换到Mamba或Cobra,拭目以待。
Mamba 2的作者之一 Tri Dao,是Together.AI的首席科学家。(就是你经常白嫖模型的地方)
他不仅参与了Mamba 2开发,还参与了FlashAttention-3的开发,用来加速CUDA。
Tri Dao的兴趣似乎就是降本,增速。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...