Mistral再次震惊了AI界!再次放出大招!
第一个基于Mamba2💥结构的模型,7B模型在某些指标上竟然超过22B模型!
近日来自法国的初创公司Mistral一口气发布了两款7B的开源模型!
数学推理模型——Mathstral!
基于Mamba2架构的代码生成模型——Codestral!
令人眼前一亮的无疑是Mamba2架构的应用,一直以来都是Transformer架构独占鳌头,看来AI领域又要掀起一场惊涛骇浪~🌊
**
项目简介
Codestral Mamba
与Transformer架构的模型不同,Mamba架构的模型具有线性时间推理的优势,并且理论上能够对无限长度的序列进行建模。
同时允许用户广泛地与模型互动,并且响应迅速,而不受输入长度的限制。这种效率对于代码生产力用例尤其重要。
因此Codestral Mamba专为处理较长的输入文本而设计,非常适合复杂的编码任务。
Codestral Mamba也是由Mamba架构的创造者共同设计实现的。
Codestral一经发布引来网友们的强烈反应,对此网友们纷纷表示Mamba架构即将迎来新的世界。
Codestral在HumanEval基准测试中远超其他开源模型。
同时Codestral Mamba 7B 在多项指标上竟然超越了基于 Transformer 架构的 Codestral 22B 模型,太不可思议了!😲
同时团队测试了 Codestral Mamba 的上下文检索功能,最高可达 256k 个tokens!
Mathstral
为了纪念阿基米德诞辰2311周年,Mistral发布了Mathstral模型,这是一个专为数学推理和科学发现而设计的特定7B模型。
Mathstral可以通过更多的推理时间计算取得更好的结果。
Mathstral 7B在 64 名候选人中以多数投票在MATH上获得68.37%的分数,以强奖励模型获得74.59%的分数。
可以说Mathstral力压 Llama3 和 Qwen2。
目前,两款模型在Hugging Face上均可下载,感兴趣的小伙伴可以去尝试一下。
🔗项目链接:
https://mistral.ai/news/codestral-mamba/
https://mistral.ai/news/mathstral/
关注「向量光年」公众号
加速全行业向AI的改变
关注「开源AI项目落地」公众号
与AI时代更靠近一点
关注「AGI光年」公众号
获取每日最新咨询