Ichigo项目是一个名为“草莓”的本地实时语音人工智能实验项目,其前身为llama3-s。这个项目的主要目标是扩展现有的文本基础大型语言模型(LLM),让其具备原生的“聆听”能力,可以理解为一种开放数据、开源权重的设备内置语音助手,类似Siri。
Ichigo的技术核心是采用早期融合技术,这一概念得到Meta的Chameleon论文的启发。项目团队将项目的开发和训练过程公开,与社区一起分享和合作。
在项目发展方面,Ichigo已经经历了多个版本的迭代:在Ichigo v0.3模型中,项目使用了更洁净和改进的数据,大幅提升了模型的MMLU评分,并显著增强了语音指令的跟随能力,同时可以在多轮交互中表现出色。值得注意的是,项目团队还采用了噪声合成数据,使模型能够拒绝处理非语音的音频输入,进一步提升了用户体验。
Ichigo项目是一个开放的研究计划,诚邀感兴趣的研究人员通过Homebrew的Discord频道进行合作讨论。团队也计划在未来通过众包的方式收集语料数据。
为了方便大家上手使用,Ichigo项目提供了Google Colab的使用教程。此外,对于如何进行合成数据的生成,也有相应的详细指导文件。项目的代码和各类模型训练所需的资源在GitHub上开放,感兴趣的用户可以根据自己的需求在本地进行安装和使用。
总而言之,Ichigo项目代表了一种创新尝试,将语音识别技术与大型语言模型相结合,致力于打造一个更为智能的语音助手系统。通过不断更新和完善,Ichigo提供了一个高效且可拓展的平台,让更多人参与到现代AI技术的发展中。