Project Icon

wav2vec2-xls-r-1b-ca-lm

基于先进技术的加泰罗尼亚语语音识别模型

此模型是在facebook/wav2vec2-xls-r-300m的基础上微调的,专注于加泰罗尼亚语自动语音识别。通过使用Mozilla Common Voice 8.0及其他数据集进行优化训练,该模型在加泰罗尼亚口音识别上展现出高效性能。适用于需要精准语音识别的场景,尽管资源稀缺的方言可能效果较差。模型精度得益于优化后的学习率和批量大小,是语音识别技术发展的重要里程碑。

tacotron - 谷歌发展的全自动语音合成模型Tacotron
Brain teamsGithubGoogleSound UnderstandingTacotron开源项目语音合成
由Google的声音理解与大脑团队开发的Tacotron,是一款实现自动语音生成的模型。包含相关论文的音频样本。注意:此模型不是Google的官方产品。
Chinese-Llama-2-7b - 开源且可商用的中文Llama2模型,兼容中英文SFT数据集与llama-2-chat格式
Chinese Llama 2 7BGithubHuggingFaceLlama2开源项目模型开源量化模型
项目提供开源且商用的中文Llama2模型及中英文SFT数据集,兼容llama-2-chat格式并支持优化。项目包含在线演示、多模态模型、Docker部署和API接口,支持多种硬件配置,用户可快速下载与测试。
clap-htsat-fused - 对比语言与音频学习中的多任务性能提升
CLAPGithubHuggingface多模态表示学习对比学习开源项目模型零样本音频分类音频表示
CLAP项目使用对比语言-音频预训练模型结合音频编码器与文本编码器,提升多模态学习表现。该模型支持文本到音频检索、零样本音频分类及监督音频分类等多项任务。通过特征融合机制和关键词到字幕增强,CLAP能高效处理不同长度的音频输入。所发布的LAION-Audio-630K数据集及模型在文本到音频检索和零样本音频分类中表现优异,适用于零样本音频分类及音频、文本特征提取。
llama2_xs_460M_experimental - 了解LLaMA与LLaMa 2的小型实验版本及其精简模型参数
GithubHuggingfaceLLaMa 2MMLUTokenization大模型开源开源项目模型
项目呈现Meta AI的LLaMA与LLaMa 2开源重现版本,并采用缩小的模型参数:llama1_s为1.8B,llama2_xs为460M。训练基于RedPajama数据集,使用GPT2Tokenizer分词,支持通过HuggingFace Transformers库直接加载以及文本生成。模型在MMLU任务中表现评估,其中llama2_xs_460M在0-shot和5-shot中分别得21.13和26.39的分数。
bert-base-portuguese-cased - 为巴西葡萄牙语优化的高性能预训练模型
BERTGithubHuggingface开源项目模型神经网络自然语言处理葡萄牙语预训练模型
BERTimbau是一个专为巴西葡萄牙语开发的预训练BERT模型,在多项自然语言处理任务中表现出色。该模型提供Base和Large两种版本,适用于掩码语言建模和文本嵌入等应用。作为neuralmind团队的开源项目,BERTimbau为葡萄牙语NLP研究和实践提供了有力支持。
ultravox-v0_4 - 结合语音与文本处理的多模态模型
AI模型Fixie.aiGithubHuggingfaceUltravox多模态开源项目模型语音识别
Ultravox是一种多模态语言模型,结合了Llama3.1-8B和Whisper-medium技术,支持语音和文本的输入。通过特殊音频标记,该模型将音频转换为文本嵌入以生成输出。未来版本计划支持直接生成语音。Ultravox可以应用于语音代理、翻译和音频分析。模型使用多语种语音识别数据集进行训练,并在8x H100 GPU上运用BF16精度。最新版本在A100-40GB GPU上实现首次生成标记时间约为150毫秒。
distil-whisper - 快速高效的音频转录模型
Distil-WhisperGithub开源项目机器学习模型压缩自然语言处理语音识别
Distil-Whisper是OpenAI Whisper模型的蒸馏版本,速度提升6倍,模型规模缩小49%,同时保持了相近的准确性。该项目支持短语音和长语音转录,提供多个针对英语语音识别的高效模型。Distil-Whisper还可作为Whisper的辅助模型实现推测解码,在保证输出一致性的同时将速度提升2倍。
VideoLLaMA2 - 增强视频理解的多模态语言模型
AIGithubVideoLLaMA2多模态大语言模型开源项目视频理解
VideoLLaMA2是一款先进的视频语言模型,通过增强空间-时间建模和音频理解能力,提高了视频问答和描述任务的性能。该模型在零样本视频问答等多项基准测试中表现出色。VideoLLaMA2能处理长视频序列并理解复杂视听内容,为视频理解技术带来新进展。
Replete-LLM-V2.5-Qwen-14b-GGUF - Replete-LLM-V2.5-Qwen-14b模型的多量化处理与硬件优化概述
ARM芯片GithubHuggingfaceRombos-LLM-V2.5-Qwen-14b开源项目性能比较模型模型优化量化
该项目对Rombos-LLM-V2.5-Qwen-14b模型进行了多种量化优化,使用了llama.cpp的b3825版本。支持多种量化格式,如f16、Q8_0、Q6_K_L等,适用不同硬件环境,推荐Q6_K_L和Q5_K_L以实现高质量和资源节省。用户可根据硬件需求选择合适的格式,并使用huggingface-cli进行下载。针对ARM芯片提供了特定的优化量化选项Q4_0_X_X,广泛适用于文本生成应用,提升运行效率和输出质量。
YAYI2 - 中科闻歌研发的多语言开源大模型
GithubYAYI2-30B中文预训练多语言大语言模型开源开源项目性能提升
YAYI 2,由中科闻歌研发,30B参数的多语言开源大模型。采用超过2万亿Tokens的多语言语料进行预训练,通过百万级指令和人类反馈强化学习微调,极大提升其在多领域的应用效率。现开源YAYI2-30B,助力全球中文AI技术的创新与进步。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号