MNBVC

MNBVC大规模中文语料集：覆盖多样类型数据支持开源社区

MNBVC 中文语料集开源社区数据清洗 huggingface Github 开源项目

MNBVC中文语料集由MOP里屋社区发起，目标是创建最大的中文互联网语料集，涵盖新闻、小说、论文等多种类型数据。当前数据量为34582GB，最终目标为40TB。MNBVC提供多种文件格式的数据，包括txt、json、jsonl和parquet，并配备一系列优化工具及爬虫代码协助数据处理。项目欢迎有技术背景的志愿者参与，提升数据清洗效率。访问Wiki了解更多信息。

访问官网

Github

Huggingface

介绍相关项目

bert-base-vietnamese-uncased - 增强越南语文本分析的BERT语言模型

BERTGithubHuggingfacetrituenhantao.io开源项目模型筛选分类越南语

该BERT模型专为越南语的新闻和维基百科数据而设计，适用于序列分类任务。用户可以通过Python代码轻松导入和使用，提升文本分析和自然语言处理的效率。由trituenhantao.io团队于2020年发布在GitHub，用户可以轻松访问到详细的文档和支持。此模型为自然语言处理和机器学习研究者及开发者提供了强大可靠的工具。

Yi-6B - 开源双语大型语言模型的性能和应用

GithubHuggingfaceYi series人工智能大语言模型开源开源项目机器学习模型

Yi系列模型是01.AI从头自主训练的开源大型语言模型，支持双语，适用于语言理解、常识推理和阅读理解。Yi-34B-Chat在多项评估中表现出色，仅次于GPT-4 Turbo，而Yi-34B在开源模型中名列前茅。该系列模型采用Transformer架构，结合高质量训练数据集和高效管道，适合广泛的个人、学术和商业用途，支持在多个平台试用。

Awesome-Chinese-LLM - 中文大语言模型开源项目与应用全览

Github中文LLM可商用多轮对话大语言模型开源项目

探索Awesome Chinese LLM——这是一个集中展示中文大语言模型的开源项目、应用和教程的平台。包括100+项经优化微调的资源，助力自然语言处理的学术与应用开发。

rbt3 - 改进中文自然语言处理的全词掩蔽预训练模型

BERTGithubHuggingfaceRoBERTa-wwm-ext中文预训练全词遮蔽开源项目模型自然语言处理

rbt3是重新训练的三层RoBERTa-wwm-ext模型，采用全词掩蔽技术的中文BERT预训练模型，设计用于提升中文自然语言处理的效率。该模型加强了对完整单词的识别，从而提高填空任务的准确性和语言理解能力。由专业团队在开源基础上开发，支持fill-mask任务，并提供多种资源以支持后续研究。例如，Chinese MacBERT和Chinese ELECTRA可以在不同应用场景中提升自然语言处理性能。利用TextBrewer工具，可在该模型中实现知识蒸馏，进一步扩展其应用潜力。

chinese_speech_pretrain - 中文语音预训练模型，wav2vec 2.0和HuBERT的开源实现

GithubHuBERTWenetSpeechwav2vec 2.0中文语音识别开源项目语音预训练模型

chinese_speech_pretrain项目开源了基于WenetSpeech数据集训练的中文语音预训练模型。项目包含wav2vec 2.0和HuBERT的BASE与LARGE版本，均使用1万小时多样化中文语音数据训练。模型在自动语音识别任务中表现优异，尤其适合低资源场景。项目提供模型下载及使用指南，可用于语音识别、语音合成等研究领域。

Awesome-Multimodal-Large-Language-Models - 多模态大语言模型研究资源与最新进展汇总

Github多模态大语言模型开源项目指令微调模型评估视觉语言模型视频理解

该项目汇总了多模态大语言模型(MLLMs)领域的最新研究成果，包括论文、数据集和评估基准。涵盖多模态指令微调、幻觉、上下文学习等方向，提供相关代码和演示。项目还包含MLLM调查报告及MME、Video-MME等评估基准，为研究人员提供全面参考。

wav2vec2-large-xlsr-53-chinese-zh-cn - 中文自动语音识别模型提供广泛应用支持

Common VoiceGithubHuggingSoundHuggingfaceXLSR Wav2Vec2开源项目模型语音识别语音转录

该模型基于Common Voice、CSS10和ST-CMDS数据集，对facebook的wav2vec2-large-xlsr-53进行了微调，以实现中文自动语音识别。模型能够处理16kHz采样率的语音输入，可通过HuggingSound库直接进行语音转录或使用定制推理脚本。评估结果显示，模型在Common Voice测试数据集上WER为82.37%，CER为19.03%。感谢OVHcloud提供的GPU支持，该模型适用于医药、教育等领域语音数据处理。

chatbot - 可用自定义语料训练的中文聊天机器人

GPT模型GithubMindSporeRLHFSeq2Seqchatbot开源项目

该项目提供一个可用自定义语料训练的中文聊天机器人，并即将推出GPT版本，新增MindSpore支持。项目包含Seq2Seq和GPT两大分支，计划于2024年内实现类似mini-GPT4的图文多模态对话功能，并增强分布式集群训练能力。用户可下载小黄鸡语料进行实践，项目支持TensorFlow和PyTorch。

llm-resource - 大模型资源汇总及实用技术详解

ChatGPTGPT-2GithubLLMMOETransformer开源项目

LLM百宝箱是大模型相关资源的综合汇总，包括算法、训练、推理、数据工程、压缩和测评等方面。用户可以通过目录和链接快速找到相关内容，如Transformer和GPT模型的原理和源码解析，以及混合专家模型（MoE）等前沿技术。此外，还提供了LLM微调、对齐和推理优化的实现方案和技巧，帮助开发者和研究者深入掌握并应用大模型技术。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号