Project Icon

nlp_chinese_corpus

中文自然语言处理高质量多任务语料库

该中文自然语言处理项目提供丰富的高质量语料,包括维基百科条目、新闻、百科问答等,目标是解决中文大规模语料匮乏的问题。项目支持10大任务和9个模型的基准测试,并提供一键运行和详细性能比较,旨在提升中文NLP标准。适用于多种实际应用场景,如词向量训练、关键词生成和标题生成,方便研究人员和从业者获取和利用中文语料。

wit - 全球最大多语言多模态数据集,助力机器学习模型优化
GithubWITWikipedia多模态开源项目数据集机器学习
Wikipedia-based Image Text (WIT) 数据集包括3760万张图片与文本对,涵盖108种语言和1150万独特图片。该数据集旨在支持多模态机器学习模型的训练,特别是在多语言环境下的有效性已得到广泛验证。WIT数据集获得了WikiMedia基金会的年度研究奖,并且现已开放下载,为研究人员和开发者提供了宝贵的资源和支持。
base1 - 基于LTP实现的高效中文自然语言处理任务
GithubHuggingfaceLTP分词开源项目感知机算法模型深度学习模型自然语言处理
LTP是一款中文自然语言处理工具,支持分词、词性标注和命名实体识别等任务。在Huggingface Hub上提供快速访问,并支持深度学习和感知机算法模型。用户可根据需求选择合适的模型,以满足不同应用场景的效率和精度要求。新的Pipeline API提升了推理速度和易用性,为研究和开发人员提供了多样化的应用支持。
Yi-6B-200K - 提供中英文双语支持的开源大语言模型
GithubHuggingfaceYi双语开源开源项目技术报告模型语言模型
致力于构建开源大语言模型,具备出色的语言理解、常识推理和阅读理解能力。Yi系列通过多语言语料库训练,在许多基准测试中表现优异。采用Llama架构,由Yi团队独立开发数据集与基础设施,适合个人、学术和商业使用。
text2vec-base-chinese - 高效中文语义匹配与文本嵌入模型
CoSENTGithubHuggingfacesentence-transformers中文模型开源项目文本匹配模型语义相似度
text2vec-base-chinese是一个采用CoSENT方法训练的中文语义匹配模型,可将句子转换为768维密集向量。该模型在句子嵌入、文本匹配和语义搜索等任务中表现优异,在多项中文文本匹配基准测试中展现出卓越性能和效率。模型支持通过text2vec、Hugging Face Transformers或sentence-transformers等库轻松集成,便于开发者快速应用于实际项目中。
zero_nlp - 中文NLP训练与应用框架
Githubpytorchzero_nlp中文NLP大模型开源项目模型训练
zero_nlp是基于pytorch和transformers的中文NLP框架,支持从数据处理到模型部署的整个工作流程。它特别适用于处理大数据集、训练和部署多卡串联大模型,支持包括gpt2、clip在内的丰富模型类型,适用于文本分类、生成及多模态处理等多种任务。
dclm - 大型语言模型训练与评估的开源综合框架
DataComp-LMGithub大语言模型开源项目数据处理模型训练评估
DataComp-LM是一个开源的大型语言模型训练和评估框架。它提供了超过300T的CommonCrawl标准语料库、基于open_lm的预训练方案和50多项评估指标。研究人员可利用该框架在411M至7B参数规模下进行数据集构建实验。通过数据集优化,DataComp-LM已显著提升了模型性能,创建了多个跨规模表现优异的高质量数据集。
data_management_LLM - 大型语言模型训练数据管理资源汇总
Github大语言模型开源项目数据质量监督微调训练数据管理预训练
该项目汇总了大型语言模型训练数据管理的相关资源。内容涵盖预训练和监督微调阶段,探讨领域组成、数据数量和质量等关键方面。项目还收录了数据去重、毒性过滤等技术,以及不同因素间的关系研究。这些资源为优化LLM训练数据管理提供了全面参考。
Luotuo-Chinese-LLM - 综合性中文大语言模型开源项目
Github中文大语言模型子项目开源开源项目快速上手骆驼项目
骆驼(Luotuo)项目是一个综合性中文大语言模型开源项目,涵盖Chat凉宫春日、骆驼嵌入、骆驼QA等多个子项目。该项目由来自商汤科技和华中师范大学的研究人员发起,致力于推进中文大语言模型的研发和应用。项目内容包括模型训练、数据处理和应用开发等多个领域,为研究人员和开发者提供了丰富的开源资源。
Pretrained-Language-Model - 先进预训练语言模型与优化技术集合
GithubMindSporePyTorchTensorFlow开源项目自然语言处理预训练语言模型
此开源项目汇集了多个先进的预训练语言模型和相关优化技术。包含200B参数中文语言模型PanGu-α、高性能中文NLP模型NEZHA、模型压缩技术TinyBERT和DynaBERT等子项目。这些模型在多项中文NLP任务中表现出色,支持MindSpore、TensorFlow和PyTorch等多种深度学习框架。
Chinese-LLaMA-Alpaca-3 - 中文Llama-3大模型及其精调版本的特性
GithubLlama-3-Chinese中文大模型开源开源项目性能提升指令精调
Chinese-LLaMA-Alpaca-3项目推出了基于Meta新一代Llama-3技术的中文模型版本,涵盖原始及指令精调版本。这些模型利用海量中文数据增强了语义理解与指令执行性能,可广泛适用于多种中文文本处理任务。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号