Chinese-Word-Vectors

多样化中文词向量预训练模型集合

Chinese Word Vectors 词向量语义关系中文语料库 Github 开源项目

该项目集成了多种中文词向量模型，涵盖稠密和稀疏表示方法，以及词、n-gram、字符等上下文特征。同时提供中文类比推理数据集CA8和评估工具包，便于模型质量评估。这些预训练资源可应用于多种自然语言处理任务，为相关研究和开发工作提供了有力支持。

Github

文档

论文

介绍相关项目

open-text-embeddings - 使用多源模型的OpenAI API兼容文本向量生成工具

GithubLangChainOpenAI APIembeddingsopen-text-embeddingssentence-transformers开源项目

该项目创建了与OpenAI API兼容的文本向量生成端点，支持多种开源句子转换模型，包括BAAI/bge-large-en、intfloat/e5-large-v2、sentence-transformers等。提供详细的本地和云端部署指南，方便用户在多种环境下运行服务器，实现高效查询与存储。用户也可通过Colab在线测试，体验开源文本向量生成的便捷性。

Awesome-LLMs-Datasets - 完整收录大型语言模型数据集的多维度分类概览

GithubLLMs数据集大语言模型开源项目指令微调数据集评估数据集预训练语料库

这个项目全面收集和分类了大型语言模型(LLM)数据集，包括预训练语料库、指令微调数据集、偏好数据集、评估数据集和传统NLP数据集五大类别。新增的内容涵盖多模态大语言模型数据集和检索增强生成数据集。项目统计了444个数据集的详细信息，覆盖8种语言和32个领域，为LLM研究提供了全面参考资源。

Yi-6B-200K - 提供中英文双语支持的开源大语言模型

GithubHuggingfaceYi双语开源开源项目技术报告模型语言模型

致力于构建开源大语言模型，具备出色的语言理解、常识推理和阅读理解能力。Yi系列通过多语言语料库训练，在许多基准测试中表现优异。采用Llama架构，由Yi团队独立开发数据集与基础设施，适合个人、学术和商业使用。

Keras-TextClassification - 多样预训练模型支持的高效文本分类工具

GithubKeras-TextClassification嵌入式模型开源项目文本分类深度学习神经网络

为中文用户提供高效的文本分类解决方案，支持FastText、BERT、Albert等多种预训练模型，涵盖词、字、句子嵌入。详细介绍数据处理与模型训练流程，通过下载与调用数据，实现多标签分类和文本相似度计算，简化复杂的自然语言处理任务。

Chinese-LLaMA-Alpaca-3 - 中文Llama-3大模型及其精调版本的特性

GithubLlama-3-Chinese中文大模型开源开源项目性能提升指令精调

Chinese-LLaMA-Alpaca-3项目推出了基于Meta新一代Llama-3技术的中文模型版本，涵盖原始及指令精调版本。这些模型利用海量中文数据增强了语义理解与指令执行性能，可广泛适用于多种中文文本处理任务。

chinese-clip-vit-base-patch16 - 中文数据驱动的多模态对比学习工具

Chinese-CLIPGithubHuggingface图像识别多模态检索开源项目模型深度学习零样本学习

项目通过ViT和RoBERTa实现了中文CLIP模型，支持图像和文本的嵌入计算及相似性分析，具备零样本学习和图文检索功能。该模型在多项基准测试中表现优秀，包括MUGE、Flickr30K-CN等。结合其官方API，用户可轻松实现多场景中的图文转换与识别。详细信息和实施教程可在GitHub获取。

chinese-roberta-wwm-ext - 全词掩码技术驱动的中文BERT预训练模型

BERTGithubHuggingface中文自然语言处理开源项目整词掩码机器学习模型预训练模型

chinese-roberta-wwm-ext是哈工大讯飞联合实验室(HFL)开发的中文BERT预训练模型，采用全词掩码技术。该技术相较于字级掩码，能更有效地学习词级语义，从而提升中文自然语言处理效果。模型在多项中文NLP任务中展现出优秀性能，为相关研究和应用提供了重要基础。

jina-embeddings-v2-base-zh - 基于Transformer的中文文本向量模型，适用于语义检索和相似度计算

GithubHuggingfacefeature-extractionsentence-transformers句子相似度开源项目模型模型评估自然语言处理

基于Transformer架构的中文文本向量模型，支持句子相似度计算、文本分类、检索和重排序功能。在MTEB中文基准测试中完成了医疗问答、电商等领域的评估，支持中英双语处理，采用Apache-2.0开源许可证。

sentence-transformers-multilingual-e5-small - 多语言句子相似性和分类模型，覆盖多种语言选择

AmazonReviewsGithubHuggingfacemultilingual-e5-small分类句子相似性多语言开源项目模型

该项目提供多语言句子相似性和分类功能，适用范围广泛。采用MIT许可证，通过英语、德语、法语、西班牙语和中文等语言实现较高的精准度。通过Amazon反事实分类和情感极性任务表现出色，涵盖丰富的数据集和评估任务，如重排序和语义文本相似等，有效支持文本分类及自动化分析。

Baichuan2 - 开源大语言模型

Baichuan 2Github大语言模型开源开源项目推理和部署模型微调

Baichuan 2，新一代开源大语言模型，拥有基于2.6万亿Tokens训练的7B与13B版本，展现卓越性能于多语言、法律及医疗领域。开发者经官方审核后，可免费商用。详情见技术报告《Baichuan 2: Open Large-scale Language Models》。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能，包括文生视频、动态画面和形象生成等，帮助用户快速上手，创造专业级内容。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台，用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品，帮助用户探索创意灵感。

讯飞文书

讯飞文书依托讯飞星火大模型，为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能，满足事务性工作的高频需求，帮助撰稿人节省精力，提高效率，优化工作与生活。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com