#中文

Chinese-Llama-2: 提升Llama-2在中文理解、生成和翻译方面的能力

3 个月前

Chinese-Llama-2 Llama-2 大模型中文自然语言处理 Github 开源项目

3 个月前

中文词向量:自然语言处理的基石

3 个月前

Chinese Word Vectors 词向量语义关系中文语料库 Github 开源项目

3 个月前

相关项目

Chinese-Word-Vectors

该项目集成了多种中文词向量模型，涵盖稠密和稀疏表示方法，以及词、n-gram、字符等上下文特征。同时提供中文类比推理数据集CA8和评估工具包，便于模型质量评估。这些预训练资源可应用于多种自然语言处理任务，为相关研究和开发工作提供了有力支持。

free-programming-books-zh_CN

free-programming-books-zh_CN是一个开源项目，收录了大量免费中文编程书籍和学习资源。涵盖操作系统、编程语言等多个主题，提供经典教程和最新技术资料。开发者可以查找感兴趣的内容，也可以贡献新资源来扩展这个知识库。项目致力于为中文程序员提供便捷的学习参考。

Chinese-Llama-2

Chinese-Llama-2是一个开源项目，致力于增强Llama-2大语言模型的中文处理能力。项目采用LoRA微调、全参数指令微调和二次预训练等方法，并在中文指令数据集上训练Llama-2模型。提供了训练所需的数据集、教程和模型参数，旨在推动中文自然语言处理研究与应用。经过优化的模型在中文理解、生成和翻译等任务中表现出明显提升。

gpt2-medium-chinese

GPT2-Medium中文版本是1.2GiB的语言模型，使用wiki2019zh_corpus训练，适合中文文本生成。该模型提供了详细的源代码和使用说明，支持中文内容创作，特别适合需要文本生成的项目。用户可以在Colab上进行试验，以简化文本生成过程。

gpt2_chinese

该项目使用15G中文语料和31亿个tokens，在单张3090显卡上运行60多小时，成功训练出中文版本的GPT2模型。项目提供教程指导如何使用transformers库实现中文文本生成。

llama3-8B-slerp-med-chinese

llama3-8B-slerp-med-chinese通过LazyMergekit将WiNGPT2-Llama-3-8B-Base与JSL-MedLlama-3-8B-v1.0模型进行合并，支持中、英、法三种语言的文本生成。该项目采用slerp合并方法和bfloat16数据类型，旨在提供高效多样的语言生成能力，开发者可通过Python轻松实现加载与运行。

Qwen2.5-Math-7B

Qwen2.5-Math 系列旨在增强数学模型的推理与计算能力，特别是在中英双语环境中，通过链式思维和工具整合推理来提高数学问题的解决能力。此版本相比之前有显著性能提升，尤其在指令微调模型中表现突出，具备执行复杂数学任务的能力。Qwen2.5-Math-7B 使用 Transformers 库构建，是微调和聊天任务的优秀基础。

deepseek-llm-7b-chat

DeepSeek LLM 是一种含有7B参数的语言模型，在中英文数据上进行广泛训练，并开源以支持研究。模型经过指令优化，适用于自然语言处理任务，并通过示例展示了互动方式，如聊天功能。该模型支持商业用途，其使用需符合许可协议。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com