#大模型

MINI_LLM - 完整中文大语言模型训练流程实践

Mini-llm大模型预训练微调DPOGithub开源项目

MINI_LLM项目展示了完整的中文大语言模型训练流程，涵盖预训练、SFT指令微调和DPO优化阶段。该项目基于QWEN模型，利用多种数据集训练出1.4B参数规模的模型。项目详细介绍了数据处理方法、提供训练脚本，并包含多GPU训练指南，为中文大语言模型开发提供了实用参考。

YAYI-UIE - 多领域信息抽取统一模型

YAYI-UIE信息抽取大模型指令微调开源Github开源项目

YAYI-UIE是一个信息抽取统一大模型，基于百万级高质量数据训练而成。该模型支持命名实体识别、关系抽取和事件抽取等任务，涵盖通用、安全、金融、生物、医疗等多个领域。YAYI-UIE在多个中英文数据集上展现出优秀的零样本性能，为信息抽取研究和应用提供了有力工具。作为开源项目，YAYI-UIE促进了中文预训练大模型社区的发展，推动了开放人工智能生态系统的建设。

Llama3-Tutorial - Llama 3模型实践教程从部署到微调评测

Llama 3微调部署评测大模型Github开源项目

Llama 3教程项目提供了从本地部署到高效部署和能力评测的全面指导。包含六个课程，涵盖XTuner个性化助手训练、LLaVA图像理解、LMDeploy高效部署和OpenCompass模型评估等核心内容。该教程为开发者提供了实践Llama 3大语言模型的完整流程和关键技能培训。

awesome-LLMs-In-China - 中国AI大模型全面收录及发展动态

大模型人工智能开源ChatGLMLLaMAGithub开源项目

这个项目系统收录了中国AI大模型的详细信息，涵盖机构、来源和分类等。通过持续更新，记录各类大模型的发展动态，包括百度文心一言、阿里通义千问等知名通用模型，以及医疗、金融等专业领域模型。项目还提供评测数据集和开源基础模型列表，为研究中国AI发展提供全面参考。

ai798.cn - 全面汇总人工智能助手产品信息的专业平台

AI工具AI助手语言模型人工智能大模型生成式AI

ai798.cn专注于汇总和介绍各类人工智能助手产品。网站提供腾讯元宝、智谱清言、文心一言、豆包和KimiChat等多款AI助手的详细信息，包括产品功能、模型优势和发展历程。通过对比不同AI助手的特点，用户可以全面了解当前AI技术发展现状，为选择合适的AI工具提供参考。

AITOP100 - 全球AI工具资讯及大赛信息聚合平台

AI工具人工智能AIGCAI绘画大模型

AITOP100汇集全球AI工具、大赛信息、行业资讯和专家见解,提供一站式AI资源服务。平台涵盖工具推荐、动态更新、访谈分享和课程活动,助力用户了解AI领域前沿动态,提升创新能力和工作效率,把握人工智能发展趋势。

KuiperInfer - 开源轻量级深度学习推理框架

深度学习推理框架KuiperInferC++大模型Github开源项目

KuiperInfer是一个开源深度学习推理框架，支持Resnet、Yolov5和LLama2等主流模型。基于现代C++设计，该框架提供高效算子实现和优化技术，适用于图像分类、目标检测和自然语言处理任务。KuiperInfer不仅是实用的推理工具，还是学习深度学习框架设计和C++工程实践的优质资源。

Test-Agent - 智能测试助理助力软件质量提升

Test-AgentTestGPT-7B测试用例生成大模型质量技术Github开源项目

Test-Agent是一个开源的智能测试助理项目，融合大模型与质量工程技术。它提供多语言测试用例生成和Assert补全功能，支持Java、Python和JavaScript。项目开源的TestGPT-7B模型在用例执行通过率和场景覆盖方面表现优异。Test-Agent支持本地部署，保障数据安全。未来将持续迭代，扩展更多测试应用场景和模型规模。

mindformers - 全流程大模型开发套件

MindSporeTransformers大模型自然语言处理计算机视觉Github开源项目

MindFormers是基于MindSpore的大模型开发套件,提供全流程开发能力。支持LLama2、GLM2、BERT等主流Transformer模型和文本生成、图像分类等任务。具备并行训练、灵活配置、自动优化等特性,可实现从单卡到集群的无缝扩展。提供高阶API和预训练权重自动下载,便于AI计算中心快速部署。

ai_wiki - 从基础到前沿的全栈AI实践指南

AI实践量化交易大模型机器学习深度学习Github开源项目

ai_wiki是一个综合性AI知识库，覆盖系统平台、编程技术、机器学习、深度学习和强化学习等领域。项目提供学习资源、原理讲解和实战案例，重点关注大模型和量化交易等前沿技术。内容以Markdown和Jupyter Notebook形式呈现，旨在帮助学习者系统掌握AI技术并提升实践能力。

Chinese-Llama-2 - 开源项目提升Llama-2模型中文处理能力

Chinese-Llama-2Llama-2大模型中文自然语言处理Github开源项目

Chinese-Llama-2是一个开源项目，致力于增强Llama-2大语言模型的中文处理能力。项目采用LoRA微调、全参数指令微调和二次预训练等方法，并在中文指令数据集上训练Llama-2模型。提供了训练所需的数据集、教程和模型参数，旨在推动中文自然语言处理研究与应用。经过优化的模型在中文理解、生成和翻译等任务中表现出明显提升。

SoulChat - AI心理健康大模型强化共情倾听能力

SoulChat心理健康大模型共情对话Github开源项目

SoulChat是一个心理健康大模型，采用混合单轮长文本咨询和多轮共情对话数据进行指令微调，提升了AI在心理咨询领域的共情、倾听和建议能力。项目开源了百万级中文心理对话数据集，为主动健康领域的大模型研究提供了重要资源。SoulChat旨在构建更人性化的AI心理支持系统，促进心理健康领域的技术进步。

wenxin-starter - Spring Boot启动器,简化文心千帆大模型接入

文心千帆Spring Boot大模型API接口流式对话Github开源项目

wenxin-starter是一个基于Spring Boot的启动器，旨在简化开发者接入百度文心千帆大模型的过程。该项目支持文生图、对话记忆和流式返回，并实现了模型QPS控制和排队机制。完整对接文心千帆API，支持多模型配置，提供详细文档和示例，有助于快速构建AI应用。

火山方舟 - 全方位AI平台，涵盖模型训练、推理和应用

AI工具火山引擎模型训练大模型AI应用智能座舱

火山方舟是提供从模型训练、推理到评测和精调的一站式AI平台，助力大模型生态构建。其丰富的插件和工具链帮助企业高效实现AI应用，覆盖智能座舱交互、售后知识库和智能营销等多个场景。平台具备强大算力和资深算法支持，确保全周期的安全与信任，是企业推进人工智能战略的可靠伙伴。

OpenSPG - 语义增强的企业级知识图谱解决方案

AI工具知识图谱大模型语义增强蚂蚁集团OpenKG

由蚂蚁集团与OpenKG联手推出，语义增强可编程知识图谱提供了创新的知识图谱解决方案，整合大模型，支持跨图谱融合与深度语义关联，有效连接数据孤岛。此平台不仅提升了信息处理效率，还服务于宏观经济、行业现象及公司事件的多维分析，支持产业链风险预警与风险评级，增强其在多种应用场景下的适应能力。

Yi-1.5-34B-32K - 增强代码和推理的高性能AI模型

推理能力Yi-1.5语言理解开源模型开源项目模型Huggingface大模型Github

Yi-1.5-34B-32K是Yi的升级版本，通过大规模语料库预训练及多样化样本微调，提升了代码编写、数学运算、推理及指令执行能力，并在语言理解领域表现优秀。该模型在基准测试中表现突出，与更大规模模型媲美甚至超越。可在诸如Hugging Face和ModelScope等平台下载，适用于多种应用场景。

llama2_xs_460M_experimental - 了解LLaMA与LLaMa 2的小型实验版本及其精简模型参数

大模型GithubMMLU开源项目LLaMa 2开源HuggingfaceTokenization模型

项目呈现Meta AI的LLaMA与LLaMa 2开源重现版本，并采用缩小的模型参数：llama1_s为1.8B，llama2_xs为460M。训练基于RedPajama数据集，使用GPT2Tokenizer分词，支持通过HuggingFace Transformers库直接加载以及文本生成。模型在MMLU任务中表现评估，其中llama2_xs_460M在0-shot和5-shot中分别得21.13和26.39的分数。

SOLAR-10.7B-v1.0 - 深度扩展技术驱动的大语言模型实现超30B参数级性能

大模型语言模型人工智能模型深度学习GithubSOLAR-10.7BHuggingface开源项目

SOLAR-10.7B采用深度扩展(DUS)技术开发，通过整合Mistral 7B权重和持续预训练，实现10.7B参数达到30B级模型性能。在H6评测中得分74.20，高于Mixtral-8x7B等大型模型。模型以Apache-2.0许可开源发布，提供完整预训练版本。

Bio-Medical-Llama-3-8B - 适用于生物医学领域的精细化文本处理语言模型

医学生物医学模型GithubBio-Medical-Llama-3-8B开源项目大模型临床决策Huggingface

Bio-Medical-Llama-3-8B模型在定制的BioMedData数据集上进行微调，特别适用于生物医学应用。通过超过500,000条多样化的样本，这一模型在生物医学领域展现高质量的知识覆盖。它能够生成与生物医学相关的文本，为研究人员和临床医生提供有价值的支持，但在高风险场景中使用时需确保信息准确性并负责任地应用。

starchat2-15b-v0.1 - 基于StarCoder2微调的双能力开源语言模型

大模型语言模型Github开源项目代码生成StarChat2模型Huggingface人工智能

StarChat2-15b-v0.1是一款基于StarCoder2的开源语言模型，拥有160亿参数规模。该模型通过合成数据集微调，在MT Bench、IFEval聊天评测及HumanEval代码测试中展现了均衡性能。模型支持600多种编程语言，具备代码生成和对话交互功能。开发者可通过Transformers框架调用，需注意模型存在输出偏差等局限性。

OLMo-Bitnet-1B - 利用1B参数模型验证1位LLM训练新方法

参数模型Github开源项目自然语言处理模型HuggingfaceDolma大模型OLMo-Bitnet-1B

OLMo-Bitnet-1B项目验证了1位大型语言模型训练方法的潜力。通过Dolma数据集的60亿标记构建了拥有10亿参数的模型，旨在探索新方法的可行性。项目还进行了fp16权重的对比实验，详情见相关报告。模型支持文本生成，包括示例代码方便研究和应用者评估该技术。

UniNER-7B-all - 跨多数据集的命名实体识别开源模型

自然语言处理研究开源项目模型Github大模型Huggingface命名实体识别UniNER

UniNER-7B-all模型结合ChatGPT生成的Pile-NER-type和Pile-NER-definition数据及Universal NER基准中40个数据集进行训练，适合多数据集的命名实体识别研究。模型在排除CrossNER和MIT数据集的情况下进行OOD评估。详细的使用指南和模型信息可以通过相关论文及GitHub仓库获得，模型适用于研究目的，遵循CC BY-NC 4.0许可协议。

Qwen-72B - 阿里云推出Qwen-72B多语言模型，具备720亿参数

HuggingfaceQwen-72B开源项目多语言模型Github大模型人工智能助手阿里云

Qwen-72B是由阿里云研发的多语言模型，包含720亿参数，并基于Transformer架构。通过超3万亿tokens预训练数据，展现出在多语言处理中的强大性能，支持32k上下文长度，并具备15万词的多语言词表。在常识推理、代码、数学等领域，该模型表现出色。

dolphin-2.2.1-mistral-7b - 提供多轮对话和情感理解的开源AI模型

mistralAIDolphin-2.2.1大模型无监督训练Huggingface多轮会话Github开源项目模型

Dolphin-2.2.1是基于Mistral-7B模型的开源AI项目，支持多轮对话和情感理解。其去除了数据集中的偏见，采用ChatML格式提示，适合商业和非商业应用。建议用户自行添加安全对齐机制以限制不当请求的过度响应。

DARE_TIES_13B - 通过合并多种预训练语言模型提升AI性能

配置文件大模型算法合并HuggingfaceGithub开源项目模型DARE_TIES_13B语言模型

项目通过DARE TIES方法合并预训练语言模型，使用yunconglong的Truthful DPO TomGrc FusionNet 7Bx2 MoE 13B作为基础，结合了13B DPO及13B MATH DPO模型。通过密度和权重配置，采用bfloat16和int8掩码，在计算效率和文本覆盖上均有显著提升。

Qwen2.5-7B-Instruct-GPTQ-Int8 - Qwen2.5模型实现多语言支持与优化长文本处理

开源项目量化模型Github大模型多语言支持Huggingface模型指令微调Qwen2.5

Qwen2.5模型具备多语言支持和改良的长文本处理能力，增强了编程、数学及指令执行的表现。其GPTQ-8位量化模型支持最长128K上下文与最高生成8192个令牌，提供因果语言模型架构，适合多领域应用。支持29种语言，包括中文、英语和法语，为开发者提供多样化的功能。

AISquare-Instruct-yi-ko-6b-v0.9.30 - 面向自然语言处理的高效AI驱动文本生成模型

AI训练HuggingfaceInswave Systems开源项目模型AISquare-Instruct-yi-ko-6b-v0.9.30GithubA100硬件大模型

由Inswave Systems开发的AI模型，基于DPO和SFT方法，并在beomi/Yi-Ko-6B模型上进行训练，实现了有效的文本生成。使用A100x4硬件以提高运行效率，并得到了韩国人工智能中心项目的支持，旨在提升自然语言处理应用的性能。在开放的ko-leaderboard排名中表现优异，展示了其出色的性能和应用潜力。

granite-7b-base - 开源模型Granite-7b-base的结构与应用解析

开源项目Granite-7b-base模型语言模型IBM开源Huggingface大模型Github

Granite-7b-base是IBM推出的开源模型，基于Meta Llama2-7B架构开发，提供4k个上下文tokens，主要适用于英语语境。此模型通过IBM精心挑选的数据进行训练，并提供开放许可用于社区和商业应用。尽管存在一些风险与局限性，其结构和应用案例显示出显著的研究潜力。

畅问AI - 专业多领域AI智能咨询平台，提供精准解答

AI工具畅问AI专家助手平台大模型AI咨询知识库

畅问AI整合大量行业专家知识，提供精准在线咨询服务。支持多种AI大模型，覆盖财经、科技、医疗和教育等领域，通过更新的专业知识满足职场和生活需求，实现问题的快速解决。

相关文章

Article Cover

字节、阿里、百度大模型价格战拼刺刀！百度刚刚直接官宣免费调用，不知道谁能笑到最后，反正开发者们是笑了

2024年08月03日

Article Cover

零到NLP:开箱即用的中文NLP训练框架

Article Cover

LLamaSharp：在本地设备上高效运行大型语言模型的C#/.NET库

Article Cover

AppBuilder-SDK: 构建AI原生应用的一站式开发平台

Article Cover

One API：统一管理和分发多种大语言模型的开源解决方案

Article Cover

Chinese-LLaMA-Alpaca: 开源中文大语言模型的突破性进展

Article Cover

PaddleNLP: 飞桨强大易用的自然语言处理开发库

Article Cover

Chinese-LLaMA-Alpaca-2: 新一代开源中文大语言模型

Article Cover

以业内角度看OpenAI停止对中国服务，只讲关键，其余的你来悟

2024年08月03日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号