#大模型

MINI_LLM - 完整中文大语言模型训练流程实践
Mini-llm大模型预训练微调DPOGithub开源项目
MINI_LLM项目展示了完整的中文大语言模型训练流程,涵盖预训练、SFT指令微调和DPO优化阶段。该项目基于QWEN模型,利用多种数据集训练出1.4B参数规模的模型。项目详细介绍了数据处理方法、提供训练脚本,并包含多GPU训练指南,为中文大语言模型开发提供了实用参考。
YAYI-UIE - 多领域信息抽取统一模型
YAYI-UIE信息抽取大模型指令微调开源Github开源项目
YAYI-UIE是一个信息抽取统一大模型,基于百万级高质量数据训练而成。该模型支持命名实体识别、关系抽取和事件抽取等任务,涵盖通用、安全、金融、生物、医疗等多个领域。YAYI-UIE在多个中英文数据集上展现出优秀的零样本性能,为信息抽取研究和应用提供了有力工具。作为开源项目,YAYI-UIE促进了中文预训练大模型社区的发展,推动了开放人工智能生态系统的建设。
Llama3-Tutorial - Llama 3模型实践教程 从部署到微调评测
Llama 3微调部署评测大模型Github开源项目
Llama 3教程项目提供了从本地部署到高效部署和能力评测的全面指导。包含六个课程,涵盖XTuner个性化助手训练、LLaVA图像理解、LMDeploy高效部署和OpenCompass模型评估等核心内容。该教程为开发者提供了实践Llama 3大语言模型的完整流程和关键技能培训。
awesome-LLMs-In-China - 中国AI大模型全面收录及发展动态
大模型人工智能开源ChatGLMLLaMAGithub开源项目
这个项目系统收录了中国AI大模型的详细信息,涵盖机构、来源和分类等。通过持续更新,记录各类大模型的发展动态,包括百度文心一言、阿里通义千问等知名通用模型,以及医疗、金融等专业领域模型。项目还提供评测数据集和开源基础模型列表,为研究中国AI发展提供全面参考。
ai798.cn - 全面汇总人工智能助手产品信息的专业平台
AI工具AI助手语言模型人工智能大模型生成式AI
ai798.cn专注于汇总和介绍各类人工智能助手产品。网站提供腾讯元宝、智谱清言、文心一言、豆包和KimiChat等多款AI助手的详细信息,包括产品功能、模型优势和发展历程。通过对比不同AI助手的特点,用户可以全面了解当前AI技术发展现状,为选择合适的AI工具提供参考。
AITOP100 - 全球AI工具资讯及大赛信息聚合平台
AI工具人工智能AIGCAI绘画大模型
AITOP100汇集全球AI工具、大赛信息、行业资讯和专家见解,提供一站式AI资源服务。平台涵盖工具推荐、动态更新、访谈分享和课程活动,助力用户了解AI领域前沿动态,提升创新能力和工作效率,把握人工智能发展趋势。
KuiperInfer - 开源轻量级深度学习推理框架
深度学习推理框架KuiperInferC++大模型Github开源项目
KuiperInfer是一个开源深度学习推理框架,支持Resnet、Yolov5和LLama2等主流模型。基于现代C++设计,该框架提供高效算子实现和优化技术,适用于图像分类、目标检测和自然语言处理任务。KuiperInfer不仅是实用的推理工具,还是学习深度学习框架设计和C++工程实践的优质资源。
Test-Agent - 智能测试助理助力软件质量提升
Test-AgentTestGPT-7B测试用例生成大模型质量技术Github开源项目
Test-Agent是一个开源的智能测试助理项目,融合大模型与质量工程技术。它提供多语言测试用例生成和Assert补全功能,支持Java、Python和JavaScript。项目开源的TestGPT-7B模型在用例执行通过率和场景覆盖方面表现优异。Test-Agent支持本地部署,保障数据安全。未来将持续迭代,扩展更多测试应用场景和模型规模。
mindformers - 全流程大模型开发套件
MindSporeTransformers大模型自然语言处理计算机视觉Github开源项目
MindFormers是基于MindSpore的大模型开发套件,提供全流程开发能力。支持LLama2、GLM2、BERT等主流Transformer模型和文本生成、图像分类等任务。具备并行训练、灵活配置、自动优化等特性,可实现从单卡到集群的无缝扩展。提供高阶API和预训练权重自动下载,便于AI计算中心快速部署。
ai_wiki - 从基础到前沿的全栈AI实践指南
AI实践量化交易大模型机器学习深度学习Github开源项目
ai_wiki是一个综合性AI知识库,覆盖系统平台、编程技术、机器学习、深度学习和强化学习等领域。项目提供学习资源、原理讲解和实战案例,重点关注大模型和量化交易等前沿技术。内容以Markdown和Jupyter Notebook形式呈现,旨在帮助学习者系统掌握AI技术并提升实践能力。
Chinese-Llama-2 - 开源项目提升Llama-2模型中文处理能力
Chinese-Llama-2Llama-2大模型中文自然语言处理Github开源项目
Chinese-Llama-2是一个开源项目,致力于增强Llama-2大语言模型的中文处理能力。项目采用LoRA微调、全参数指令微调和二次预训练等方法,并在中文指令数据集上训练Llama-2模型。提供了训练所需的数据集、教程和模型参数,旨在推动中文自然语言处理研究与应用。经过优化的模型在中文理解、生成和翻译等任务中表现出明显提升。
SoulChat - AI心理健康大模型 强化共情倾听能力
SoulChat心理健康大模型共情对话Github开源项目
SoulChat是一个心理健康大模型,采用混合单轮长文本咨询和多轮共情对话数据进行指令微调,提升了AI在心理咨询领域的共情、倾听和建议能力。项目开源了百万级中文心理对话数据集,为主动健康领域的大模型研究提供了重要资源。SoulChat旨在构建更人性化的AI心理支持系统,促进心理健康领域的技术进步。
wenxin-starter - Spring Boot启动器,简化文心千帆大模型接入
文心千帆Spring Boot大模型API接口流式对话Github开源项目
wenxin-starter是一个基于Spring Boot的启动器,旨在简化开发者接入百度文心千帆大模型的过程。该项目支持文生图、对话记忆和流式返回,并实现了模型QPS控制和排队机制。完整对接文心千帆API,支持多模型配置,提供详细文档和示例,有助于快速构建AI应用。
火山方舟 - 全方位AI平台,涵盖模型训练、推理和应用
AI工具火山引擎模型训练大模型AI应用智能座舱
火山方舟是提供从模型训练、推理到评测和精调的一站式AI平台,助力大模型生态构建。其丰富的插件和工具链帮助企业高效实现AI应用,覆盖智能座舱交互、售后知识库和智能营销等多个场景。平台具备强大算力和资深算法支持,确保全周期的安全与信任,是企业推进人工智能战略的可靠伙伴。
OpenSPG - 语义增强的企业级知识图谱解决方案
AI工具知识图谱大模型语义增强蚂蚁集团OpenKG
由蚂蚁集团与OpenKG联手推出,语义增强可编程知识图谱提供了创新的知识图谱解决方案,整合大模型,支持跨图谱融合与深度语义关联,有效连接数据孤岛。此平台不仅提升了信息处理效率,还服务于宏观经济、行业现象及公司事件的多维分析,支持产业链风险预警与风险评级,增强其在多种应用场景下的适应能力。
Yi-1.5-34B-32K - 增强代码和推理的高性能AI模型
推理能力Yi-1.5语言理解开源模型开源项目模型Huggingface大模型Github
Yi-1.5-34B-32K是Yi的升级版本,通过大规模语料库预训练及多样化样本微调,提升了代码编写、数学运算、推理及指令执行能力,并在语言理解领域表现优秀。该模型在基准测试中表现突出,与更大规模模型媲美甚至超越。可在诸如Hugging Face和ModelScope等平台下载,适用于多种应用场景。
llama2_xs_460M_experimental - 了解LLaMA与LLaMa 2的小型实验版本及其精简模型参数
大模型GithubMMLU开源项目LLaMa 2开源HuggingfaceTokenization模型
项目呈现Meta AI的LLaMA与LLaMa 2开源重现版本,并采用缩小的模型参数:llama1_s为1.8B,llama2_xs为460M。训练基于RedPajama数据集,使用GPT2Tokenizer分词,支持通过HuggingFace Transformers库直接加载以及文本生成。模型在MMLU任务中表现评估,其中llama2_xs_460M在0-shot和5-shot中分别得21.13和26.39的分数。
SOLAR-10.7B-v1.0 - 深度扩展技术驱动的大语言模型实现超30B参数级性能
大模型语言模型人工智能模型深度学习GithubSOLAR-10.7BHuggingface开源项目
SOLAR-10.7B采用深度扩展(DUS)技术开发,通过整合Mistral 7B权重和持续预训练,实现10.7B参数达到30B级模型性能。在H6评测中得分74.20,高于Mixtral-8x7B等大型模型。模型以Apache-2.0许可开源发布,提供完整预训练版本。
Bio-Medical-Llama-3-8B - 适用于生物医学领域的精细化文本处理语言模型
医学生物医学模型GithubBio-Medical-Llama-3-8B开源项目大模型临床决策Huggingface
Bio-Medical-Llama-3-8B模型在定制的BioMedData数据集上进行微调,特别适用于生物医学应用。通过超过500,000条多样化的样本,这一模型在生物医学领域展现高质量的知识覆盖。它能够生成与生物医学相关的文本,为研究人员和临床医生提供有价值的支持,但在高风险场景中使用时需确保信息准确性并负责任地应用。
starchat2-15b-v0.1 - 基于StarCoder2微调的双能力开源语言模型
大模型语言模型Github开源项目代码生成StarChat2模型Huggingface人工智能
StarChat2-15b-v0.1是一款基于StarCoder2的开源语言模型,拥有160亿参数规模。该模型通过合成数据集微调,在MT Bench、IFEval聊天评测及HumanEval代码测试中展现了均衡性能。模型支持600多种编程语言,具备代码生成和对话交互功能。开发者可通过Transformers框架调用,需注意模型存在输出偏差等局限性。
OLMo-Bitnet-1B - 利用1B参数模型验证1位LLM训练新方法
参数模型Github开源项目自然语言处理模型HuggingfaceDolma大模型OLMo-Bitnet-1B
OLMo-Bitnet-1B项目验证了1位大型语言模型训练方法的潜力。通过Dolma数据集的60亿标记构建了拥有10亿参数的模型,旨在探索新方法的可行性。项目还进行了fp16权重的对比实验,详情见相关报告。模型支持文本生成,包括示例代码方便研究和应用者评估该技术。
UniNER-7B-all - 跨多数据集的命名实体识别开源模型
自然语言处理研究开源项目模型Github大模型Huggingface命名实体识别UniNER
UniNER-7B-all模型结合ChatGPT生成的Pile-NER-type和Pile-NER-definition数据及Universal NER基准中40个数据集进行训练,适合多数据集的命名实体识别研究。模型在排除CrossNER和MIT数据集的情况下进行OOD评估。详细的使用指南和模型信息可以通过相关论文及GitHub仓库获得,模型适用于研究目的,遵循CC BY-NC 4.0许可协议。
Qwen-72B - 阿里云推出Qwen-72B多语言模型,具备720亿参数
HuggingfaceQwen-72B开源项目多语言模型Github大模型人工智能助手阿里云
Qwen-72B是由阿里云研发的多语言模型,包含720亿参数,并基于Transformer架构。通过超3万亿tokens预训练数据,展现出在多语言处理中的强大性能,支持32k上下文长度,并具备15万词的多语言词表。在常识推理、代码、数学等领域,该模型表现出色。
dolphin-2.2.1-mistral-7b - 提供多轮对话和情感理解的开源AI模型
mistralAIDolphin-2.2.1大模型无监督训练Huggingface多轮会话Github开源项目模型
Dolphin-2.2.1是基于Mistral-7B模型的开源AI项目,支持多轮对话和情感理解。其去除了数据集中的偏见,采用ChatML格式提示,适合商业和非商业应用。建议用户自行添加安全对齐机制以限制不当请求的过度响应。
DARE_TIES_13B - 通过合并多种预训练语言模型提升AI性能
配置文件大模型算法合并HuggingfaceGithub开源项目模型DARE_TIES_13B语言模型
项目通过DARE TIES方法合并预训练语言模型,使用yunconglong的Truthful DPO TomGrc FusionNet 7Bx2 MoE 13B作为基础,结合了13B DPO及13B MATH DPO模型。通过密度和权重配置,采用bfloat16和int8掩码,在计算效率和文本覆盖上均有显著提升。
Qwen2.5-7B-Instruct-GPTQ-Int8 - Qwen2.5模型实现多语言支持与优化长文本处理
开源项目量化模型Github大模型多语言支持Huggingface模型指令微调Qwen2.5
Qwen2.5模型具备多语言支持和改良的长文本处理能力,增强了编程、数学及指令执行的表现。其GPTQ-8位量化模型支持最长128K上下文与最高生成8192个令牌,提供因果语言模型架构,适合多领域应用。支持29种语言,包括中文、英语和法语,为开发者提供多样化的功能。
AISquare-Instruct-yi-ko-6b-v0.9.30 - 面向自然语言处理的高效AI驱动文本生成模型
AI训练HuggingfaceInswave Systems开源项目模型AISquare-Instruct-yi-ko-6b-v0.9.30GithubA100硬件大模型
由Inswave Systems开发的AI模型,基于DPO和SFT方法,并在beomi/Yi-Ko-6B模型上进行训练,实现了有效的文本生成。使用A100x4硬件以提高运行效率,并得到了韩国人工智能中心项目的支持,旨在提升自然语言处理应用的性能。在开放的ko-leaderboard排名中表现优异,展示了其出色的性能和应用潜力。
granite-7b-base - 开源模型Granite-7b-base的结构与应用解析
开源项目Granite-7b-base模型语言模型IBM开源Huggingface大模型Github
Granite-7b-base是IBM推出的开源模型,基于Meta Llama2-7B架构开发,提供4k个上下文tokens,主要适用于英语语境。此模型通过IBM精心挑选的数据进行训练,并提供开放许可用于社区和商业应用。尽管存在一些风险与局限性,其结构和应用案例显示出显著的研究潜力。
畅问AI - 专业多领域AI智能咨询平台,提供精准解答
AI工具畅问AI专家助手平台大模型AI咨询知识库
畅问AI整合大量行业专家知识,提供精准在线咨询服务。支持多种AI大模型,覆盖财经、科技、医疗和教育等领域,通过更新的专业知识满足职场和生活需求,实现问题的快速解决。