#大规模语言模型

ChatIE - 零样本信息抽取的解决方案
ChatIE零样本信息抽取大规模语言模型实体关系三元组抽取命名实体识别Github开源项目
ChatIE项目利用ChatGPT的强大功能,将零样本信息抽取任务转化为多轮问答形式,形成了一个两阶段的创新框架。通过在多个数据集上的广泛评估,该框架在实体关系抽取、命名实体识别和事件抽取任务中表现出色,甚至超越了一些全监督模型,展现了在有限资源下构建信息抽取系统的巨大潜力。
ML-Papers-of-the-Week - 每周的ML顶级论文
LLMsChatGPTAI安全大规模语言模型multimodal modelsGithub开源项目
The 'ML-Papers-of-the-Week' project curates pivotal machine learning research papers weekly, serving as a prime resource for AI researchers, practitioners, and enthusiasts eager to explore cutting-edge innovations and trends in AI.
data-juicer - 大语言模型数据处理系统,提供多模态数据支持
Data-Juicer多模态数据处理大规模语言模型数据模型协同开发数据处理Github开源项目
Data-Juicer 是一款强大的一站式数据处理系统,专为大语言模型设计。它支持多模态数据处理,具有80多种操作符和20多个配置方案,提供高效且并行的数据处理能力。其友好的用户体验和全面的文档,使其成为生产环境中的优选方案。
Awesome-LLM-Survey - 调查大语言模型的最新研究进展,包括指令调整、人类对齐和多模态
Awesome-LLM-SurveyLLM人工智能大规模语言模型研究报告Github开源项目
该项目收录了大语言模型(LLM)的最新研究,涵盖了指令调整、人类对齐、代理、多模态等多个方面。研究者可以通过提交拉取请求更新他们的论文信息,参与社区的建设。项目内容详尽记录了LLM的训练、提示工程及其在各领域的应用挑战,为学术界和业界提供丰富的参考素材。用户可以通过该项目深入了解LLM的关键功能、主要优势及最新技术动态。
symato - 处理越南语的开源语言模型,适用于低资源环境
RWKVSymato语音模型越南语大规模语言模型Github开源项目
该项目使用独特的音节、标记和声调分割方法,开发了高效的越南语语言模型。通过创新的token化技术和RWKV架构,解决了传统Transformer模型在处理越南语多字节编码时的性能瓶颈。项目包括小数据集实验、大规模数据处理及大型模型训练,展示了在有限计算资源下应用规模规律的潜力。模型具有广泛适应性,既节省计算资源,又保持高效的文本生成和语言理解能力。
wenda - 多模型集成的开源大规模语言模型调用平台
大规模语言模型知识库Auto脚本GLMRWKVGithub开源项目
闻达是一个开源的大规模语言模型调用平台,集成多种离线和在线LLM模型。平台内置本地知识库和搜索引擎,并提供Auto脚本功能用于自定义对话流程。适合个人和中小企业使用,注重知识安全和私密性。平台还包括对话历史管理和多用户支持等实用功能,旨在实现高效的特定环境内容生成。
ToolBench - 大规模工具使用指令数据集与开源语言模型
ToolBenchAI工具API大规模语言模型工具使用能力Github开源项目
ToolBench项目构建了大规模的指令微调数据集,旨在提升语言模型的工具使用能力。该项目收集了16464个真实API,覆盖单工具和多工具场景,采用深度优先搜索决策树方法生成注释。项目提供训练脚本和微调后的ToolLLaMA模型,其工具使用能力达到了与ChatGPT相当的水平。
starcoder2 - 先进的多语言代码生成模型家族
StarCoder 2代码生成模型机器学习自然语言处理大规模语言模型Github开源项目
StarCoder2是一系列代码生成模型,包括3B、7B和15B参数规模。模型在600多种编程语言和自然语言文本上训练,使用分组查询注意力机制,具有16,384个token的上下文窗口。支持代码补全、多GPU部署和量化推理,提供使用说明和微调指南。StarCoder2在代码生成任务中表现优异,是开发者的有力工具。
NeMo-Framework-Launcher - 云原生工具助力大规模AI模型高效训练
NeMo FrameworkAI模型训练大规模语言模型分布式计算云原生工具Github开源项目
NeMo-Framework-Launcher是一个用于启动NeMo Framework训练作业的云原生工具。它专注于生成式AI模型的基础模型训练,集成了模型并行、分布式优化和混合精度训练等技术。该工具简化了在云端或本地集群上的训练流程,支持集群配置、数据处理、模型训练、微调和评估。适用于GPT、BERT和T5等模型,可扩展至数千GPU,支持大规模语言模型训练。
Awesome-Machine-Generated-Text - 机器生成文本研究资源汇总与综述
大规模语言模型预训练自然语言处理人工智能GPTGithub开源项目
这是一个全面的机器生成文本研究资源库,汇集了大规模预训练语言模型、分析方法和检测技术等关键内容。项目收录了OpenAI、DeepMind和Google等顶级机构的重要成果,包括GPT系列、Chinchilla和T5等著名模型。此外还整理了相关论文、演示、数据集和共享任务,为该领域的研究与开发提供了丰富参考。
Easy-Translate - 高效多语言文本翻译工具支持多种模型
Easy-Translate机器翻译多语言翻译大规模语言模型自然语言处理Github开源项目
Easy-Translate是一款适合各级用户的文本翻译工具,支持M2M100、NLLB200和SeamlessM4T等多种翻译模型。该工具可在不同硬件环境下运行,具备自动调整批处理大小、多种解码策略和加载大型模型等功能。此外,Easy-Translate还提供了翻译质量评估功能,可计算多种评估指标。
llama-3-Korean-Bllossom-8B - 基于llama-3的8B参数韩英双语模型Bllossom显著增强韩语能力
模型GithubBllossom双语模型语言模型大规模语言模型开源项目Huggingface韩语增强
llama-3-Korean-Bllossom-8B是一个基于llama-3的韩英双语大型语言模型。通过250GB的韩语预训练和专门的韩语指令微调,该模型显著增强了韩语能力,在LogicKor基准测试中取得了10B以下韩语模型的最佳成绩。模型支持长上下文理解,扩展了3万多个韩语词汇,并应用了人类反馈强化学习。由首尔科技大学、Teddysum和延世大学联合开发,可用于商业用途。
polyglot-ko-5.8b - EleutherAI开发的58亿参数韩语自然语言处理模型
自回归语言模型大规模语言模型模型韩语模型Polyglot-KoGithub模型评估Huggingface开源项目
Polyglot-Ko-5.8B是EleutherAI团队开发的韩语自然语言处理模型,拥有58亿参数。该模型在863GB韩语数据上训练,在KOBEST基准测试中表现出色。它可用于多种NLP任务,但可能存在偏见和不准确性。模型采用Apache 2.0许可开源,为韩语NLP研究提供了有力支持。
bert-base-japanese-v3-ner-wikipedia-dataset - 基于维基百科数据集的日语命名实体识别BERT模型
固有表現認識Huggingface模型BERTGithub开源项目自然语言处理Wikipedia数据集大规模语言模型
本项目提供了一个基于BERT的日语命名实体识别模型,该模型使用维基百科数据集进行训练。模型能够识别日语文本中的人名、地名等实体,可通过Transformers库轻松调用。项目源自《大规模语言模型入门》一书,提供了使用示例和相关资源链接,采用Apache 2.0许可证。
xLAM-8x22b-r - 大规模人工智能代理模型,提升决策和执行能力
xLAMAI代理HuggingfaceGithub开源项目模型决策自动化大规模语言模型
xLAM是功能调用大模型系列,能够将用户意图转化为可执行的操作,从而提高决策和任务执行能力。此模型专为研究用途,可自主规划和执行任务,是AI代理系统的重要组成部分,适用于多领域的流程自动化。更新版本将在平台上推出,详情请参考功能调用系列的应用和高效部署。
polyglot-ko-1.3b - EleutherAI推出13亿参数韩语自然语言处理模型
模型Polyglot-KoGithub开源项目大规模语言模型Huggingface韩语模型自回归语言模型自然语言处理
Polyglot-Ko-1.3B是EleutherAI团队开发的韩语自回归语言模型,拥有13亿参数。该模型在863GB韩语数据上训练,在KOBEST基准测试中表现优异。与同规模模型相比,Polyglot-Ko-1.3B在多个下游任务中展现出显著优势,可应用于多种韩语自然语言处理任务。
gpt-neox-20b - EleutherAI开发的大规模开源语言模型
机器学习人工智能Github自然语言处理GPT-NeoX-20BHuggingface开源项目模型大规模语言模型
GPT-NeoX-20B是EleutherAI开发的200亿参数大规模语言模型。模型基于The Pile数据集训练,采用与GPT-3相似的架构,包含44层Transformer结构。作为研究导向的开源模型,支持下游任务开发和模型微调,但仅限于英语语言处理,且未经过人类反馈优化,不适合直接用于产品部署。
DeepSeek-V2-Lite-Chat - 单卡40G部署的轻量级混合专家语言模型
开源项目深度学习模型人工智能大规模语言模型机器学习GithubDeepSeek-V2Huggingface
DeepSeek-V2-Lite采用MLA注意力机制和DeepSeekMoE架构,是一款轻量级混合专家模型。模型总参数量16B,激活参数2.4B,仅需单张40G显卡即可部署。模型支持32k上下文长度,在MMLU、C-Eval等英中文基准测试中表现优异,提供基础和对话两个版本。
Yi-1.5-9B-Chat - 开源语言模型在编码、数学和推理能力方面表现卓越
机器学习人工智能GithubYi-1.5自然语言处理Huggingface开源项目模型大规模语言模型
Yi-1.5是Yi系列的升级版本,经过5000亿tokens的高质量语料库训练和300万多样化样本微调。该模型在编码、数学、推理和指令遵循方面表现出色,同时保持了优秀的语言理解、常识推理和阅读理解能力。Yi-1.5提供多种规模的基础模型和对话模型,在多项基准测试中表现优异,为用户提供了一个功能强大的开源语言模型选择。
llm-jp-3-1.8b-instruct - 跨平台大规模语言模型的多语言开发与评估
大规模语言模型Github开源项目指令微调transformersHuggingface预训练llm-jp模型
项目由日本国家信息学研究所研发中心开发,提供支持多种编程语言的大型语言模型,如C、Python、Java。采用Transformer架构,模型经过大规模数据集的预训练与优化微调,适用于多语言环境。用户可通过Hugging Face Transformers库轻松集成与使用。项目提供模型技术细节、参数设置和语言标记器使用方法,以及多样化的数据集和评估方案,适用于中文、英文、日文等语言。
Nous-Hermes-2-Mixtral-8x7B-SFT-AWQ - 低比特量化技术如何提升模型推理性能
大规模语言模型Github开源项目AI生成权重量化Huggingface神经网络Nous Hermes 2模型
Nous Hermes 2 Mixtral 8x7B SFT - AWQ由NousResearch开发,采用AWQ低比特量化技术,提供快速且精确的推理能力。支持4位量化的AWQ大幅提升了Transfomers推理速度,与GPTQ设定相比,保证了等同或更佳的质量表现。在Linux和Windows系统的NVIDIA GPU上运行良好,macOS用户建议使用GGUF模型。该模型结合来自多种开放数据集的百万条目数据,通过GPT-4生成数据进行训练,实现多项任务的业界领先性能,兼容Text Generation Webui、vLLM和Hugging Face TGI等多个平台,适用于不同环境下的高性能推理。
Myrrh_solar_10.7b_3.0 - Myrrh_solar_10.7b_3.0模型在医疗数据处理中的潜力
深度学习Huggingface医疗数据集开源项目模型GithubMoAData大规模语言模型AI-hub
该项目利用DPO方法对AI-hub医疗数据集进行训练,由MoAData公司开发,作者为Taeeon Park和Gihong Lee。这一模型专注于增强医疗数据处理的能力,用户可以通过Transformers库直接调用该模型,适用于多种医疗应用场景。
xLAM-7b-r - Salesforce大规模行动模型助力智能体决策与任务执行
Github模型开源项目函数调用Salesforce xLAM机器人代理Huggingface人工智能大规模语言模型
xLAM是一套大规模行动模型系列,专注于增强人工智能系统的决策和行动能力。该模型支持智能体自主规划与执行复杂任务,并提供从1B到141B不同参数规模的版本选择。通过长上下文理解和函数调用等功能,xLAM在BFCL等多个基准测试中取得领先成绩,为智能体应用提供了扎实的技术基础。
bert-base-japanese-v3-unsup-simcse-jawiki - 使用无监督SimCSE的BERT日文模型特性和应用
bert-base-japanese-v3-unsup-simcse-jawikiGithub模型transformers开源项目SimCSEHuggingface大规模语言模型语义相似度
本项目利用无监督SimCSE方法对BERT大型语言模型进行微调,重点在于日文数据集的应用。通过cl-tohoku/bert-base-japanese-v3模型和来自jawiki的句子数据集进行训练,旨在提高语言理解与相似度计算的能力。项目附带丰富的使用案例,例如通过Colab笔记本进行的训练与推论,帮助研究者与开发者了解模型的实际应用。这一无监督方法为自然语言处理任务提供了创新方案,尤其适合有特定语言需求的专业项目。
DeepSeek-V2-Lite - 创新架构驱动的高效混合专家语言模型
HuggingfaceDeepSeek-V2混合专家模型开源项目模型多头潜在注意力Github自然语言处理大规模语言模型
DeepSeek-V2-Lite是一款采用创新架构的混合专家(MoE)语言模型。通过多头潜在注意力(MLA)和DeepSeekMoE技术,该模型实现了训练和推理的高效性。模型总参数量为16B,激活参数为2.4B,在多项英文和中文基准测试中表现优异,超越了同类7B密集模型和16B MoE模型。DeepSeek-V2-Lite支持单40G GPU部署和8x80G GPU微调,为自然语言处理研究提供了一个高性能且资源友好的选择。
aya-expanse-8b - Aya Expanse 8B开源多语言模型研究成果
大规模语言模型Transformer架构Aya Expanse开源项目模型GithubHuggingface非商业用途多语言能力
Aya Expanse 8B是由Cohere For AI开发的多语言大语言模型,注重数据套利、多语言偏好训练、安全调优和模型合并等研究领域。它支持23种语言,具有8亿参数的先进架构。用户可以使用Cohere Playground或Hugging Face进行互动探索。该模型在CC-BY-NC许可证下发布,仅限非商业用途。了解更多信息,请访问相关博客和评估数据集。
falcon-11B-vlm - 11B参数增强型视觉语言模型,提升细节图像理解与文本生成
视觉语言模型PyTorch 2.0大规模语言模型图像文本数据模型Github开源项目Falcon2-11B-vlmHuggingface
Falcon2-11B-vlm是一款11B参数的模型,通过超过5000B RefinedWeb数据训练,结合预训练的CLIP ViT-L/14视觉编码器,专注于增强小物件细节感知及高分辨率图像处理。该模型适用于多种视觉语言研究,特别是在细节复杂的图像理解任务中表现出色。其使用TII Falcon License 2.0许可,提倡负责任的AI使用。
c4ai-command-r-08-2024 - C4AI Command R 08-2024的多语言生成与推理能力
Github模型检索增强生成开源项目C4AIHuggingface大规模语言模型工具调用多语言生成
C4AI Command R 08-2024是一个研究发布的32亿参数语言模型,优化于多种用例如推理、总结与问答,支持多语言生成,在23种语言中训练,并在10种语言中评估。该模型具备检索增强生成能力,可基于文档片段生成带引文的响应。相关能力通过监督和偏好微调实现,提升用户体验与安全性。详情请访问Cohere For AI平台。