#大规模语言模型

ChatIE - 零样本信息抽取的解决方案

ChatIE零样本信息抽取大规模语言模型实体关系三元组抽取命名实体识别Github开源项目

ChatIE项目利用ChatGPT的强大功能，将零样本信息抽取任务转化为多轮问答形式，形成了一个两阶段的创新框架。通过在多个数据集上的广泛评估，该框架在实体关系抽取、命名实体识别和事件抽取任务中表现出色，甚至超越了一些全监督模型，展现了在有限资源下构建信息抽取系统的巨大潜力。

ML-Papers-of-the-Week - 每周的ML顶级论文

LLMsChatGPTAI安全大规模语言模型multimodal modelsGithub开源项目

The 'ML-Papers-of-the-Week' project curates pivotal machine learning research papers weekly, serving as a prime resource for AI researchers, practitioners, and enthusiasts eager to explore cutting-edge innovations and trends in AI.

data-juicer - 大语言模型数据处理系统，提供多模态数据支持

Data-Juicer多模态数据处理大规模语言模型数据模型协同开发数据处理Github开源项目

Data-Juicer 是一款强大的一站式数据处理系统，专为大语言模型设计。它支持多模态数据处理，具有80多种操作符和20多个配置方案，提供高效且并行的数据处理能力。其友好的用户体验和全面的文档，使其成为生产环境中的优选方案。

Awesome-LLM-Survey - 调查大语言模型的最新研究进展，包括指令调整、人类对齐和多模态

Awesome-LLM-SurveyLLM人工智能大规模语言模型研究报告Github开源项目

该项目收录了大语言模型（LLM）的最新研究，涵盖了指令调整、人类对齐、代理、多模态等多个方面。研究者可以通过提交拉取请求更新他们的论文信息，参与社区的建设。项目内容详尽记录了LLM的训练、提示工程及其在各领域的应用挑战，为学术界和业界提供丰富的参考素材。用户可以通过该项目深入了解LLM的关键功能、主要优势及最新技术动态。

symato - 处理越南语的开源语言模型，适用于低资源环境

RWKVSymato语音模型越南语大规模语言模型Github开源项目

该项目使用独特的音节、标记和声调分割方法，开发了高效的越南语语言模型。通过创新的token化技术和RWKV架构，解决了传统Transformer模型在处理越南语多字节编码时的性能瓶颈。项目包括小数据集实验、大规模数据处理及大型模型训练，展示了在有限计算资源下应用规模规律的潜力。模型具有广泛适应性，既节省计算资源，又保持高效的文本生成和语言理解能力。

wenda - 多模型集成的开源大规模语言模型调用平台

大规模语言模型知识库Auto脚本GLMRWKVGithub开源项目

闻达是一个开源的大规模语言模型调用平台，集成多种离线和在线LLM模型。平台内置本地知识库和搜索引擎，并提供Auto脚本功能用于自定义对话流程。适合个人和中小企业使用，注重知识安全和私密性。平台还包括对话历史管理和多用户支持等实用功能，旨在实现高效的特定环境内容生成。

ToolBench - 大规模工具使用指令数据集与开源语言模型

ToolBenchAI工具API大规模语言模型工具使用能力Github开源项目

ToolBench项目构建了大规模的指令微调数据集，旨在提升语言模型的工具使用能力。该项目收集了16464个真实API，覆盖单工具和多工具场景，采用深度优先搜索决策树方法生成注释。项目提供训练脚本和微调后的ToolLLaMA模型，其工具使用能力达到了与ChatGPT相当的水平。

starcoder2 - 先进的多语言代码生成模型家族

StarCoder 2代码生成模型机器学习自然语言处理大规模语言模型Github开源项目

StarCoder2是一系列代码生成模型，包括3B、7B和15B参数规模。模型在600多种编程语言和自然语言文本上训练，使用分组查询注意力机制，具有16,384个token的上下文窗口。支持代码补全、多GPU部署和量化推理，提供使用说明和微调指南。StarCoder2在代码生成任务中表现优异，是开发者的有力工具。

NeMo-Framework-Launcher - 云原生工具助力大规模AI模型高效训练

NeMo FrameworkAI模型训练大规模语言模型分布式计算云原生工具Github开源项目

NeMo-Framework-Launcher是一个用于启动NeMo Framework训练作业的云原生工具。它专注于生成式AI模型的基础模型训练，集成了模型并行、分布式优化和混合精度训练等技术。该工具简化了在云端或本地集群上的训练流程，支持集群配置、数据处理、模型训练、微调和评估。适用于GPT、BERT和T5等模型，可扩展至数千GPU，支持大规模语言模型训练。

Awesome-Machine-Generated-Text - 机器生成文本研究资源汇总与综述

大规模语言模型预训练自然语言处理人工智能GPTGithub开源项目

这是一个全面的机器生成文本研究资源库,汇集了大规模预训练语言模型、分析方法和检测技术等关键内容。项目收录了OpenAI、DeepMind和Google等顶级机构的重要成果,包括GPT系列、Chinchilla和T5等著名模型。此外还整理了相关论文、演示、数据集和共享任务,为该领域的研究与开发提供了丰富参考。

Easy-Translate - 高效多语言文本翻译工具支持多种模型

Easy-Translate机器翻译多语言翻译大规模语言模型自然语言处理Github开源项目

Easy-Translate是一款适合各级用户的文本翻译工具，支持M2M100、NLLB200和SeamlessM4T等多种翻译模型。该工具可在不同硬件环境下运行，具备自动调整批处理大小、多种解码策略和加载大型模型等功能。此外，Easy-Translate还提供了翻译质量评估功能，可计算多种评估指标。

llama-3-Korean-Bllossom-8B - 基于llama-3的8B参数韩英双语模型Bllossom显著增强韩语能力

模型GithubBllossom双语模型语言模型大规模语言模型开源项目Huggingface韩语增强

llama-3-Korean-Bllossom-8B是一个基于llama-3的韩英双语大型语言模型。通过250GB的韩语预训练和专门的韩语指令微调,该模型显著增强了韩语能力,在LogicKor基准测试中取得了10B以下韩语模型的最佳成绩。模型支持长上下文理解,扩展了3万多个韩语词汇,并应用了人类反馈强化学习。由首尔科技大学、Teddysum和延世大学联合开发,可用于商业用途。

polyglot-ko-5.8b - EleutherAI开发的58亿参数韩语自然语言处理模型

自回归语言模型大规模语言模型模型韩语模型Polyglot-KoGithub模型评估Huggingface开源项目

Polyglot-Ko-5.8B是EleutherAI团队开发的韩语自然语言处理模型,拥有58亿参数。该模型在863GB韩语数据上训练,在KOBEST基准测试中表现出色。它可用于多种NLP任务,但可能存在偏见和不准确性。模型采用Apache 2.0许可开源,为韩语NLP研究提供了有力支持。

bert-base-japanese-v3-ner-wikipedia-dataset - 基于维基百科数据集的日语命名实体识别BERT模型

固有表現認識Huggingface模型BERTGithub开源项目自然语言处理Wikipedia数据集大规模语言模型

本项目提供了一个基于BERT的日语命名实体识别模型，该模型使用维基百科数据集进行训练。模型能够识别日语文本中的人名、地名等实体，可通过Transformers库轻松调用。项目源自《大规模语言模型入门》一书，提供了使用示例和相关资源链接，采用Apache 2.0许可证。

xLAM-8x22b-r - 大规模人工智能代理模型，提升决策和执行能力

xLAMAI代理HuggingfaceGithub开源项目模型决策自动化大规模语言模型

xLAM是功能调用大模型系列，能够将用户意图转化为可执行的操作，从而提高决策和任务执行能力。此模型专为研究用途，可自主规划和执行任务，是AI代理系统的重要组成部分，适用于多领域的流程自动化。更新版本将在平台上推出，详情请参考功能调用系列的应用和高效部署。

polyglot-ko-1.3b - EleutherAI推出13亿参数韩语自然语言处理模型

模型Polyglot-KoGithub开源项目大规模语言模型Huggingface韩语模型自回归语言模型自然语言处理

Polyglot-Ko-1.3B是EleutherAI团队开发的韩语自回归语言模型，拥有13亿参数。该模型在863GB韩语数据上训练，在KOBEST基准测试中表现优异。与同规模模型相比，Polyglot-Ko-1.3B在多个下游任务中展现出显著优势，可应用于多种韩语自然语言处理任务。

gpt-neox-20b - EleutherAI开发的大规模开源语言模型

机器学习人工智能Github自然语言处理GPT-NeoX-20BHuggingface开源项目模型大规模语言模型

GPT-NeoX-20B是EleutherAI开发的200亿参数大规模语言模型。模型基于The Pile数据集训练，采用与GPT-3相似的架构，包含44层Transformer结构。作为研究导向的开源模型，支持下游任务开发和模型微调，但仅限于英语语言处理，且未经过人类反馈优化，不适合直接用于产品部署。

DeepSeek-V2-Lite-Chat - 单卡40G部署的轻量级混合专家语言模型

开源项目深度学习模型人工智能大规模语言模型机器学习GithubDeepSeek-V2Huggingface

DeepSeek-V2-Lite采用MLA注意力机制和DeepSeekMoE架构，是一款轻量级混合专家模型。模型总参数量16B，激活参数2.4B，仅需单张40G显卡即可部署。模型支持32k上下文长度，在MMLU、C-Eval等英中文基准测试中表现优异，提供基础和对话两个版本。

Yi-1.5-9B-Chat - 开源语言模型在编码、数学和推理能力方面表现卓越

机器学习人工智能GithubYi-1.5自然语言处理Huggingface开源项目模型大规模语言模型

Yi-1.5是Yi系列的升级版本，经过5000亿tokens的高质量语料库训练和300万多样化样本微调。该模型在编码、数学、推理和指令遵循方面表现出色，同时保持了优秀的语言理解、常识推理和阅读理解能力。Yi-1.5提供多种规模的基础模型和对话模型，在多项基准测试中表现优异，为用户提供了一个功能强大的开源语言模型选择。

llm-jp-3-1.8b-instruct - 跨平台大规模语言模型的多语言开发与评估

大规模语言模型Github开源项目指令微调transformersHuggingface预训练llm-jp模型

项目由日本国家信息学研究所研发中心开发，提供支持多种编程语言的大型语言模型，如C、Python、Java。采用Transformer架构，模型经过大规模数据集的预训练与优化微调，适用于多语言环境。用户可通过Hugging Face Transformers库轻松集成与使用。项目提供模型技术细节、参数设置和语言标记器使用方法，以及多样化的数据集和评估方案，适用于中文、英文、日文等语言。

Nous-Hermes-2-Mixtral-8x7B-SFT-AWQ - 低比特量化技术如何提升模型推理性能

大规模语言模型Github开源项目AI生成权重量化Huggingface神经网络Nous Hermes 2模型

Nous Hermes 2 Mixtral 8x7B SFT - AWQ由NousResearch开发，采用AWQ低比特量化技术，提供快速且精确的推理能力。支持4位量化的AWQ大幅提升了Transfomers推理速度，与GPTQ设定相比，保证了等同或更佳的质量表现。在Linux和Windows系统的NVIDIA GPU上运行良好，macOS用户建议使用GGUF模型。该模型结合来自多种开放数据集的百万条目数据，通过GPT-4生成数据进行训练，实现多项任务的业界领先性能，兼容Text Generation Webui、vLLM和Hugging Face TGI等多个平台，适用于不同环境下的高性能推理。

Myrrh_solar_10.7b_3.0 - Myrrh_solar_10.7b_3.0模型在医疗数据处理中的潜力

深度学习Huggingface医疗数据集开源项目模型GithubMoAData大规模语言模型AI-hub

该项目利用DPO方法对AI-hub医疗数据集进行训练，由MoAData公司开发，作者为Taeeon Park和Gihong Lee。这一模型专注于增强医疗数据处理的能力，用户可以通过Transformers库直接调用该模型，适用于多种医疗应用场景。

xLAM-7b-r - Salesforce大规模行动模型助力智能体决策与任务执行

Github模型开源项目函数调用Salesforce xLAM机器人代理Huggingface人工智能大规模语言模型

xLAM是一套大规模行动模型系列，专注于增强人工智能系统的决策和行动能力。该模型支持智能体自主规划与执行复杂任务，并提供从1B到141B不同参数规模的版本选择。通过长上下文理解和函数调用等功能，xLAM在BFCL等多个基准测试中取得领先成绩，为智能体应用提供了扎实的技术基础。

bert-base-japanese-v3-unsup-simcse-jawiki - 使用无监督SimCSE的BERT日文模型特性和应用

bert-base-japanese-v3-unsup-simcse-jawikiGithub模型transformers开源项目SimCSEHuggingface大规模语言模型语义相似度

本项目利用无监督SimCSE方法对BERT大型语言模型进行微调，重点在于日文数据集的应用。通过cl-tohoku/bert-base-japanese-v3模型和来自jawiki的句子数据集进行训练，旨在提高语言理解与相似度计算的能力。项目附带丰富的使用案例，例如通过Colab笔记本进行的训练与推论，帮助研究者与开发者了解模型的实际应用。这一无监督方法为自然语言处理任务提供了创新方案，尤其适合有特定语言需求的专业项目。

DeepSeek-V2-Lite - 创新架构驱动的高效混合专家语言模型

HuggingfaceDeepSeek-V2混合专家模型开源项目模型多头潜在注意力Github自然语言处理大规模语言模型

DeepSeek-V2-Lite是一款采用创新架构的混合专家(MoE)语言模型。通过多头潜在注意力(MLA)和DeepSeekMoE技术,该模型实现了训练和推理的高效性。模型总参数量为16B,激活参数为2.4B,在多项英文和中文基准测试中表现优异,超越了同类7B密集模型和16B MoE模型。DeepSeek-V2-Lite支持单40G GPU部署和8x80G GPU微调,为自然语言处理研究提供了一个高性能且资源友好的选择。

aya-expanse-8b - Aya Expanse 8B开源多语言模型研究成果

大规模语言模型Transformer架构Aya Expanse开源项目模型GithubHuggingface非商业用途多语言能力

Aya Expanse 8B是由Cohere For AI开发的多语言大语言模型，注重数据套利、多语言偏好训练、安全调优和模型合并等研究领域。它支持23种语言，具有8亿参数的先进架构。用户可以使用Cohere Playground或Hugging Face进行互动探索。该模型在CC-BY-NC许可证下发布，仅限非商业用途。了解更多信息，请访问相关博客和评估数据集。

falcon-11B-vlm - 11B参数增强型视觉语言模型，提升细节图像理解与文本生成

视觉语言模型PyTorch 2.0大规模语言模型图像文本数据模型Github开源项目Falcon2-11B-vlmHuggingface

Falcon2-11B-vlm是一款11B参数的模型，通过超过5000B RefinedWeb数据训练，结合预训练的CLIP ViT-L/14视觉编码器，专注于增强小物件细节感知及高分辨率图像处理。该模型适用于多种视觉语言研究，特别是在细节复杂的图像理解任务中表现出色。其使用TII Falcon License 2.0许可，提倡负责任的AI使用。

c4ai-command-r-08-2024 - C4AI Command R 08-2024的多语言生成与推理能力

Github模型检索增强生成开源项目C4AIHuggingface大规模语言模型工具调用多语言生成

C4AI Command R 08-2024是一个研究发布的32亿参数语言模型，优化于多种用例如推理、总结与问答，支持多语言生成，在23种语言中训练，并在10种语言中评估。该模型具备检索增强生成能力，可基于文档片段生成带引文的响应。相关能力通过监督和偏好微调实现，提升用户体验与安全性。详情请访问Cohere For AI平台。

相关文章

Article Cover

ChatIE: 基于ChatGPT的智能信息抽取工具

2024年08月30日

Article Cover

ML-Papers-of-the-Week:每周精选机器学习顶级论文

2024年08月30日

Article Cover

Data-Juicer: 为大模型提供更高质量、更丰富、更易"消化"的数据

2024年08月30日

Article Cover

大型语言模型(LLM)综述: 发展现状、应用与挑战

2024年08月31日

Article Cover

ToolBench: 开源大语言模型的工具操作能力提升平台

Article Cover

Easy-Translate：简单高效的多语言翻译工具

Article Cover

ChatIE学习资料汇总 - 零样本信息抽取利器

Article Cover

ML-Papers-of-the-Week 学习资料汇总 - 每周精选顶级机器学习论文

Article Cover

Data-Juicer学习资料汇总 - 一站式多模态数据处理系统

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号