#语言模型

Aurora - 通过指令调优激活 Mixtral-8x7B 稀疏专家混合体的中文聊天功能
Github开源项目语言模型Mixtral-8x7BAurora指令调优中文对话能力
Aurora项目通过整合三大中文数据集,提升了Mixtral-8x7B稀疏专家模型的中文对话能力。通过数据预处理和指令微调,该模型在C-Eval、MMLU和CMMLU基准测试中表现出色。这项研究首次在稀疏专家模型上应用指令微调,提升了模型的架构能力,特别是在零样本任务中表现卓越。
local-talking-llm - 本地构建语音助理的教程,集成Whisper、Ollama和Bark技术
Github开源项目OllamaWhisper语言模型语音助手Bark
本教程详细介绍如何在本地构建和运行功能齐全的语音助理,集成语音识别(Whisper)、语言模型对话生成(Langchain和Ollama)、语音合成(Bark)等技术。使用Python实现,适合初学者。提供了关键技术堆栈的使用方法及性能优化和用户界面开发建议。
vocab-coverage - 中文语言模型识字率与词向量分布分析
Github开源项目语言模型BERT中文认知ERNIE词向量
该项目分析了多种语言模型的中文识字率与词向量分布情况,通过字符集分类和词向量空间分布的研究,了解模型在处理中文字符时的认知能力。涵盖了BERT、ERNIE、roBERTa等模型的对比,以及不同字符集的识字判定,为后续的模型评估和改进提供了参考。
ArXivQA - 使用自动化问答系统解读最新ArXiv论文
Github开源项目深度学习语言模型ArXiv自动问答文献分析
该平台提供基于最新ArXiv论文的自动化问答功能,覆盖多模态代理、语言不平衡、开源审查等研究领域。利用自然语言处理技术,快速提取论文关键信息,帮助研究人员高效掌握和应用前沿科研成果。项目由Anthropic支持,使用Claude-2.1 API实现问答功能。
llm-leaderboard - 为LLM模型提供的全球性能排行榜
Github开源项目开源语言模型评估指标LLM-Leaderboard榜单
由社区合力打造的LLM模型排行榜,提供交互式仪表板和丰富的性能比较。用户可查看各模型在Chatbot Arena Elo、HellaSwag、HumanEval-Python、LAMBADA等指标上的表现。项目特别关注开源模型的本地部署和商业应用,欢迎各类贡献和修改。
gigax - 在硬件上运行的 LLM 驱动的 NPC
Github开源项目语言模型HuggingfaceNPCGigaxGPU推理
Gigax提供高效的GPU推理和多功能NPC交互,支持对话、动作和其他自定义行为。采用Llama-3和Phi-3模型,支持本地服务器模式和多语言API,并提供运行时任务生成和记忆存储功能,适用于各种游戏场景。详细信息请访问Gigax官方GitHub页面。
kani - 轻量且高度可定制的聊天语言模型框架
Github开源项目语言模型轻量级框架自定义kani
kani是一个轻量且高度可定制的聊天语言模型框架,适用于自然语言处理研究人员、爱好者和开发人员。kani支持OpenAI和Anthropic等多种托管模型,以及通过Hugging Face和llama.cpp支持的开源模型。kani提供无缝的聊天记忆管理、函数调用、提示控制和异步设计功能。此外,开发者可以快速迭代并方便地学习使用kani框架。
minimal-chat - 轻量级多语言聊天应用,支持本地与自定义模型
Github开源项目开源语言模型DockerMinimalChatPWA支持
开源轻量级聊天应用,支持GPT-4 Omni等多种语言模型和本地/自定义模型端点,具备移动PWA支持。可通过Docker自托管,能转换和编辑消息,支持语音互动、Markdown和代码高亮,并集成DALL-E 3。提供导入导出对话功能,兼容Open AI响应API端点,支持离线使用,对话本地存储确保安全。
Jamba - 支持多层次深度学习的PyTorch语言模型
Github开源项目PyTorch神经网络语言模型TransformerJamba
Jamba是一个基于PyTorch的混合语言模型,结合了Transformer和Mamba架构。通过简单的pip命令(`pip install jamba`),用户可以迅速安装并使用该模型。Jamba支持多种深度学习配置,包括输入数据维度、模型层数、唯一标记数、隐藏状态维度、卷积层维度、注意力头数量和专家网络配置,适用于各种自然语言处理任务。
PanelGPT - 优化语言模型推理性能的全新零样本提示词方法
Github开源项目语言模型推理能力提示词PanelGPT零样本提示
PanelGPT通过引入专家小组讨论的零样本提示词,有效提升了语言模型在复杂任务上的表现。通过使用gpt-3.5-turbo进行评估,其在GSM8K数据集上的表现突出,验证了该方法的有效性。综合专家讨论模式与自洽性理论,帮助模型更准确地理解和解决问题,为语言模型的推理能力提供了新方案。
typechat.net - 提供强类型验证的跨平台自然语言接口开发库
Github开源项目OpenAI语言模型JSONTypeChat.NETMicrosoft.TypeChat
TypeChat.NET 是一个跨平台库,利用强类型和类型验证构建自然语言接口,提升语言模型的确定性和可靠性。支持 JSON 翻译、验证和程序合成,集成 Microsoft Semantic Kernel 提供多种功能和插件。项目在积极开发中,附带示例和文档,适用于使用 OpenAI 模型的用户,并提供 API 密钥配置,便于运行和测试各种示例项目。
IntelliNode - 集成多种AI模型的统一接口、评估与生产模块
Github开源项目AI集成语义搜索语言模型图像生成IntelliNode
IntelliNode 是一个 JavaScript 模块,能将先进的 AI 技术集成到项目中。通过直观的函数调用,可生成文本、语音或图像,并切换使用 ChatGPT、LLaMA、WaveNet、Gemini 和 Stable Diffusion 等模型。主要功能包括语义搜索、多模型评估和聊天机器人。简单 npm 安装后即可使用最新 AI 模型,详情参见文档和示例代码。
pixel - 像素编码语言模型,无需固定词汇表实现多语言处理
Github开源项目语言模型BERTVision TransformerPIXEL图像编码
PIXEL是一个将文本渲染为图像进行语言处理的模型,消除了固定词汇表的需求。在同样的数据上,PIXEL在非拉丁脚本的语法和语义处理上优于BERT。PIXEL由文本渲染器、编码器和解码器组成,采用ViT-MAE技术实现图像级语言模型。用户可以通过Gradio演示体验PIXEL,并查看预训练和微调指南。未来将提供渲染指南、优化模型及HuggingFace transformers的集成。
mixture-of-experts - 稀疏门控专家混合模型的Pytorch实现
Github开源项目语言模型Pytorch参数Sparsely Gated Mixture of Experts计算
基于Pytorch实现的稀疏门控专家混合模型,可以在保持计算量不变的情况下大幅增加语言模型的参数量。项目参考了TensorFlow的实现,并进行了增强。还包含ST Mixture of Experts的使用指南,安装和使用示例,以及自定义专家网络的支持。
ice - 用于语言模型程序的 Python 库和跟踪可视化工具
Github开源项目Python语言模型调试并行化ICE
ICE是专为语言模型程序设计的Python库和可视化工具,支持多人模式、代理定义、快速并行执行等功能,允许在浏览器中调试执行轨迹。适用于Python 3.9及以上版本,支持虚拟环境安装和开发,API可能会发生变动,欢迎社区贡献。
Phi2-mini-Chinese - 从零开始训练0.2B参数的中文语言模型,支持Flash Attention加速
Github开源项目语言模型数据清洗SFT微调Phi2-Chinese-0.2B中文小模型
项目包含从数据清洗、tokenizer训练、CLM预训练、SFT微调到RLHF优化的详细步骤,代码和模型已开源,可引用。支持Flash Attention加速,适用于大数据集处理。更多信息及模型权重在huggingface仓库。
BERTweet - 专为英语推文预训练的大规模语言模型,助力自然语言处理
Github开源项目语言模型RoBERTaBERTweetCOVID-19英文推文
BERTweet是首个专为英语推文预训练的公共语言模型,基于RoBERTa预训练程序,使用850M条推文数据进行训练,包含普通推文和疫情相关推文。BERTweet提供多种预训练模型,能够无缝集成于transformers和fairseq框架,支持情感分析、命名实体识别等自然语言处理任务,为研究和应用提供有力支持。
machine-learning-list - 机器学习入门与语言模型学习指南
Github开源项目深度学习机器学习语言模型生产部署Elicit
这个指南旨在帮助员工掌握机器学习,尤其是语言模型的知识。内容涵盖从基础到高级,通过推荐阅读的论文和资源,了解生产部署与长期扩展的重要技术和方法。
CTCWordBeamSearch - CTC解码器提升文本和语音识别的性能
Github开源项目Python文本识别语言模型CTCWord Beam Search
CTC Word Beam Search是一种基于词典和语言模型的连接时序分类(CTC)解码器,支持Python 3.11和3.12版本。项目提供详细的安装和使用指南,并通过示例代码展示其在文本识别模型中的应用。算法具有四大特点:使用词典约束词语、允许词间出现任意非词字符、可选用词级语言模型(LM)以及比token传递算法更快。文档中提供了主要参数的说明和更多的技术细节及使用案例,适用于手写文本识别和自动语音识别。
langsmith-sdk - 提供语言模型调试、评估和监控的综合SDK
Github开源项目语言模型Python SDKLangChainLangSmithJavaScript SDK
LangSmith客户端SDK包含Python和JavaScript库,用于与LangSmith平台交互,支持团队调试、评估和监控语言模型及智能代理。该SDK与LangChain的开源库无缝集成,适用于各类LLM应用。简单易用,详细教程请参阅LangSmith Cookbook和相关文档。
dialoqbase - 简化自定义聊天机器人的创建的开源应用
Github开源项目PostgreSQL语言模型聊天机器人开源应用Dialoqbase
Dialoqbase是一款开源应用,旨在简化自定义聊天机器人的创建。通过先进的语言模型生成精准响应,并使用PostgreSQL高效存储与搜索知识库。支持多种数据加载器和嵌入模型,兼容多种语言模型,易于一键部署,适合定制需求用户。
calvin - 机器人长时间操作任务中基于语言条件的策略学习
Github开源项目语言模型机器人操控CALVIN长期任务开源基准
CALVIN是一个开源的模拟基准,用于学习长时间的语言条件任务,旨在开发能够通过人类语言指令和车载传感器完成多种机器人操作任务的代理。该项目支持复杂任务序列、动作空间和语言规格,提供灵活的传感器配置详细评估协议,并通过多种难度模式提高测试效能。项目资源包括训练模型、评估脚本和数据下载选项,是机器人视觉与语言研究的理想选择。
Phi-3CookBook - Microsoft Phi-3模型家族实践指南
Github开源项目微软开源语言模型AI模型Phi-3
本项目提供Microsoft Phi-3模型家族的全面实践指南,包括环境设置、快速入门、推理、微调和评估等教程。涵盖iOS、Jetson和AI PC等多种硬件设备上的端到端解决方案构建说明。另外还包含实际应用案例和实验室样本,助力开发者深入理解和应用Phi-3模型。
gpt-2 - GPT-2模型展现自然语言处理新境界
Github开源项目OpenAI自然语言处理机器学习语言模型GPT-2
GPT-2是OpenAI开发的自然语言处理模型,展现了无监督学习在多任务处理中的卓越能力。项目开源了模型代码和预训练模型,便于研究人员探索其潜力。尽管性能出色,使用时仍需审慎评估其适用性,尤其是在安全关键领域。该项目也鼓励深入研究GPT-2的行为特征及其潜在影响。
Llama3-Chinese-Chat - 基于Llama 3的中英双语优化大语言模型
人工智能Github开源项目自然语言处理语言模型Llama3Chinese
Llama3-Chinese-Chat项目基于Meta-Llama-3-8B-Instruct模型开发,采用ORPO方法优化训练,大幅提升中英双语交互能力。该模型具备角色扮演、工具使用等功能,提供多种版本选择。最新v2.1版本在数学、角色扮演和函数调用方面性能显著提升,训练数据集扩充至10万对。项目同时提供Ollama模型和量化版本,便于快速部署使用。
nanoGPT - 简洁高效的中型GPT模型训练框架
Github开源项目PyTorch深度学习语言模型nanoGPTGPT训练
nanoGPT是一个针对中型GPT模型的训练框架,重写自minGPT项目并注重性能优化。其核心由约300行代码组成,包括训练循环和模型定义,能够轻松复现GPT-2(124M)。该框架支持从零开始训练新模型或微调预训练检查点,并提供了详细的入门指南,涵盖了从Shakespeare作品上的字符级模型训练到在OpenWebText数据集上复现GPT-2结果的完整流程。
dspy - 自优化语言模型程序框架
Github开源项目语言模型AI框架提示工程DSPy程序优化
DSPy是一个语言模型编程框架,通过分离程序流程和参数,实现了提示词和权重的自动优化。该框架引入了新型优化器,能根据特定指标调整参数,有效提升GPT-3.5、GPT-4等模型的性能。DSPy为开发者提供了系统化方法,以更高效地解决复杂AI任务,显著改善了语言模型在各种应用中的可靠性。
MobileLLM - 轻量高效的移动设备语言模型
Github开源项目深度学习神经网络语言模型AI模型MobileLLM
MobileLLM是一个针对移动设备优化的大型语言模型项目。该模型通过SwiGLU激活函数、深窄架构、嵌入共享和分组查询注意力等技术,在亿级参数规模下实现了高性能。MobileLLM在零样本常识推理任务中表现出色,不仅在125M和350M参数规模上超越了现有最先进模型,还成功扩展至600M、1B和1.5B参数规模,展示了其在移动设备应用中的潜力。
openlogprobs - Python库实现语言模型API对数概率提取
Github开源项目Python语言模型APIopenlogprobs概率提取
openlogprobs是一个Python库,用于从语言模型API中提取对数概率。它实现了多种算法,如topk搜索、精确解和二分查找,可从OpenAI等API中提取完整概率向量。该工具支持并行处理,提高了效率。openlogprobs主要用于语言模型反演研究,为学术研究提供支持。这个库易于安装和使用,适合自然语言处理研究人员使用。
alpaca_farm - 仿真框架助力人类反馈学习研究
人工智能Github开源项目语言模型指令跟随AlpacaFarm偏好反馈
AlpacaFarm是一个人类反馈学习方法的仿真框架。它提供模拟成对反馈、自动评估和基准实现等功能,降低了指令跟随和对齐研究的成本。框架包含模拟偏好反馈、自动评估和参考方法实现等组件,旨在促进该领域的开放研究。
llama-zip - 利用大语言模型实现高效文本压缩的开源工具
Github开源项目语言模型文本压缩llama-zip压缩工具算术编码
llama-zip是一个开源的无损压缩工具,结合大型语言模型(LLM)和算术编码技术。它采用滑动上下文窗口方法,可压缩任意长度的文本,并支持结构化文本、自然语言和二进制数据。在多种文本数据测试中,llama-zip展现出优于传统压缩工具的性能,为数据压缩领域带来了新的可能性。
functionary - 具备函数执行和代码解释能力的智能语言模型
Github开源项目OpenAI语言模型AI工具Functionary函数执行
Functionary是一款智能语言模型,能够解释和执行函数及插件。它可以判断函数执行的时机和方式,理解函数输出,并仅在必要时触发函数。函数定义采用JSON Schema对象格式,与OpenAI GPT函数调用类似。此模型支持单函数调用、并行函数调用、多轮对话和代码解释等功能,为开发者提供了灵活而强大的工具。
OmniTokenizer - 联合图像视频标记器实现高效视觉生成
Github开源项目语言模型视觉生成VQVAEOmniTokenizer图像视频联合标记器
OmniTokenizer是一个图像和视频联合标记器,采用单一模型和权重,提供最先进的重建性能。它具有高分辨率和长视频适应性,可与语言模型和扩散模型结合实现视觉生成。项目提供预训练模型、训练脚本和评估工具,支持VQVAE和VAE版本,为视觉生成研究提供基础设施。
audio-flamingo - 新型音频语言模型实现音频理解和多轮对话
Github开源项目语言模型音频理解Audio Flamingofew-shot学习对话能力
Audio Flamingo是一种创新音频语言模型,具备音频理解、快速任务适应和多轮对话能力。通过优化训练技术、架构设计和数据策略,该模型在多项音频理解任务中创建新基准。项目开源基础模型和对话模型的训练及推理代码。模型权重可从GitHub和HuggingFace获取,仅供非商业用途。
DeepSeek-LLM - 多语言大模型展现卓越编码与数学能力
人工智能Github开源项目开源自然语言处理语言模型DeepSeek LLM
DeepSeek LLM是一个包含67亿参数的先进语言模型,经过2万亿英文和中文token的训练。该模型在推理、编码、数学和中文理解等方面表现优异,超越多个同类模型。其67B Chat版本在编码和数学方面尤为出色,在HumanEval和GSM8K等基准测试中名列前茅。项目开源了7B和67B的base与chat版本,可用于学术和商业研究。
RWKV-Runner - 一款全自动化轻量级RWKV管理和启动工具并提供与OpenAI API兼容的接口
Github开源项目OpenAI API自动化语言模型部署RWKV Runner
RWKV-Runner项目通过一个轻量级的可执行程序,简化了大型语言模型的使用,并提供与OpenAI API兼容的接口,使每个ChatGPT客户端都能作为RWKV客户端使用。项目支持多语言本地化,提供用户友好界面,自动安装依赖,包含一键启动、模型管理、前后端分离等功能。支持多级VRAM配置和CUDA加速,适用于大多数计算机。提供简单的部署示例、内置模型转换工具和远程模型检查功能。