#大语言模型

Chat-Haruhi-Suzumiya - 大型语言模型实现动漫角色对话
ChatHaruhi大语言模型角色扮演开源项目AI对话Github
Chat-Haruhi-Suzumiya项目利用大型语言模型实现动漫角色对话功能。该开源项目支持多个角色,包含丰富数据集和训练代码,可跨平台部署。除角色扮演外,项目还涉及人格特质研究等应用。通过持续更新,项目旨在探索AI与动漫角色互动的新可能。
langchain - 简化和优化上下文推理应用开发框架
LangChain大语言模型AI应用开发开源框架代理Github开源项目
LangChain是一个开发大型语言模型(LLM)应用的开源框架,提供从原型到生产的全生命周期支持。它包含开源库、生产化工具和部署方案,可用于构建问答系统、结构化数据提取和聊天机器人等应用。其特色在于模块化设计、丰富的第三方集成和预置链式结构,有效提升了LLM应用的开发效率和灵活性。
SEED - 融合视觉与语言的多模态AI框架
SEED-LLaMA多模态AI助手视觉语言模型大语言模型Github开源项目
SEED是一个创新的多模态AI框架,通过视觉分词器和去分词器,赋予大语言模型视觉理解和生成能力。该系统支持多模态理解与生成,展现出多轮上下文多模态生成等组合能力。基于SEED开发的SEED-LLaMA在广泛的多模态任务中表现优异,为AI领域开辟了新的研究方向。
llama-models - Meta推出的开放大型语言模型Llama
Llama大语言模型开源人工智能自然语言处理Github开源项目
llama-models是Meta开发的开放大型语言模型项目,为AI开发者、研究人员和企业提供易用的工具。项目包含Llama 2、Llama 3和Llama 3.1等多个版本,支持不同模型规模和上下文长度。llama-models注重开放性、生态系统支持和安全性,为AI创新与负责任发展奠定基础。
awesome-llm-cybersecurity-tools - 大型语言模型在网络安全研究中的应用工具集
大语言模型网络安全逆向工程代码分析AI辅助工具Github开源项目
awesome-llm-cybersecurity-tools项目收录了多种利用大型语言模型进行网络安全研究的工具。这些工具涉及逆向工程、网络分析和云安全等领域,展示了LLM在代码分析、漏洞发现和安全评估方面的应用。项目还包括LLM安全性研究和概念验证资源,为网络安全研究提供参考。
Awesome-LLMs-Evaluation-Papers - 大型语言模型评估研究论文综述
LLMs评估大语言模型知识能力评估对齐性评估安全性评估Github开源项目
该项目汇总了大型语言模型(LLMs)评估领域的前沿研究论文,涵盖知识能力、对齐性和安全性评估等方面。还包括特定领域的LLMs评估和综合评估平台介绍。旨在为研究人员提供全面的LLMs评估资源,推动语言模型的可靠发展,平衡社会效益与潜在风险。
Awesome-Graph-LLM - 探索图结构与大语言模型的前沿融合及应用
图模型大语言模型图神经网络多模态模型知识图谱Github开源项目
Awesome-Graph-LLM项目汇集图相关大语言模型(Graph-LLM)领域的前沿研究成果和资源。内容涵盖数据集、基准测试、综述文章,以及图推理、节点分类、图分类等应用。项目还收录图提示、通用图模型和多模态模型等新兴方向的相关工作,为Graph-LLM研究提供全面参考。
Multi-LLM-Agent - 多模型协作系统提升小型语言模型工具学习效能
Multi-LLM Agentα-UMi工具学习大语言模型人工智能Github开源项目
α-UMi是一个创新的多模型协作系统,将语言模型能力分解为规划、调用和总结三个组件。通过全局到局部的渐进式微调策略和灵活的提示设计,该系统显著提升了小型语言模型在工具学习任务中的表现,甚至超越了某些大型闭源模型。α-UMi为复杂AI任务提供了新的高效解决方案。
levanter - 专注可读性与可扩展性的大语言模型训练框架
Levanter大语言模型机器学习框架分布式训练JAXGithub开源项目
Levanter是一个用于训练大型语言模型和基础模型的框架。该框架使用Haliax命名张量库编写易读的深度学习代码,同时保持高性能。Levanter支持大型模型训练,兼容GPU和TPU等硬件。框架具有比特级确定性,保证配置一致性。其功能包括分布式训练、Hugging Face生态系统兼容、在线数据预处理缓存、Sophia优化器支持和多种日志后端。
OpenFedLLM - 联邦学习框架助力大型语言模型隐私数据训练
联邦学习大语言模型OpenFedLLM开源模型训练Github开源项目
OpenFedLLM是一个开源研究代码库,专注于利用联邦学习技术训练大型语言模型。该项目整合了多种联邦学习算法和LLM训练方法,并提供全面的评估指标。通过支持指令微调和价值对齐,OpenFedLLM为研究人员提供了在分散私有数据上进行LLM训练的有力工具,助力隐私保护和模型性能优化研究。
codellama - 基于Llama 2的多功能代码生成模型
Code Llama大语言模型代码生成AI编程开源模型Github开源项目
Code Llama是基于Llama 2开发的代码语言模型系列,提供多种功能变体。这些模型支持代码补全、处理大规模输入和零样本指令跟随。项目包含基础模型、Python专用模型和指令跟随模型,参数规模从7B到34B不等。经过16k令牌序列训练,模型在处理长达100k令牌的输入时表现优异。Code Llama为开发者提供了适用于多种编程任务的代码生成工具。
motif - 利用大语言模型偏好生成奖励函数的强化学习框架
MotifAI强化学习NetHack大语言模型Github开源项目
Motif是一个新型强化学习框架,通过大型语言模型的偏好生成奖励函数。它分为数据集注释、奖励函数训练和强化学习三个阶段。在NetHack游戏中,Motif展现出优秀性能,生成符合人类直觉的行为,并可通过提示词灵活调整。这种方法为开发智能AI代理提供了新的研究方向,具有良好的扩展潜力。
VTimeLLM - 创新视频大语言模型实现精准时刻理解
VTimeLLM视频理解大语言模型时间边界感知多阶段训练Github开源项目
VTimeLLM是一种先进的视频大语言模型,专注于精细化视频时刻理解和推理。该模型采用边界感知三阶段训练策略,包括图像-文本特征对齐、多事件视频时间边界识别和高质量视频指令微调。这种方法显著提升了模型的时间理解能力,使其在多项视频理解任务中表现优异。
Awesome-LLMOps - LLMOps工具和资源的精选列表
LLMOps大语言模型模型部署AI框架模型推理Github开源项目
Awesome-LLMOps列出了大语言模型运维(LLMOps)领域的优秀工具和资源。涵盖模型训练、部署、优化、服务、安全、搜索和代码AI等方面。该项目为开发者提供了构建和管理大规模语言模型应用的重要参考。
LLMLingua - 提示词压缩技术助力大语言模型效率提升
LLMLingua提示词压缩大语言模型长文本处理推理加速Github开源项目
LLMLingua系列是一套创新的提示词压缩工具,可将提示词压缩至原长度的5%,同时保持大语言模型性能。通过小型语言模型识别并移除非必要标记,该技术有效解决长文本处理和上下文遗忘等问题,大幅降低API使用成本并提高推理效率。LLMLingua系列包含三个版本,适用于检索增强生成、在线会议和代码处理等多种场景。
QAnything - 多格式文件支持的本地知识库智能问答系统
QAnything知识库问答系统大语言模型文件格式支持BCEmbeddingGithub开源项目
QAnything是一款支持多种文件格式的本地知识库智能问答系统。该系统可离线安装使用,支持PDF、Word、PPT等多种文件格式,具备数据安全、跨语言问答和海量数据处理能力。通过采用两阶段检索排序技术,QAnything有效解决了大规模数据检索退化问题。系统设计注重易用性,无需复杂配置,可一键安装部署,适合企业级应用场景。
FastChat - 大语言模型聊天机器人开源训练与部署平台
FastChat大语言模型聊天机器人开源平台APIGithub开源项目
FastChat是一个用于训练、部署和评估基于大语言模型聊天机器人的开源平台。该平台提供先进模型的训练评估代码和分布式多模型服务系统,包含Web界面和OpenAI兼容的RESTful API。FastChat支持Vicuna、LongChat等多种语言模型,提供命令行和Web图形界面。此外,它还具备多GPU并行、CPU推理和模型量化等功能,可适配不同硬件平台。
neural-compressor - 开源深度学习模型压缩工具库
模型压缩量化深度学习框架Intel Neural Compressor大语言模型Github开源项目
Neural Compressor是一款开源深度学习模型压缩工具库,支持TensorFlow、PyTorch和ONNX Runtime等主流框架。它提供量化、剪枝、知识蒸馏等多种压缩技术,适用于Intel等多种硬件平台。该工具支持大语言模型优化,并与主流云服务和AI生态系统集成。其自动化的精度感知量化策略有助于平衡模型性能和精度。
ltu - 音频和语音理解大模型与技术突破
LTULTU-AS音频理解语音理解大语言模型Github开源项目
LTU和LTU-AS是首个桥接音频和语音感知与理解的大型语言模型。这两个模型在多个封闭式音频和语音任务上达到最先进水平,同时能基于给定音频回答开放式问题。项目提供PyTorch实现、预训练模型和数据集,支持推理和微调。发布的OpenAQA和OpenASQA训练数据集为音频和语音理解研究提供了重要资源。
DeepSeek-V2 - 兼顾效率与经济性的大规模混合专家语言模型
DeepSeek-V2混合专家模型大语言模型预训练模型自然语言处理Github开源项目
DeepSeek-V2是一款基于专家混合(MoE)架构的大规模语言模型,总参数量达2360亿,每个token激活210亿参数。相较于DeepSeek 67B,该模型在提升性能的同时,显著降低了训练成本和推理资源消耗。DeepSeek-V2在多项标准基准测试和开放式生成任务中表现优异,展现了其在多领域的应用潜力。
JetMoE - 低成本高性能的开源AI语言模型
JetMoE大语言模型开源性能低成本Github开源项目
JetMoE-8B是一款开源大语言模型,以低于10万美元的成本实现了超越LLaMA2-7B的性能。该模型仅使用公开数据集训练,完全开源,适合学术研究。在推理时,JetMoE-8B只激活22亿参数,显著降低计算成本。多项基准测试结果表明,该模型表现优异,展现了AI领域低成本高效能开发的新可能。
speech-trident - 语音大模型三大关键领域 表示学习 神经编解码 语言模型
Speech Trident语音模型大语言模型表示学习神经编解码器Github开源项目
Speech-trident项目调查语音大模型的三个核心领域:语音表示学习、神经编解码模型和语音语言模型。该项目涵盖语义标记学习、声学标记生成及基于标记的语言建模方法,旨在促进语音理解和生成技术的发展,为相关研究提供资源。
SECap - 语音情感转文字描述的开源AI系统
SECap语音情感描述大语言模型音频处理情感分析Github开源项目
SECap是一个开源的语音情感描述生成系统,结合大语言模型技术将语音情感转化为文字描述。项目包含模型代码、训练测试脚本和600个音频样本的测试集。系统能捕捉语音情感特征并生成相应描述,为语音情感分析研究提供新的工具和思路。
exui - 基于ExLlamaV2的浏览器界面 简化本地大语言模型交互
ExUIExLlamaV2本地推理用户界面大语言模型Github开源项目
ExUI是基于ExLlamaV2开发的轻量级浏览器界面,用于本地大语言模型推理。该工具提供响应式界面、持久会话和多种指令格式,支持EXL2、GPTQ和FP16模型。ExUI具有推测性解码和记事本模式等特性,适用于本地环境和Google Colab,简化了大语言模型的交互过程。
LLM-Codec - 跨模态音频处理新方案:LLM驱动音频编解码模型
UniAudio 1.5LLM-Codec音频处理跨模态学习大语言模型Github开源项目
LLM-Codec是一种创新音频编解码模型,将音频转换为文本空间,实现跨模态学习。基于LLM-Codec的UniAudio 1.5能通过少量示例执行多种音频任务,包括语音情感分类、音频分类和语音增强。该开源项目为少样本音频任务学习和多模态LLM研究开辟了新途径。
GaLore - 内存高效训练策略 全参数学习与低秩梯度投影
GaLore大语言模型梯度投影内存效率低秩训练Github开源项目
GaLore是一种内存高效的低秩训练策略,实现全参数学习的同时比常见低秩适应方法更节省内存。作为梯度投影方法,GaLore可通过两行代码轻松集成到现有优化器中。这一策略不仅优化内存使用,还保持训练准确性,为大规模语言模型训练提供新解决方案。项目目前处于预发布阶段,计划未来支持多GPU训练和内存高效的低秩梯度累积等功能。
llama - 开源大语言模型推动自然语言处理发展
Llama大语言模型Meta人工智能开源Github开源项目
Llama 2是Meta公司开发的开源大语言模型系列,提供7B至70B参数的预训练和微调模型。该项目为研究和商业用途提供模型权重和代码,支持多样化的自然语言处理应用。Llama 2注重负责任的AI发展,实施严格的使用政策。项目包含多个仓库,构建了从基础模型到端到端系统的完整技术栈,为AI领域的创新和应用提供了重要支持。
BayLing - 跨语言对齐与指令遵循的多语言大模型
BayLing大语言模型多语言指令跟随交互翻译Github开源项目
BayLing是一个开源的多语言大规模语言模型,专注于跨语言对齐和指令遵循。该模型在英汉双语生成、指令执行和多轮交互方面表现优异,可在16GB显存的消费级GPU上运行。BayLing支持翻译、写作、创作和建议等多种任务,为用户提供多语言智能辅助。
Awesome-Tool-Learning - 大型语言模型工具学习研究与应用进展综述
工具学习大语言模型人工智能自然语言处理工具增强Github开源项目
Awesome-Tool-Learning汇集了工具学习领域的精选论文和应用。项目涵盖调查研究、微调、上下文学习等多个方向的最新进展,同时收录英文和中文资源。研究人员和开发者可通过该项目全面了解大型语言模型在工具使用方面的前沿发展。
DeepSeek-MoE - 创新MoE架构打造高效大规模语言模型
DeepSeekMoE大语言模型MoE架构模型评估开源模型Github开源项目
DeepSeek-MoE项目开发了创新的混合专家架构语言模型,采用细粒度专家分割和共享专家隔离策略。该16.4B参数模型仅使用40%计算量就达到DeepSeek 7B和LLaMA2 7B的性能水平。模型可在单个40GB内存GPU上直接部署运行,无需量化,为学术和商业研究提供了高效便捷的工具。
llm-hallucination-survey - 大语言模型幻觉问题研究综述
幻觉大语言模型评估事实一致性自相矛盾Github开源项目
该项目全面调查了大语言模型中的幻觉问题,涵盖评估方法、成因分析和缓解策略。研究包括输入冲突、上下文冲突和事实冲突等多种幻觉类型,并汇总了相关学术文献。项目成果有助于提升大语言模型在实际应用中的可靠性,为该领域的研究和开发提供重要参考。
RAG-Survey - RAG技术全面综述 基础方法、增强技术及未来方向
RAG检索增强生成大语言模型人工智能自然语言处理Github开源项目
该研究对检索增强生成(RAG)技术进行了系统性调查和分类。文章全面总结了RAG的基础方法,包括基于查询、潜在表示和logit的技术,以及新兴的推测性RAG。同时深入探讨了RAG的多种增强策略,涵盖输入优化、检索器改进和生成器增强等关键方面。这份综述为AI领域的研究人员和开发者提供了RAG技术的最新进展概览,有助于把握未来研究方向。
aimo-progress-prize - 开源AI数学奥林匹克解决方案
NuminaMathAI数学奥林匹克数学问题解决大语言模型工具集成推理Github开源项目
aimo-progress-prize项目提供了一套AI数学奥林匹克解决方案,包含DeepSeekMath-Base 7B模型微调方法、数据集和自一致性解码算法。项目使用TRL、PyTorch等库,在8个H100 GPU上10小时内完成训练。仓库包括安装指南、训练方法和代码结构说明,为AI数学研究提供参考资源。
VideoLLaMA2 - 增强视频理解的多模态语言模型
VideoLLaMA2视频理解大语言模型多模态AIGithub开源项目
VideoLLaMA2是一款先进的视频语言模型,通过增强空间-时间建模和音频理解能力,提高了视频问答和描述任务的性能。该模型在零样本视频问答等多项基准测试中表现出色。VideoLLaMA2能处理长视频序列并理解复杂视听内容,为视频理解技术带来新进展。
DeepSeek-Math - 开源数学推理模型的新突破
DeepSeekMath大语言模型数学推理开源模型人工智能Github开源项目
DeepSeek-Math是基于DeepSeek-Coder-v1.5 7B预训练的开源数学推理模型。在MATH基准测试中,它达到51.7%的成绩,接近Gemini-Ultra和GPT-4的水平。项目提供基础、指令微调和强化学习三个7B模型版本,支持数学问题求解、工具使用和定理证明。DeepSeek-Math在保持通用能力的同时提升了数学推理能力,为数学研究提供了新的AI工具。
FlexGen - 单GPU高效运行大语言模型的生成引擎
FlexGen高吞吐量大语言模型GPU内存优化批处理Github开源项目
FlexGen通过高效的IO卸载、压缩和大批量处理,实现了在单GPU上高吞吐量运行大语言模型。该系统专为高吞吐量任务设计,如信息提取和数据处理,特别适合成本敏感的环境。虽然FlexGen在小批量任务上速度较慢,但在批量处理和低成本硬件上具有显著优势。