#推理能力

Awesome-LLM-Reasoning - 探索语言模型与多模态大型语言模型的推理能力汇编
Github开源项目大语言模型推理能力技术进展Awesome LLM Reasoning多模态推理
Awesome-LLM-Reasoning是一个精选的资源和论文集合,旨在深入探索LLMs与MLLMs的推理能力。覆盖方法论、技术研究和实证分析等多个领域,提供最新的研究动态和技术解析,助力学术和技术人员加深对这些模型的理解。
PanelGPT - 优化语言模型推理性能的全新零样本提示词方法
Github开源项目语言模型推理能力提示词PanelGPT零样本提示
PanelGPT通过引入专家小组讨论的零样本提示词,有效提升了语言模型在复杂任务上的表现。通过使用gpt-3.5-turbo进行评估,其在GSM8K数据集上的表现突出,验证了该方法的有效性。综合专家讨论模式与自洽性理论,帮助模型更准确地理解和解决问题,为语言模型的推理能力提供了新方案。
executorch - 移动和边缘设备上高效运行PyTorch模型的解决方案
Github开源项目PyTorch模型部署推理能力ExecuTorch边缘设备
ExecuTorch 提供端到端解决方案,实现移动和边缘设备上的推理能力,涵盖穿戴设备、嵌入式设备和微控制器。作为 PyTorch Edge 生态系统的一部分,ExecuTorch 通过轻量级运行时,利用硬件能力(如 CPU、NPU 和 DSP),高效地将 PyTorch 模型部署到多种平台。其主要优势包括:广泛的兼容性、开发效率和出色的用户体验。欲了解更多技术细节和教程,请访问文档网站获取最新版本。
Chain-of-ThoughtsPapers - 大型语言模型推理能力研究与应用进展
人工智能Github开源项目语言模型提示工程推理能力Chain-of-Thought
Chain-of-ThoughtsPapers项目收集了大型语言模型推理能力研究的关键论文。涵盖从基础到前沿的多个主题,如零样本推理、多模态推理和模型自我改进等。这些研究揭示了语言模型在复杂推理任务中的潜力,推动了自然语言处理领域的发展。项目持续更新,反映领域最新进展,为研究人员和开发者提供重要参考资料。
babilong - BABILong基准测试长文本处理能力 评估大语言模型极限
Github开源项目数据集长文本处理推理能力语言模型评估BABILong
BABILong是一个用于评估自然语言处理模型长文本处理能力的基准测试。它将bAbI数据集的任务句子隐藏在PG19背景文本中,生成长达数百万标记的测试样本。该基准包含20个推理任务,涉及事实链接、归纳、演绎和计数等多个方面。BABILong为评估和改进大语言模型的长文本处理能力提供了有效工具,同时也对现有长文本模型提出了挑战。
Progressive-Hint - 提升大型语言模型推理能力的新方法
Github开源项目大语言模型提示工程推理能力数学问题解决Progressive-Hint Prompting
Progressive-Hint项目开发了一种名为PHP的新方法,通过渐进式提示增强大型语言模型的推理能力。这种方法简单有效,可与Chain-of-Thought和Self-Consistency等现有技术结合。PHP在AQuA、SVAMP、GSM8K和MATH等多个推理数据集上展现出卓越性能,尤其在GSM8K数据集上结合Self-Consistency达到96.5%的最佳成绩。项目提供开源PyTorch实现,为研究人员和开发者提供了实用工具。
CoT-Reasoning-Survey - 链式思维推理研究综述:最新进展与未来趋势
Github开源项目语言模型基准测试推理能力多模态推理Chain of Thought
本项目全面综述了链式思维推理(Chain of Thought Reasoning)领域的研究现状,包括最新进展、前沿挑战和未来方向。内容涵盖CoT在数学推理、常识推理等领域的应用,以及相关基准测试集。同时分析了CoT的核心机制,如提示工程和多模态推理。对于研究人员和从业者而言,这是了解CoT最新动态的重要参考资源。
Yi-1.5-34B-32K - 增强代码和推理的高性能AI模型
Github开源项目开源模型大模型模型Huggingface推理能力语言理解Yi-1.5
Yi-1.5-34B-32K是Yi的升级版本,通过大规模语料库预训练及多样化样本微调,提升了代码编写、数学运算、推理及指令执行能力,并在语言理解领域表现优秀。该模型在基准测试中表现突出,与更大规模模型媲美甚至超越。可在诸如Hugging Face和ModelScope等平台下载,适用于多种应用场景。
internlm2_5-1_8b-chat - 开源18亿参数模型提升推理能力与工具调用效率
Github开源项目开源模型模型HuggingfaceInternLM推理能力模型性能工具利用
InternLM2.5是一个开源的18亿参数基础模型,拥有卓越的数学推理和增强的工具调用能力,其能够从多个网页搜集信息并进行分析和指令理解。在OpenCompass的评测中,该模型在MATH、GPQA等基准测试中表现突出。尽管在推理和综合能力上具有优越性,仍需注意潜在的风险输出。通过Transformers和LMDeploy工具,用户可以轻松加载和部署此模型以适应多种应用场景。
internlm2_5-7b-chat - 卓越推理能力与百万字超长上下文的开源大模型
Github开源项目大语言模型模型HuggingfaceInternLM推理能力工具使用上下文窗口
InternLM2.5-7B-Chat是一个开源的70亿参数大语言模型,在数学推理、百万字长文理解和工具调用等方面表现卓越。该模型在多项基准测试中超越同等规模模型,展现强大的综合能力。InternLM2.5-7B-Chat提供基础模型和对话模型,支持通过Transformers加载,并可使用LMDeploy、vLLM等方案部署,为开发者提供灵活的应用选择。
Qwen2-Math-7B-Instruct - 专注数学推理的大型语言模型
Github开源项目Hugging Face模型Huggingface推理能力数学语言模型Qwen2-Math指令模型
Qwen2-Math-7B-Instruct是一款专注于数学和算术问题推理的大型语言模型。它在处理复杂多步逻辑推理方面表现优异,性能超越多数开源及部分闭源模型。该模型基于Qwen2系列开发,目前主要支持英语输入。研究人员和开发者可借助此模型解决高级数学问题,为数学和科学研究领域提供有力支持。
Phi-3-medium-128k-instruct - 14B参数轻量级开源大语言模型支持128K上下文
人工智能Github开源项目语言模型模型基准测试HuggingfacePhi-3推理能力
Phi-3-medium-128k-instruct是微软开发的14B参数轻量级开源大语言模型,支持128K上下文长度。该模型在常识、语言理解、数学、编程、长文本处理和逻辑推理等方面表现优异,与同等规模及更大模型相比表现出色。经过指令微调和偏好优化,适用于多种商业和研究场景,尤其适合资源受限环境、低延迟场景和需要强大推理能力的应用。
Phi-3-medium-4k-instruct - 轻量级多任务语言模型
Github开源项目大语言模型自然语言处理模型Huggingface指令微调Phi-3推理能力
Phi-3-medium-4k-instruct是一个14B参数的轻量级开源语言模型,在常识、语言理解、数学和编码等多项基准测试中表现优异。该模型采用高质量合成数据和公开数据训练,经过指令微调和安全优化,支持4K上下文长度。它适用于内存/计算受限环境和低延迟场景,可广泛应用于商业和研究领域。
Phi-3.5-MoE-instruct - 轻量级高性能多语言开源模型
Github开源项目多语言语言模型模型Huggingface长文本处理推理能力Phi-3.5-MoE
Phi-3.5-MoE-instruct是一款高性能开源多语言模型。采用混合专家架构,仅用6.6B活跃参数即可实现优异性能。支持128K上下文长度,在推理、数学和代码生成等方面表现出色。模型专注高质量推理数据,经过严格微调和安全增强,适用于商业和研究领域。
Qwen2-7B-Instruct-GGUF - 广泛基准测试中表现突出的大型语言模型
Github开源项目多语言预训练模型模型优化Huggingface推理能力Qwen2-7B-Instruct
Qwen2-7B-Instruct-GGUF是一款经过指导优化的开源大规模语言模型,在语言理解、生成和多语言支持等基准测试中表现优异,提供fp16及多种量化格式,兼容OpenAI API,并增强代码和数学推理功能。
MAmmoTH2-8B-Plus - 基于网络数据的大规模指令微调方法
Github开源项目大语言模型模型Huggingface语言模型训练推理能力MAmmoTH2算法评估
MAmmoTH2项目通过从网络预训练语料中高效收集1000万条指令-回答对来提升大语言模型的推理能力。该方法显著改善了模型在多个推理基准测试上的表现,如MAmmoTH2-7B (Mistral)在MATH和GSM8K测试中的得分大幅提升。这种方法不仅无需特定领域数据训练,还为获取大规模高质量指令数据提供了一种高效的途径,为增强大语言模型的推理能力提供了新的研究方向。
Master-Yi-9B - 探索在编程和数学问题上的推理实力
Github开源项目开源模型编码Huggingface推理能力数学Master-Yi-9B
项目使用ORPO技术训练,表现出处理编程和数学问题的强大推理能力。集成多种开源LLM,生成高效解答,并提供GGUF和exl2等量化版本,优化资源使用。即将推出的新版本将进一步扩大其使用领域。
Orca-2-7b - 探索小型语言模型推理能力的新前沿
Github开源项目模型Huggingface推理能力合成数据内容安全研究用途Orca 2
Orca 2是为研究目的而设计的小型语言模型,专注于推理任务,基于LLAMA-2微调,展示了通过复杂流程和合成数据提升模型能力的方法。适合研究界评估与构建先进语言模型,经过微调可在特定任务中表现优异。需注意模型的偏见、透明度及内容风险,建议配合Azure AI内容安全服务使用以确保输出安全。
Orca-2-13b - 微软开源专注推理能力提升的研究型语言模型
人工智能Github开源项目语言模型模型Huggingface推理能力Orca 2微软研究
Orca 2是微软研究院基于LLAMA-2开发的研究型语言模型,通过合成数据集训练,旨在增强小型语言模型的推理能力。该模型在推理、阅读理解、数学问题解决和文本摘要等任务中表现优异,采用单轮响应模式。Orca 2为研究社区提供了评估和改进小型语言模型的基础,目前开放了13B参数版本及完整权重,供研究使用。
Phi-3-mini-4k-instruct-llamafile - 提供跨平台AI权重,实现高效文本生成
Github开源项目AI模型模型Huggingface推理能力量化格式责任感考量Phi-3-mini-4k-instruct
Phi-3-Mini-4K-Instruct项目采用llamafile格式,提供可在Linux、MacOS、Windows等多平台运行的AI权重,适用于文本生成任务。其优化推理能力在语言理解、数学和代码等领域表现优异,尤其在内存和计算资源受限环境中有效。使用者需结合具体场景考虑模型适用性及潜在限制。
Qwen2.5-Math-1.5B - 通过Qwen2.5-Math实现中英数解题能力的增强
Github开源项目模型Huggingface推理能力使用说明数学问题Qwen2.5-Math模型升级
Qwen2.5-Math继Qwen2-Math系列后,凭借CoT和TIR技术,显著提升中英数解题精准度,提供基础及优化版本,专攻数学问题。相比前代,Qwen2.5-Math在应对复杂数学计算如特征值计算中表现优异,不适用于其他任务。
AlphaMonarch-7B - 多功能7B模型,优化智能文本生成
Github开源项目文本生成模型模型评估Huggingface推理能力多任务基准AlphaMonarch-7B
AlphaMonarch-7B是经过DPO优化的模型,增强推理与对话能力,通过AI2 Reasoning Challenge、HellaSwag和TruthfulQA等测试表现优异。利用LazyMergekit合并多款模型,适合对话、角色扮演和故事创作。支持GGUF、GPTQ和AWQ等量化模式,搭配Mistral Instruct聊天模板,在多项国际评估中表现出色,成为高级7B模型中的一员。