#大语言模型

MathVista：突破视觉数学推理的新基准

3 个月前

MathVista 数学推理视觉理解大语言模型多模态模型 Github 开源项目

3 个月前

CRUD-RAG：全面评估中文检索增强生成系统的创新基准

3 个月前

CRUD-RAG 中文基准测试检索增强生成大语言模型评估系统 Github 开源项目

3 个月前

多智能体辩论:探索大语言模型的创新思维能力

3 个月前

Multi-Agent Debate 大语言模型语言模型 AI辩论认知行为 Github 开源项目

3 个月前

ToolQA:一个评估大语言模型外部工具使用能力的创新数据集

3 个月前

ToolQA 大语言模型数据集工具增强评估基准 Github 开源项目

3 个月前

大型图模型: 图神经网络的下一个前沿

3 个月前

大图模型图机器学习图神经网络大语言模型图提示学习 Github 开源项目

3 个月前

累积推理:大语言模型的新型思维方式

3 个月前

大语言模型累积推理数学问题解决 GPT-4 人工智能 Github 开源项目

3 个月前

Aegis: 为大语言模型打造自我强化的防火墙

3 个月前

Aegis 大语言模型防火墙安全保护对抗性攻击 Github 开源项目

3 个月前

ResuLLMe: 利用大语言模型增强你的简历

3 个月前

ResuLLMe 简历优化大语言模型 LaTeX JSON Resume Github 开源项目

3 个月前

DatasetGPT：revolutionizing dataset generation with large language models

3 个月前

datasetGPT 大语言模型数据集生成命令行工具 API接口 Github 开源项目

3 个月前

LLMPapers: 大型语言模型研究的宝库

3 个月前

大语言模型 ChatGPT 自然语言处理人工智能机器学习 Github 开源项目

3 个月前

相关项目

Llama-3.1-Swallow-70B-Instruct-v0.1

Llama 3.1 Swallow系列在增强日语和英语能力方面表现出色。基于Llama 3.1的模型结构，它不仅改进了对日语的处理能力，还保留了对英语的支持。利用包括日本网络、维基百科在内的语料，以2000亿个令牌进行训练，该模型在多个领域表现优异，包括文本生成、日英翻译和学术考试。不同的模型变体支持多种语言处理需求，提供灵活选择。

Qwen2-1.5B-Instruct-GGUF

Qwen2系列涵盖基础及指令微调语言模型，参数规模从0.5亿到72亿，具有优秀的多语言、编码及推理能力。1.5B版本展示了卓越的语言理解与生成能力，可媲美专有模型。本地可通过llama.cpp运行，并兼容OpenAI API以简便方式访问。多种模式与量化选项，适应不同需求与应用场景。

pythia-1.4b-deduped

Pythia Scaling Suite由多个大规模语言模型组成，旨在支持对模型可解释性的研究。其提供不同规模的模型版本，包括专为科研实验设计的1.4B去重模型，伴有154个训练检查点。虽不以下游应用为导向，但其性能在诸多方面可比拟甚至超越同类模型。适用于关注语言模型行为研究的科学工作者。

h2o-danube2-1.8b-chat

H2O.ai推出1.8B参数的h2o-danube2-1.8b-chat模型，基于Llama 2架构，并经过H2O LLM Studio和Mistral分词器微调。该模型适用于多种文本生成应用，支持transformers库中的集成和量化、分片设置，提升计算效率。在基准测试中表现优异，并重视负责与道德使用，欢迎用户反馈以优化性能。

internlm2-chat-7b

InternLM2-chat-7b作为书生·浦语第二代大模型的70亿参数版本，搭载20万字超长上下文理解技术，在复杂推理、数学运算、代码编程等核心任务上性能卓越。模型集成代码解释器和数据分析工具，通过增强型工具调用机制高效完成多步骤任务。在MMLU、AGIEval等主流评测基准上展现出同级别最优性能。该开源项目面向学术研究完全开放，同时提供免费商业授权渠道。

LLaMAntino-2-chat-13b-hf-UltraChat-ITA

这是一个经过指令微调的意大利语大语言模型。使用QLora技术训练，并基于UltraChat数据集的意大利语版本。项目开发由Leonardo超级计算机支持，并适用于多种意大利语对话场景的云端推理。

Meta-Llama-3-8B-GGUF

Meta-Llama-3-8B-GGUF是Meta发布的Llama 3系列8B参数大语言模型的量化版本。模型针对对话场景优化，采用改进的Transformer架构，支持8K上下文长度，并使用GQA技术提升推理性能。通过监督微调和人类反馈强化学习，增强了安全性和实用性。该模型于2024年4月发布，基于公开数据训练，知识截止到2023年3月。

Llama-3.2-1B-Instruct-GGUF

Meta的多语言大模型Llama 3.2支持多种语言，优化对话与摘要任务。模型提供1B和3B版本，通过监督微调和人类反馈强化学习提升互动有用性与安全性。采用优化的Transformer架构，并利用Grouped-Query Attention提升推理能力。开发者可以根据需求进行模型微调。模型发布于2024年9月25日，采用商用许可协议，建议在商业与研究中谨慎使用。

deepseek-coder-7b-instruct-v1.5

DeepSeek Coder是一个开源的代码生成语言模型，通过2T代码数据预训练和2B指令数据微调，具备4K上下文窗口。该模型支持代码生成与理解功能，开发者可通过Hugging Face平台便捷部署，并允许商业应用场景。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com