#大语言模型

RefChecker: 一个用于检测大型语言模型幻觉的新工具与数据集

3 个月前

RefChecker 大语言模型幻觉检测评估框架事实性 Github 开源项目

3 个月前

SAMMO: 智能化提示工程的新利器

3 个月前

SAMMO 大语言模型提示工程数据标注并行处理 Github 开源项目

3 个月前

LLaVA-HR:高分辨率大语言和视觉助手

3 个月前

LLaVA-HR 大语言模型多模态高分辨率视觉语言任务 Github 开源项目

3 个月前

nvim-llama: 为Neovim打造的本地大语言模型接口

3 个月前

Neovim Ollama 大语言模型插件 Docker Github 开源项目

3 个月前

Going Meta: 探索知识图谱和语义技术的前沿

3 个月前

GoingMeta 知识图谱语义技术本体大语言模型 Github 开源项目

3 个月前

MindSQL：简化数据库交互的Python Text-to-SQL RAG库

3 个月前

MindSQL RAG 数据库交互大语言模型 Python库 Github 开源项目

3 个月前

LangChain4j-AIDeepin: 开源可离线部署的检索增强生成(RAG)项目

3 个月前

LangChain4j-AIDeepin RAG 大语言模型知识库 AI绘图 Github 开源项目

3 个月前

ModuleFormer：IBM推出的创新混合专家模型架构

3 个月前

ModuleFormer MoLM 大语言模型稀疏激活模块化 Github 开源项目

3 个月前

K2:地球科学领域的大型语言模型

3 个月前

K2 地球科学大语言模型 GeoSignal GeoBench Github 开源项目

3 个月前

SimplyRetrieve: 一款轻量级私有化检索生成AI工具

3 个月前

SimplyRetrieve 检索生成开源工具大语言模型本地化 Github 开源项目

3 个月前

相关项目

Llama-3.1-Swallow-70B-Instruct-v0.1

Llama 3.1 Swallow系列在增强日语和英语能力方面表现出色。基于Llama 3.1的模型结构，它不仅改进了对日语的处理能力，还保留了对英语的支持。利用包括日本网络、维基百科在内的语料，以2000亿个令牌进行训练，该模型在多个领域表现优异，包括文本生成、日英翻译和学术考试。不同的模型变体支持多种语言处理需求，提供灵活选择。

Qwen2-1.5B-Instruct-GGUF

Qwen2系列涵盖基础及指令微调语言模型，参数规模从0.5亿到72亿，具有优秀的多语言、编码及推理能力。1.5B版本展示了卓越的语言理解与生成能力，可媲美专有模型。本地可通过llama.cpp运行，并兼容OpenAI API以简便方式访问。多种模式与量化选项，适应不同需求与应用场景。

pythia-1.4b-deduped

Pythia Scaling Suite由多个大规模语言模型组成，旨在支持对模型可解释性的研究。其提供不同规模的模型版本，包括专为科研实验设计的1.4B去重模型，伴有154个训练检查点。虽不以下游应用为导向，但其性能在诸多方面可比拟甚至超越同类模型。适用于关注语言模型行为研究的科学工作者。

h2o-danube2-1.8b-chat

H2O.ai推出1.8B参数的h2o-danube2-1.8b-chat模型，基于Llama 2架构，并经过H2O LLM Studio和Mistral分词器微调。该模型适用于多种文本生成应用，支持transformers库中的集成和量化、分片设置，提升计算效率。在基准测试中表现优异，并重视负责与道德使用，欢迎用户反馈以优化性能。

internlm2-chat-7b

InternLM2-chat-7b作为书生·浦语第二代大模型的70亿参数版本，搭载20万字超长上下文理解技术，在复杂推理、数学运算、代码编程等核心任务上性能卓越。模型集成代码解释器和数据分析工具，通过增强型工具调用机制高效完成多步骤任务。在MMLU、AGIEval等主流评测基准上展现出同级别最优性能。该开源项目面向学术研究完全开放，同时提供免费商业授权渠道。

LLaMAntino-2-chat-13b-hf-UltraChat-ITA

这是一个经过指令微调的意大利语大语言模型。使用QLora技术训练，并基于UltraChat数据集的意大利语版本。项目开发由Leonardo超级计算机支持，并适用于多种意大利语对话场景的云端推理。

Meta-Llama-3-8B-GGUF

Meta-Llama-3-8B-GGUF是Meta发布的Llama 3系列8B参数大语言模型的量化版本。模型针对对话场景优化，采用改进的Transformer架构，支持8K上下文长度，并使用GQA技术提升推理性能。通过监督微调和人类反馈强化学习，增强了安全性和实用性。该模型于2024年4月发布，基于公开数据训练，知识截止到2023年3月。

Llama-3.2-1B-Instruct-GGUF

Meta的多语言大模型Llama 3.2支持多种语言，优化对话与摘要任务。模型提供1B和3B版本，通过监督微调和人类反馈强化学习提升互动有用性与安全性。采用优化的Transformer架构，并利用Grouped-Query Attention提升推理能力。开发者可以根据需求进行模型微调。模型发布于2024年9月25日，采用商用许可协议，建议在商业与研究中谨慎使用。

deepseek-coder-7b-instruct-v1.5

DeepSeek Coder是一个开源的代码生成语言模型，通过2T代码数据预训练和2B指令数据微调，具备4K上下文窗口。该模型支持代码生成与理解功能，开发者可通过Hugging Face平台便捷部署，并允许商业应用场景。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com