#大语言模型

RefChecker: 一个用于检测大型语言模型幻觉的新工具与数据集

3 个月前
Cover of RefChecker: 一个用于检测大型语言模型幻觉的新工具与数据集

SAMMO: 智能化提示工程的新利器

3 个月前
Cover of SAMMO: 智能化提示工程的新利器

LLaVA-HR:高分辨率大语言和视觉助手

3 个月前
Cover of LLaVA-HR:高分辨率大语言和视觉助手

nvim-llama: 为Neovim打造的本地大语言模型接口

3 个月前
Cover of nvim-llama: 为Neovim打造的本地大语言模型接口

Going Meta: 探索知识图谱和语义技术的前沿

3 个月前
Cover of Going Meta: 探索知识图谱和语义技术的前沿

MindSQL:简化数据库交互的Python Text-to-SQL RAG库

3 个月前
Cover of MindSQL:简化数据库交互的Python Text-to-SQL RAG库

LangChain4j-AIDeepin: 开源可离线部署的检索增强生成(RAG)项目

3 个月前
Cover of LangChain4j-AIDeepin: 开源可离线部署的检索增强生成(RAG)项目

ModuleFormer:IBM推出的创新混合专家模型架构

3 个月前
Cover of ModuleFormer:IBM推出的创新混合专家模型架构

K2:地球科学领域的大型语言模型

3 个月前
Cover of K2:地球科学领域的大型语言模型

SimplyRetrieve: 一款轻量级私有化检索生成AI工具

3 个月前
Cover of SimplyRetrieve: 一款轻量级私有化检索生成AI工具
相关项目
Project Cover

Llama-3.1-Swallow-70B-Instruct-v0.1

Llama 3.1 Swallow系列在增强日语和英语能力方面表现出色。基于Llama 3.1的模型结构,它不仅改进了对日语的处理能力,还保留了对英语的支持。利用包括日本网络、维基百科在内的语料,以2000亿个令牌进行训练,该模型在多个领域表现优异,包括文本生成、日英翻译和学术考试。不同的模型变体支持多种语言处理需求,提供灵活选择。

Project Cover

Qwen2-1.5B-Instruct-GGUF

Qwen2系列涵盖基础及指令微调语言模型,参数规模从0.5亿到72亿,具有优秀的多语言、编码及推理能力。1.5B版本展示了卓越的语言理解与生成能力,可媲美专有模型。本地可通过llama.cpp运行,并兼容OpenAI API以简便方式访问。多种模式与量化选项,适应不同需求与应用场景。

Project Cover

pythia-1.4b-deduped

Pythia Scaling Suite由多个大规模语言模型组成,旨在支持对模型可解释性的研究。其提供不同规模的模型版本,包括专为科研实验设计的1.4B去重模型,伴有154个训练检查点。虽不以下游应用为导向,但其性能在诸多方面可比拟甚至超越同类模型。适用于关注语言模型行为研究的科学工作者。

Project Cover

h2o-danube2-1.8b-chat

H2O.ai推出1.8B参数的h2o-danube2-1.8b-chat模型,基于Llama 2架构,并经过H2O LLM Studio和Mistral分词器微调。该模型适用于多种文本生成应用,支持transformers库中的集成和量化、分片设置,提升计算效率。在基准测试中表现优异,并重视负责与道德使用,欢迎用户反馈以优化性能。

Project Cover

internlm2-chat-7b

InternLM2-chat-7b作为书生·浦语第二代大模型的70亿参数版本,搭载20万字超长上下文理解技术,在复杂推理、数学运算、代码编程等核心任务上性能卓越。模型集成代码解释器和数据分析工具,通过增强型工具调用机制高效完成多步骤任务。在MMLU、AGIEval等主流评测基准上展现出同级别最优性能。该开源项目面向学术研究完全开放,同时提供免费商业授权渠道。

Project Cover

LLaMAntino-2-chat-13b-hf-UltraChat-ITA

这是一个经过指令微调的意大利语大语言模型。使用QLora技术训练,并基于UltraChat数据集的意大利语版本。项目开发由Leonardo超级计算机支持,并适用于多种意大利语对话场景的云端推理。

Project Cover

Meta-Llama-3-8B-GGUF

Meta-Llama-3-8B-GGUF是Meta发布的Llama 3系列8B参数大语言模型的量化版本。模型针对对话场景优化,采用改进的Transformer架构,支持8K上下文长度,并使用GQA技术提升推理性能。通过监督微调和人类反馈强化学习,增强了安全性和实用性。该模型于2024年4月发布,基于公开数据训练,知识截止到2023年3月。

Project Cover

Llama-3.2-1B-Instruct-GGUF

Meta的多语言大模型Llama 3.2支持多种语言,优化对话与摘要任务。模型提供1B和3B版本,通过监督微调和人类反馈强化学习提升互动有用性与安全性。采用优化的Transformer架构,并利用Grouped-Query Attention提升推理能力。开发者可以根据需求进行模型微调。模型发布于2024年9月25日,采用商用许可协议,建议在商业与研究中谨慎使用。

Project Cover

deepseek-coder-7b-instruct-v1.5

DeepSeek Coder是一个开源的代码生成语言模型,通过2T代码数据预训练和2B指令数据微调,具备4K上下文窗口。该模型支持代码生成与理解功能,开发者可通过Hugging Face平台便捷部署,并允许商业应用场景。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号