ALCE

增强大语言模型生成引用文本的基准工具

ALCE是一个用于评估大语言模型生成引用文本能力的基准工具。它包含ASQA、QAMPARI和ELI5三个数据集，用于自动评估模型生成文本的流畅度、正确性和引用质量。ALCE提供了基线模型复现代码和评估方法，为研究人员提供了改进大语言模型文本生成和引用能力的综合解决方案。

Github

Huggingface

论文

介绍相关项目

evalverse - 开源大语言模型评估工具集

AI研究EvalverseGithubLLM评估开源项目评估报告

Evalverse是一个开源的大语言模型评估工具集，提供统一、标准化的评估解决方案。支持多种评估方法，可无代码进行评估并生成报告。通过子模块扩展评估能力，集成lm-evaluation-harness和FastChat等框架。生成的详细报告包含分数、排名和可视化，便于比较不同模型性能。适用于AI研究人员及LLM领域新手。

llm-hub - 全面了解先进语言模型在各领域的应用

GPT-3GithubLarge Language ModelsOpenAInatural language processing开源项目

这个存储库展示了GPT-3等先进语言模型在文本生成、搜索和问答领域的应用，提供详尽的教程和资源，帮助开发者构建自己的应用。无论是语言爱好者、机器学习研究者还是AI爱好者，这里是探索自然语言处理的理想平台。

Awesome-Code-LLM - 全面梳理了代码领域的语言模型研究，涵盖最新的论文和研究成果

Code GenerationGithubLLMLanguage Models for CodeNLPSoftware Engineering开源项目

《Awesome-Code-LLM》项目全面梳理了代码领域的语言模型研究，涵盖最新的论文和研究成果。这是一个极佳资源，旨在增强NLP与软件工程使用中语言模型的效果和效率，提供详尽的研究资源，非常适合机器学习初学者和NLP新手深入了解该领域。

albert-large-v2 - 高效低内存占用的英语语言预训练模型

ALBERTGithubHuggingface开源项目掩码语言建模模型自监督学习语言模型预训练模型

ALBERT预训练模型采用英语，具有层权重共享特性，减少内存占用同时提升效率。其自监督语言学习通过掩码语言建模和句子顺序预测实现，适合用于序列和标记分类等任务。第二版模型采用更多训练数据和优化，性能优于初版。模型包含24层、128维嵌入、1024隐藏层及16个注意力头，适合掩码语言建模或句子预测，并需通过微调匹配特定任务需求。

HalluQA - 中文大语言模型幻觉评估基准

GithubHalluQA中文幻觉大型语言模型开源项目评估基准问答任务

HalluQA是一个评估中文大语言模型幻觉问题的基准测试。该项目包含450个涵盖多领域的对抗性问题，考虑中国特色文化因素。HalluQA提供数据集、评估脚本和多选任务，采用GPT-4评估非幻觉率。研究结果揭示不同模型在处理误导性和知识性问题的表现，为中文大语言模型的改进提供参考。

LLaMA2-Accessory - 全方位开源工具助力大规模语言与多模态模型研发

GithubLLaMA2-Accessory多模态大语言模型开源项目微调预训练

LLaMA2-Accessory是一个全面的开源工具包,专注于大规模语言模型和多模态语言模型的开发。该工具支持预训练、微调和部署,涵盖多种数据集和任务类型。工具包提供高效的优化和部署方法,并兼容多种视觉编码器和语言模型。其中还包含SPHINX,这是一个融合多种训练任务、数据领域和视觉嵌入的多功能多模态大型语言模型。

AQLM - 加性量化技术实现大型语言模型高效压缩

AQLMGithubPyTorch大语言模型开源项目推理量化

AQLM项目开发了一种名为加性量化的新技术，可将大型语言模型压缩至原规模的1/16左右，同时基本保持原始性能。该技术适用于LLaMA、Mistral和Mixtral等多种模型架构，并提供了预量化模型。项目包含PyTorch实现代码、使用教程和推理优化方案，为大规模语言模型的实际应用提供了新思路。

ChatEval - 使用多智能体辩论改进大语言模型评估

ChatEvalGithubLLM人工智能多智能体辩论开源项目文本评估

ChatEval项目通过多智能体辩论方式改进大语言模型(LLM)的评估过程。该项目让多个LLM扮演不同角色，自主讨论和评判生成文本，简化了人工评估流程。ChatEval提供互动演示平台，用户可比较不同模型回答，并观察LLM裁判如何评估。这种方法提高了评估的客观性和透明度，为改进LLM性能提供了有价值的见解。

Llama3-ChatQA-1.5-8B - 强化对话问答和检索增强生成的高性能AI模型

GithubHuggingfaceLlama3-ChatQA-1.5人工智能开源项目检索增强生成模型自然语言处理问答系统

基于Llama-3开发的大语言模型，专注于优化对话式问答和检索增强生成能力。模型提供8B和70B两个版本，采用改进的训练方案，增强了表格理解和算术计算能力。在ChatRAG Bench评测中，模型在多个数据集上表现优异，尤其擅长处理上下文对话和文档检索。支持完整文档输入和分块检索两种使用方式，适用于多种对话问答场景。

MentalLLaMA - 开源大语言模型助力社交媒体上的可解释心理健康分析

GithubMentaLLaMA可解释性大语言模型开源项目心理健康分析社交媒体

MentalLLaMA项目开发了基于IMHI数据集的开源指令型大语言模型,用于社交媒体数据的心理健康分析。该模型能生成高质量解释,提高分析结果的可解释性。项目还提供了涵盖8个任务和10个测试集的全面评估基准。MentalLLaMA为心理健康监测和研究领域带来新的分析工具和方法。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com