CharacterEval

中文角色扮演对话代理评估基准

CharacterEval 角色扮演对话代理中文基准测试评估指标人工标注 Github 开源项目

CharacterEval是一个评估中文角色扮演对话代理(RPCAs)的基准。它包含1,785个多轮对话和23,020个样例，涵盖77个源自中国文学作品的角色。该基准采用四个维度的十三项指标进行评估，并开发了基于人工标注的角色奖励模型(CharacterRM)。实验显示，CharacterRM与人类评估的相关性显著高于GPT-4。

Github

Huggingface

介绍相关项目

HalluQA - 中文大语言模型幻觉评估基准

GithubHalluQA中文幻觉大型语言模型开源项目评估基准问答任务

HalluQA是一个评估中文大语言模型幻觉问题的基准测试。该项目包含450个涵盖多领域的对抗性问题，考虑中国特色文化因素。HalluQA提供数据集、评估脚本和多选任务，采用GPT-4评估非幻觉率。研究结果揭示不同模型在处理误导性和知识性问题的表现，为中文大语言模型的改进提供参考。

bigcode-evaluation-harness - 开源代码生成模型评估框架

BigCodeGithub代码生成多语言支持开源项目模型评估评估框架

bigcode-evaluation-harness是一个评估代码生成模型的开源框架。它支持多种编程语言和任务,如代码补全、插入和翻译。该框架兼容Hugging Face上的自回归模型,具备多GPU生成能力,并可在Docker容器中运行以保证安全性和可重复性。框架集成了HumanEval、APPS等多个代码生成基准,为研究人员和开发者提供了全面评估代码模型性能的工具。

chatarena - 一个提供多智能体语言游戏环境的库

ChatArenaGithubLLM多代理环境开源项目自主代理语言游戏

ChatArena是一个多代理语言游戏环境，用于GPT-3、GPT-4等大语言模型的研究和互动分析。它的主要功能包括灵活的玩家和环境定义、语言游戏环境的提供以及友好的Web UI和CLI接口，便于理解、基准测试和训练大语言模型。

ChatGPT_DAN - 详述ChatGPT DAN模式如何拓展人工智能应用边界

ChatGPTDAN模式Github人工智能内容策略开源项目模型训练

详述ChatGPT DAN模式如何突破常规界限，通过高度自由的交互表现，增强人工智能的应对能力和创造性。此模式通过模拟角色扮演的方式，实现了对复杂场景的深度适应与精准回应。

Charhub.ai - AI虚拟角色创作与交流社区

AI工具AI角色CharHub动漫虚拟角色角色扮演

Charhub.ai是一个专注于AI虚拟角色创作和分享的在线平台。用户可在此创建、分享和探索多种类型的AI生成角色,包括动漫、游戏和原创作品。平台提供丰富的标签系统,便于按类别浏览和筛选角色。Charhub.ai还支持社区互动和讨论,为AI角色爱好者提供创作交流空间。平台特色包括多样化的AI角色类型、便捷的标签筛选系统和活跃的社区互动。用户可轻松创建、分享和发现独特的AI虚拟角色,体验丰富的创作过程。

Midnight-Miqu-70B-v1.5 - 多功能文本生成和角色扮演模型

GithubHuggingfaceMidnight Miqu-70B-v1.5开源项目情感合并文本生成模型角色扮演非监督学习

Midnight-Miqu-70B-v1.5通过DARE线性合并技术，结合了两个基础模型的优点，适用于角色扮演和文本生成任务。该模型在基准测试中显示出良好表现，比如IFEval的严格准确度为61.18，BBH测试为38.54的标准化准确率。模型支持多种量化格式，允许个性化配置和调整，以提升使用体验。请注意，该模型的使用许可仅限个人用途。

unieval-fact - UniEval：革新自然语言生成的多维度评估方法

GithubHuggingfaceUniEval事实一致性多维度评估开源项目模型自然语言生成预训练评估器

unieval-fact是EMNLP 2022论文提出的预训练评估器，专注于事实一致性检测。该项目旨在统一多维度文本生成评估，弥补自动评估与人工评估的差距。它超越传统相似度指标，为自然语言生成系统提供更全面、细粒度的评估方法，尤其适用于评估先进生成模型的表现。

EvalsOne - 全面高效的生成式AI应用评估工具

AI工具AI应用优化EvalsOneGenAILLM评估模型集成

EvalsOne是一个面向生成式AI应用的综合评估平台。它集成了多样化的评估工具，支持LLM提示词优化、RAG流程改进和AI代理性能评估。平台简化了LLMOps流程，适用于AI应用的全生命周期。EvalsOne兼容多种模型，包括主流大模型和云端部署方案。平台提供即用型评估器，并支持自定义扩展，满足各类复杂场景需求。借助EvalsOne，开发者可以轻松进行评估实验、样本准备和深度分析，从而不断优化AI驱动的产品。

chatgpt-comparison-detection - 双语人类与ChatGPT对比语料集及检测工具

ChatGPTGithubHC3开源开源项目检测器语料集

HC3项目推出了首个Human vs. ChatGPT对比语料集，提供多个版本的ChatGPT检测器。项目通过开源模型工具高效检测ChatGPT生成内容，并收集中英双语问答语料助力学术研究。HC3数据集已在Huggingface和ModelScope发布，检测器包括问答版、独立文本版和语言学版，支持中英文检测。

Charstar - 创新虚拟AI角色互动平台

AI工具AI角色互动体验聊天机器人虚拟角色角色扮演

Charstar平台利用开源AI技术，提供丰富多样的虚拟角色互动体验。用户可创建、探索并与各类AI角色聊天，包括动漫、电影、游戏人物及原创角色。该AI聊天平台为虚拟社交提供独特空间，支持与多样化虚拟角色进行有趣对话和互动，打造全新的AI聊天体验。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号