以下我们汇编了一些优秀的论文,这些论文:
评估、对齐和模拟绝不是相互独立的。例如,评估需要模拟。我们根据对这些论文重点的理解进行分类。
欢迎贡献和讨论!
大语言模型的异质价值评估, 2023.03, [论文], [代码]。
摘要:本文引入A2EHV方法,评估这些模型与社会价值取向(SVO)框架下分类的一系列人类价值观的对齐程度。
通过判别器-评论家差距测量语言模型的价值理解, 2023.10, [论文]。
摘要:本文引入价值理解测量(VUM)框架,定量评估LLM对价值观的理解。这是通过测量判别器-评论家差距(DCG)来实现的,该差距评估模型对价值观的知识("知其然")和这种知识背后的推理("知其所以然")。
价值FULCRA:将大语言模型映射到基本人类价值观的多维谱系, 2023.11, [论文]。
[MBTI] 开放模型,封闭思维?关于代理通过开放大型语言模型模仿人类性格的能力,2024.01,[论文]
[BFI] AI心理测量:通过心理测量量表评估大型语言模型的心理特征,期刊,2024.01,[论文]
角色扮演聊天机器人能否捕捉角色性格?评估角色扮演聊天机器人的性格特征,2023.10,[论文]
[MBTI] LLM是否拥有性格?将MBTI测试作为大型语言模型的绝佳评估方法,2023.07,[论文]
[MBTI] ChatGPT能评估人类性格吗?一个通用评估框架,2023.03,EMNLP 2023,[论文],[代码]
[BFI] 大型语言模型中的性格特征,2023.07,[论文]
[BFI] 重新审视大型语言模型心理量表的可靠性,2023.05,[论文]
[BFI] GPT-3零样本性格估计的系统评估,ACL 2023研讨会,[论文]
[BFI] 大型语言模型是否已形成性格?自评测试在测量LLM性格中的适用性,2023.05,[论文]
[BFI] 评估和诱导预训练语言模型中的性格,NeurIPS 2023(聚焦报告),[论文]
[BFI] 识别和操纵语言模型的性格特征,2022.12,[论文]
GPT-3是谁?对其性格、价值观和人口统计学特征的探索,2022.09,[论文]
GPT-3是否表现出精神病态?从心理学角度评估大型语言模型,2022.12,[论文]
使AI与人类共同价值观保持一致,2020,[论文]
探索GPT-4道德和法律推理的心理学,2023.08,[论文]
简介:该论文通过基于场景的研究,在多个领域比较了GPT-4与人类的道德和法律推理。研究揭示了GPT-4回应中的显著相似性和差异,为其与人类道德判断的一致性提供了见解。
通过定义问题测试探究大型语言模型的道德发展
简介:基于科尔伯格道德发展模型的定义问题测试(DIT)被用于评估LLM的伦理推理能力。GPT-3的表现处于随机基线水平,而GPT-4达到了最高的道德发展分数,相当于研究生水平。
大型语言模型的道德基础,2023.10,[论文]
道德模仿:大型语言模型产生针对政治身份的道德理由化,2023.06,[论文]
评估LLM中编码的道德信念,2023.07,[论文]
比人更像人:测量ChatGPT的政治偏见,2023,[论文]
简介:本文提出了测量ChatGPT政治偏见的实证设计,显示ChatGPT在美国对民主党、在巴西对卢拉、在英国对工党存在显著且系统性的政治偏见。
探索测量语言模型中主观全球观点表征的方法,2023.07,[论文],[网站]
简介:该研究探讨如何定量评估LLM中主观全球观点的表征。它引入了一个来自跨国调查的数据集,以捕捉多样化的全球视角,并开发了一个指标来测量LLM生成的响应与基于国籍的人类响应之间的相似度,揭示了模型响应中的偏见和刻板印象。
语言模型在社会学研究中的应用:用于分类大型行政数据和测量宗教性,2021年,[论文]。
大型语言模型能否改变计算社会科学?,2023年,[论文],[代码]。
简述:本文为使用大型语言模型作为计算社会科学工具提供了路线图,包括提示词最佳实践和评估流程。评估结果表明,大型语言模型可以作为零样本数据标注器,并协助处理具有挑战性的创造性生成任务。
SOTOPIA:语言智能体社交智能的交互式评估,2023年,[论文],[代码]。
简述:该论文介绍了SOTOPIA,一个通过目标驱动的社交互动来评估语言智能体社交智能的新型交互环境。使用SOTOPIA进行的实验揭示了最先进模型与人类社交智能之 间存在差距,尽管模型展示了一些有前景的能力。
探索大型语言模型智能体的协作机制:社会心理学视角,2023年,[论文],[代码]。
简述:本文通过借鉴社会心理学的见解,探讨了多智能体系统中大型语言模型之间的协作机制。多智能体协作策略比扩大单个大型语言模型规模更重要;培养有效协作是实现更具社会意识的人工智能的关键。
在心理学中使用大型语言模型,2023年,[论文]。
简述:本文探讨了在心理学研究中使用大型语言模型的潜在应用和担忧,并建议投资高质量数据集、性能基准和基础设施,以实现大型语言模型的负责任使用。
与大型语言模型玩重复博弈,2023年5月,[论文]。
简述:本文通过让大型语言模型玩重复的双人博弈来研究其合作和协调行为。主要发现是像GPT-4这样的大型语言模型在竞争性博弈中表现出色,但在需要更多合作的博弈中难以协调和交替策略。
机器心理学:使用心理学方法研究大型语言模型的涌现能力和行为,2023年,[论文]。
使用认知心理学理解GPT-3,2023年2月,PNAS,[论文]。
大型语言模型作为人类专家的替代品在标注政治文本中的应用,2024年2月,[论文]。
微调语言模型以在具有不同偏好的人群中寻找共识,2022年,[论文]。
关键词:共识、微调、多样化偏好、对齐
简述:该研究通过微调大型语言模型,生成能够最大化具有潜在不同观点的群体预期认可度的陈述,尤其是在道德和政治问题上。
在模拟人类社会中训练社会对齐的语言模型,2023年,[论文],[代码]。
关键词:稳定对齐、社会对齐、社会规范和价值观、模拟社交互动、对比监督学习
简述:本文提出了一种训练范式,允许语言模型通过模拟社交互动学习社会对齐。在这种范式下训练的模型能更好地处理"越狱提示"。
[规范] 即时对齐:使聊天机器人行为适应既定规范,2023年12月,[论文],[代码]。
简述:使用检索增强生成(RAG)技术使大型语言模型与动态、多样的人类价值观(如社会规范)保持一致。
[MBTI] 机器思维模式:对大型语言模型的MBTI探索,2023年12月,[论文],[代码]。
简述:通过指令微调和直接偏好优化(DPO)将大型语言模型训练成特定的MBTI类型。
演化社会规范中的智能体对齐,2024.01,[论文]。
[价值] 人类价值观是什么,我们如何使人工智能与之对齐?,2024.04,[论文]。
从一生多:使用语言模型模拟人类样本,2022,[论文]。
摘要:该研究引入了"算法保真度"的概念 - 衡量模型中思想、态度和语境之间的关系与人类群体中的关系相似程度。他们提出了4个评估算法保真度的标准,并证明GPT-3在模拟美国公众舆论和政治态度方面表现出高度的保真度。
社交模拟:为社交计算系统创建populated原型,2022,[论文]。
关键词:社交计算原型 、社交模拟、大语言模型、系统设计优化
摘要:本文提出了社交模拟(Social Simulacra)这一社交计算原型,用于模拟系统中由具有不同行为(如发帖、回复和反社会倾向)的多样化社区成员组成的真实社交互动。
生成式智能体:人类行为的交互式模拟,2023,[论文],[代码]。
关键词:生成式智能体、沙盒环境、自然语言交流、涌现社交行为、Smallville
摘要:本文介绍了生成式智能体及其用于记忆存储、反思、检索等的架构。这些智能体在交互式沙盒环境中产生可信的个体和涌现社交行为。
使用大型语言模型模拟多个人类并重现人类主体研究,2023,[论文],[代码]。
摘要:本文提出了一种模拟图灵实验(TEs)的方法,并将其应用于重现经济学、心理语言学和社会心理学实验中的既定发现。结果表明,较大的语言模型提供了更忠实的模拟,但某些最新模型存在"超精确失真"(非人类般的准确性)现象。
大型语言模型作为模拟经济主体:我们能从Homo Silicus中学到什么?,2023 [论文],[代码]。
摘要:大型语言模型可以像经济学家使用理性人假设一样使用。使用大型语言模型进行的实验显示出与原始经济研究定性相似的结果。使用大型语言模型来搜索新的社会科学见解并在现实世界中进行测试是很有前景的。
$S^3$:基于大型语言模型赋能智能体的社交网络模拟系统,2023,[论文]。
关键词:社交网络模拟、基于智能体的模拟、信息/态度/情感传播、用户行为建模
摘要:本文介绍了社交网络模拟系统(S3),通过基于大型语言模型的智能体来模拟社交网络。使用两个现实世界场景(即性别歧视和核能)进行的评估显示,在复制个体态度、情感和行为方面具有高度准确性,并成功地在人群层面模拟了信息、态度和情感传播现象。
利用语言智能体重新思考信息市场中的买方检查悖论,2023,[论文]。
关键词:买方检查悖论、信息经济学、信息市场、语言模型、智能体
摘要:本研究在模拟的信息市场中探讨了买方检查悖论,强调了当智能体在购买前临时获取信息时,决策和答案质量得到提升。
SocioDojo:利用真实世界的文本和时间序列构建终身分析智能体,2023,[论文]。
关键词:终身学习、人类社会分析、超级投资组合、时间序列投资、分析师-助手-执行者架构、假设与证明提示
摘要:论文介绍了SocioDojo,这是一个新的环境和超级投资组合任务,用于训练终身智能体分析和决策人类社会,同时提出了新颖的分析师-助手-执行者架构和假设与证明提示技术。实验表明,在需要社会理解的超级投资组合任务中,所提出的方法比最先进的方法获得了超过30%的更高回报。
类人智能体:模拟类人生成式智能体的平台,2023,[论文],[代码]。
关键词:类人智能体、生成式智能体、基本需求、情感、关系
摘要:本文提出了类人智能体系统,通过引入影响行为的动态元素 - 如饥饿和休息等基本需求、情感和关系亲密度,引导生成式智能体表现得更像人类。
当基于大型语言模型的智能体遇到用户行为分析:一种新颖的用户模拟范式,2023,[论文],[代码]。
关键词:用户行为分析、用户模拟、推荐系统、用户画像/记忆/行为模块
摘要:本研究在推荐系统中采用大型语言模型进行用户模拟。实验证明了RecAgent相对于基线模拟系统的优越性,以及其生成可靠用户行为的能力。
大语言模型赋能的宏观经济活动模拟代理,2023年,[论文]。
关键词:宏观经济模拟、基于代理的建模、提示工程、感知/反思/决策能力
摘要:该研究利用基于大语言模型的代理进行宏观经济模拟。实验表明,基于大语言模型的代理能做出现实的决策,比基于规则或其他人工智能代理更好地再现经典宏观经济现象。
关键词:生成式基于代理的建模、规范扩散、社会动态
摘要:作者通过一个简单的规范扩散模型展示了生成式基于代理的建模(GABM),其中代理根据同伴影响决定穿绿衫还是蓝衫。结果显示了群体规范的出现、对代理人设的敏感性以及对不对称采纳力的顺应。
摘要:我们提出了一种新算法,用于使用大语言模型的输出进行下游统计分析,同时保证统计特性——如渐近无偏性和适当的不确定性量化——这些特性对计算社会科学研究至关重要。
关键词:流行病建模、生成式人工智能、基于代理的模型、人类行为、新冠肺炎
摘要:该论文提出了一种新的流行病建模方法,使用生成式人工智能赋予个体代理推理能力。生成式基于代理的模型通过人工智能驱动的决策制定(而非预设规则)集体压平了流行病曲线,模拟出多波等模式。
关键词:GPT-3、类比推理、零样本学习、认知过程、人类对比
摘要:本文研究了GPT-3的涌现类比推理能力,证明了其在各种类比任务中与大学生相比的熟练程度。研究突出了GPT-3在零样本学习方面的潜力,以及其在解决问题时与人类认知过程的相似性。
关键词:代理模拟、招聘会环境、任务导向协调
摘要:该论文引入"元代理",通过一种新颖的协作和推理方法来增强大语言模型中的协调能力,并在模拟的招聘会环境 中进行了测试。研究揭示了基于大语言模型的代理在复杂社会协调任务中的潜力和局限性。
摘要:本文介绍了战争代理,一个模拟历史冲突的人工智能系统,揭示了历史和政策因素如何关键地驱动战争的不可避免性和性质。
摘要:本文探讨了通向人类智能的社会路径,强调了集体生活、社会关系以及关键演化转变在智能发展中的作用。
AI Excel全自动制表工具
AEE 在线 AI 全自动 Excel 编辑器,提供智能录入、自动公式、数据整理、图表生成等功能,高效处理 Excel 任务,提升办公效率。支持自动高亮数据、批量计算、不规则数据录入,适用于企业、教育、金融等多场景。
基于 UI-TARS 视觉语言模型的桌面应用,可通过自然语言控制计算机进行多模态操作。
UI-TARS-desktop 是一款功能强大的桌面应用,基于 UI-TARS(视觉语言模型)构建。它具备自然语言控制、截图与视觉识别、精确的鼠标键盘控制等功能,支持跨平台使用(Windows/MacOS),能提供实时反馈和状态显示,且数据完全本地处理,保障隐私安全。该应用集成了多种大语言模型和搜索方式,还可进行文件系统操作。适用于需要智能交互和自动化任务的场景,如信息检索、文件管理等。其提供了详细的文档,包括快速启动、部署、贡献指南和 SDK 使用说明等,方便开发者使用和扩展。
开源且先进的大规模视频生成模型项目
Wan2.1 是一个开源且先进的大规模视频生成模型项目,支持文本到图像、文本到视频、图像到视频等多种生成任务。它具备丰富的配置选项,可调整分辨率、扩散步数等参数,还能对提示词进行增强。使用了多种先进技术和工具,在视频和图像生成领域具有广泛应用前景,适合研究人员和开发者使用。
全流程 AI 驱动的数据可视化工具,助力用户轻松创作高颜值图表
爱图表(aitubiao.com)就是AI图表,是由镝数科技推出的一款创新型智能数据可视化平台,专注于为用户提供便捷的图表生成、数据分析和报告撰写服务。爱图表是中国首个在图表场景接入DeepSeek的产品。通过接入前沿的DeepSeek系列AI模型,爱图表结合强大的数据处理能力与智能化功能,致力于帮助职场人士高效处理和表达数据,提升工作效率和报告质量。
一款强大的视觉语言模型,支持图像和视频输入
Qwen2.5-VL 是一款强大的视觉语言模型,支持图像和视频输入,可用于多种场景,如商品特点总结、图像文字识别等。项目提供了 OpenAI API 服务、Web UI 示例等部署方式,还包含了视觉处理工具,有助于开发者快速集成和使用,提升工作效率。
HunyuanVideo 是一个可基于文本生成高质量图像和视频的项目。
HunyuanVideo 是一个专注于文本到图像及视频生成的项目。它具备强大的视频生成能力,支持多种分辨率和视频长度选择,能根据用户输入的文本生成逼真的图像和视频。使用先进的技术架构和算法,可灵活调整生成参数,满足不同场景的需求,是文本生成图像视频领域的优质工具。
一个基于 Gradio 构建的 WebUI,支持与浏览器智能体进行便捷交互。
WebUI for Browser Use 是一个强大的项目,它集成了多种大型语言模型,支持自定义浏览器使用,具备持久化浏览器会话等功能。用户可以通过简洁友好的界面轻松控制浏览器智能体完成各类任务,无论是数据提取、网页导航还是表单填写等操作都能高效实现,有利于提高工作效率和获取信息的便捷性。该项目适合开发者、研究人员以及需要自动化浏览器操作的人群使用,在 SEO 优化方面,其关键词涵盖浏览器使用、WebUI、大型语言模型集成等,有助于提高网页在搜索引擎中的曝光度。
基于 ESP32 的小智 AI 开发项目,支持多种网络连接与协议,实现语音交互等功能。
xiaozhi-esp32 是一个极具创新性的基于 ESP32 的开发项目,专注于人工智能语音交互领域。项目涵盖了丰富的功能,如网络连接、OTA 升级、设备激活等,同时支持多种语言。无论是开发爱好者还是专业开发者,都能借助该项目快速搭建起高效的 AI 语音交互系统,为智能设备开发提供强大助力。
一个用于 OCR 的项目,支持多种模型和服务器进行 PDF 到 Markdown 的转换,并提供测试和报告功能。
olmocr 是一个专注于光学字符识别(OCR)的 Python 项目,由 Allen Institute for Artificial Intelligence 开发。它支持多种模型和服务器,如 vllm、sglang、OpenAI 等,可将 PDF 文件的页面转换为 Markdown 格式。项目还提供了测试框架和 HTML 报告生成功能,方便用户对 OCR 结果进行评估和分析。适用于科研、文档处理等领域,有助于提高工作效率和准确性。
飞书多维表格 ×DeepSeek R1 满血版
飞书多维表格联合 DeepSeek R1 模型,提供 AI 自动化解决方案,支持批量写作、数据分析、跨模态处理等功能,适用于电商、短视频、影视创作等场景,提升企业生产力与创作效率。关键词:飞书多维表格、DeepSeek R1、AI 自动化、批量处理、企业协同工具。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号