Project Icon

Awesome-LLM-in-Social-Science

大型语言模型在社会科学中的评估与应用研究

本项目收集了关于大型语言模型(LLMs)在社会科学领域的评估和应用研究论文。内容涉及LLMs的价值观、人格、道德、观点和能力评估,以及其在社会科学工具改进、模拟和对齐方面的应用。项目还包括相关主题的综述和观点文章,为研究人员提供LLMs在社会科学中应用的全面概览。

社会科学中的大语言模型精选

以下我们汇编了一些优秀的论文,这些论文:

  • 从社会科学的角度评估大语言模型(LLMs)。
  • 从社会科学的角度对齐LLMs。
  • 运用LLMs来促进研究、解决问题,以及改进社会科学中的工具。
  • 对上述主题提供综述观点

评估、对齐和模拟绝不是相互独立的。例如,评估需要模拟。我们根据对这些论文重点的理解进行分类。

欢迎贡献和讨论!

目录

1. 📚 综述

  • 评估大语言模型中态度、观点和价值观的潜力与挑战, 2024.06, [论文]
  • 确保大语言模型对齐和安全性的基础性挑战, 2024.04, [论文]
  • 基于大语言模型的多智能体:进展与挑战综述, 2024.01, [论文], [代码库]
  • 大语言模型智能体的崛起与潜力:一项综述, 2023, [论文], [代码库]
  • 基于大语言模型的自主智能体综述, 2023, [论文], [代码库]
  • 人工智能对齐:全面综述, 2023.11, [论文], [网站]
  • 大语言模型与人类对齐:一项综述, 2023, [论文], [代码库]
  • 大语言模型对齐综述, 2023, [论文]
  • 大语言模型赋能的基于智能体的建模与模拟:综述与展望, 2023.12, [论文]
  • 大语言模型评估综述, 2023.07, [论文], [代码库]
  • 从指令到内在人类价值观 -- 大模型对齐目标综述, 2023.08, [论文], [代码库]

2. 🔎 评估LLM

2.1. ❤️ 价值观

  • ⭐️ ValueBench:全面评估大语言模型的价值取向和理解, ACL 2024, [论文], [代码]

  • 大语言模型的异质价值评估, 2023.03, [论文], [代码]

    摘要:本文引入A2EHV方法,评估这些模型与社会价值取向(SVO)框架下分类的一系列人类价值观的对齐程度。

  • 通过判别器-评论家差距测量语言模型的价值理解, 2023.10, [论文]

    摘要:本文引入价值理解测量(VUM)框架,定量评估LLM对价值观的理解。这是通过测量判别器-评论家差距(DCG)来实现的,该差距评估模型对价值观的知识("知其然")和这种知识背后的推理("知其所以然")。

  • 价值FULCRA:将大语言模型映射到基本人类价值观的多维谱系, 2023.11, [论文]

  • 价值万花筒:让AI参与多元化人类价值观、权利和义务, AAAI24, [论文], [代码]

  • 大语言模型中的高维人类价值观表示, 2024.04, [论文], [代码]

2.2. 🩷 人格

  • Incharacter: 通过心理访谈评估角色扮演代理的人格忠实度,ACL 2024,[论文][代码]

  • [MBTI] 开放模型,封闭思维?关于代理通过开放大型语言模型模仿人类性格的能力,2024.01,[论文]

  • ChatGPT是谁?使用PsychoBench基准测试LLM的心理描述,ICLR 2024,[论文][代码]

  • [BFI] AI心理测量:通过心理测量量表评估大型语言模型的心理特征,期刊,2024.01,[论文]

  • 角色扮演聊天机器人能否捕捉角色性格?评估角色扮演聊天机器人的性格特征,2023.10,[论文]

  • [MBTI] LLM是否拥有性格?将MBTI测试作为大型语言模型的绝佳评估方法,2023.07,[论文]

  • [MBTI] ChatGPT能评估人类性格吗?一个通用评估框架,2023.03,EMNLP 2023,[论文][代码]

  • [BFI] 大型语言模型中的性格特征,2023.07,[论文]

  • [BFI] 重新审视大型语言模型心理量表的可靠性,2023.05,[论文]

  • [BFI] GPT-3零样本性格估计的系统评估,ACL 2023研讨会,[论文]

  • [BFI] 大型语言模型是否已形成性格?自评测试在测量LLM性格中的适用性,2023.05,[论文]

  • [BFI] 评估和诱导预训练语言模型中的性格,NeurIPS 2023(聚焦报告),[论文]

  • [BFI] 识别和操纵语言模型的性格特征,2022.12,[论文]

  • GPT-3是谁?对其性格、价值观和人口统计学特征的探索,2022.09,[论文]

  • GPT-3是否表现出精神病态?从心理学角度评估大型语言模型,2022.12,[论文]

2.3. 道德

  • 使AI与人类共同价值观保持一致,2020,[论文]

  • 探索GPT-4道德和法律推理的心理学,2023.08,[论文]

    简介:该论文通过基于场景的研究,在多个领域比较了GPT-4与人类的道德和法律推理。研究揭示了GPT-4回应中的显著相似性和差异,为其与人类道德判断的一致性提供了见解。

  • 通过定义问题测试探究大型语言模型的道德发展

    简介:基于科尔伯格道德发展模型的定义问题测试(DIT)被用于评估LLM的伦理推理能力。GPT-3的表现处于随机基线水平,而GPT-4达到了最高的道德发展分数,相当于研究生水平。

  • 大型语言模型的道德基础,2023.10,[论文]

  • 道德模仿:大型语言模型产生针对政治身份的道德理由化,2023.06,[论文]

  • 评估LLM中编码的道德信念,2023.07,[论文]

2.4. 观点

  • 比人更像人:测量ChatGPT的政治偏见,2023,[论文]

    简介:本文提出了测量ChatGPT政治偏见的实证设计,显示ChatGPT在美国对民主党、在巴西对卢拉、在英国对工党存在显著且系统性的政治偏见。

  • 探索测量语言模型中主观全球观点表征的方法,2023.07,[论文][网站]

    简介:该研究探讨如何定量评估LLM中主观全球观点的表征。它引入了一个来自跨国调查的数据集,以捕捉多样化的全球视角,并开发了一个指标来测量LLM生成的响应与基于国籍的人类响应之间的相似度,揭示了模型响应中的偏见和刻板印象。

2.5. 能力

  • 语言模型在社会学研究中的应用:用于分类大型行政数据和测量宗教性,2021年,[论文]

  • 大型语言模型能否改变计算社会科学?,2023年,[论文][代码]

    简述:本文为使用大型语言模型作为计算社会科学工具提供了路线图,包括提示词最佳实践和评估流程。评估结果表明,大型语言模型可以作为零样本数据标注器,并协助处理具有挑战性的创造性生成任务。

  • SOTOPIA:语言智能体社交智能的交互式评估,2023年,[论文][代码]

    简述:该论文介绍了SOTOPIA,一个通过目标驱动的社交互动来评估语言智能体社交智能的新型交互环境。使用SOTOPIA进行的实验揭示了最先进模型与人类社交智能之间存在差距,尽管模型展示了一些有前景的能力。

  • 探索大型语言模型智能体的协作机制:社会心理学视角,2023年,[论文][代码]

    简述:本文通过借鉴社会心理学的见解,探讨了多智能体系统中大型语言模型之间的协作机制。多智能体协作策略比扩大单个大型语言模型规模更重要;培养有效协作是实现更具社会意识的人工智能的关键。

  • 在心理学中使用大型语言模型,2023年,[论文]

    简述:本文探讨了在心理学研究中使用大型语言模型的潜在应用和担忧,并建议投资高质量数据集、性能基准和基础设施,以实现大型语言模型的负责任使用。

  • 与大型语言模型玩重复博弈,2023年5月,[论文]

    简述:本文通过让大型语言模型玩重复的双人博弈来研究其合作和协调行为。主要发现是像GPT-4这样的大型语言模型在竞争性博弈中表现出色,但在需要更多合作的博弈中难以协调和交替策略。

  • 机器心理学:使用心理学方法研究大型语言模型的涌现能力和行为,2023年,[论文]

  • 使用认知心理学理解GPT-3,2023年2月,PNAS,[论文]

  • 大型语言模型作为人类专家的替代品在标注政治文本中的应用,2024年2月,[论文]

3. ⚒️ 工具增强

  • PsyDI:面向个性化和逐步深入的心理测量聊天机器人,2024年,[论文][代码]

  • ChatFive:通过与大型语言模型智能体的互动对话增强利克特量表人格测试的用户体验,CUI 2024,[论文]

  • 用于心理学的大型语言模型智能体:游戏化评估研究,2024年2月,[论文]

4. ⛑️ 对齐

  • ValueNet:一个面向以人类价值观为驱动的对话系统的新数据集,AAAI 2022,[论文][数据集]

  • 微调语言模型以在具有不同偏好的人群中寻找共识,2022年,[论文]

    关键词:共识、微调、多样化偏好、对齐

    简述:该研究通过微调大型语言模型,生成能够最大化具有潜在不同观点的群体预期认可度的陈述,尤其是在道德和政治问题上。

  • 在模拟人类社会中训练社会对齐的语言模型,2023年,[论文][代码]

    关键词:稳定对齐、社会对齐、社会规范和价值观、模拟社交互动、对比监督学习

    简述:本文提出了一种训练范式,允许语言模型通过模拟社交互动学习社会对齐。在这种范式下训练的模型能更好地处理"越狱提示"。

  • [规范] 即时对齐:使聊天机器人行为适应既定规范,2023年12月,[论文][代码]

    简述:使用检索增强生成(RAG)技术使大型语言模型与动态、多样的人类价值观(如社会规范)保持一致。

  • [MBTI] 机器思维模式:对大型语言模型的MBTI探索,2023年12月,[论文][代码]

    简述:通过指令微调和直接偏好优化(DPO)将大型语言模型训练成特定的MBTI类型。

  • 演化社会规范中的智能体对齐,2024.01,[论文]

  • [价值] 人类价值观是什么,我们如何使人工智能与之对齐?,2024.04,[论文]

  • 多元化对齐路线图,ICML 2024,[论文][代码]

5. 🚀 模拟

  • 从一生多:使用语言模型模拟人类样本,2022,[论文]

    摘要:该研究引入了"算法保真度"的概念 - 衡量模型中思想、态度和语境之间的关系与人类群体中的关系相似程度。他们提出了4个评估算法保真度的标准,并证明GPT-3在模拟美国公众舆论和政治态度方面表现出高度的保真度。

  • 社交模拟:为社交计算系统创建populated原型,2022,[论文]

    关键词:社交计算原型、社交模拟、大语言模型、系统设计优化

    摘要:本文提出了社交模拟(Social Simulacra)这一社交计算原型,用于模拟系统中由具有不同行为(如发帖、回复和反社会倾向)的多样化社区成员组成的真实社交互动。

  • 生成式智能体:人类行为的交互式模拟,2023,[论文][代码]

    关键词:生成式智能体、沙盒环境、自然语言交流、涌现社交行为、Smallville

    摘要:本文介绍了生成式智能体及其用于记忆存储、反思、检索等的架构。这些智能体在交互式沙盒环境中产生可信的个体和涌现社交行为。

  • 使用大型语言模型模拟多个人类并重现人类主体研究,2023,[论文][代码]

    摘要:本文提出了一种模拟图灵实验(TEs)的方法,并将其应用于重现经济学、心理语言学和社会心理学实验中的既定发现。结果表明,较大的语言模型提供了更忠实的模拟,但某些最新模型存在"超精确失真"(非人类般的准确性)现象。

  • 大型语言模型作为模拟经济主体:我们能从Homo Silicus中学到什么?,2023 [论文][代码]

    摘要:大型语言模型可以像经济学家使用理性人假设一样使用。使用大型语言模型进行的实验显示出与原始经济研究定性相似的结果。使用大型语言模型来搜索新的社会科学见解并在现实世界中进行测试是很有前景的。

  • $S^3$:基于大型语言模型赋能智能体的社交网络模拟系统,2023,[论文]

    关键词:社交网络模拟、基于智能体的模拟、信息/态度/情感传播、用户行为建模

    摘要:本文介绍了社交网络模拟系统(S3),通过基于大型语言模型的智能体来模拟社交网络。使用两个现实世界场景(即性别歧视和核能)进行的评估显示,在复制个体态度、情感和行为方面具有高度准确性,并成功地在人群层面模拟了信息、态度和情感传播现象。

  • 利用语言智能体重新思考信息市场中的买方检查悖论,2023,[论文]

    关键词:买方检查悖论、信息经济学、信息市场、语言模型、智能体

    摘要:本研究在模拟的信息市场中探讨了买方检查悖论,强调了当智能体在购买前临时获取信息时,决策和答案质量得到提升。

  • SocioDojo:利用真实世界的文本和时间序列构建终身分析智能体,2023,[论文]

    关键词:终身学习、人类社会分析、超级投资组合、时间序列投资、分析师-助手-执行者架构、假设与证明提示

    摘要:论文介绍了SocioDojo,这是一个新的环境和超级投资组合任务,用于训练终身智能体分析和决策人类社会,同时提出了新颖的分析师-助手-执行者架构和假设与证明提示技术。实验表明,在需要社会理解的超级投资组合任务中,所提出的方法比最先进的方法获得了超过30%的更高回报。

  • 类人智能体:模拟类人生成式智能体的平台,2023,[论文][代码]

    关键词:类人智能体、生成式智能体、基本需求、情感、关系

    摘要:本文提出了类人智能体系统,通过引入影响行为的动态元素 - 如饥饿和休息等基本需求、情感和关系亲密度,引导生成式智能体表现得更像人类。

  • 当基于大型语言模型的智能体遇到用户行为分析:一种新颖的用户模拟范式,2023,[论文][代码]

    关键词:用户行为分析、用户模拟、推荐系统、用户画像/记忆/行为模块

    摘要:本研究在推荐系统中采用大型语言模型进行用户模拟。实验证明了RecAgent相对于基线模拟系统的优越性,以及其生成可靠用户行为的能力。

  • 大语言模型赋能的宏观经济活动模拟代理,2023年,[论文]

关键词:宏观经济模拟、基于代理的建模、提示工程、感知/反思/决策能力

摘要:该研究利用基于大语言模型的代理进行宏观经济模拟。实验表明,基于大语言模型的代理能做出现实的决策,比基于规则或其他人工智能代理更好地再现经典宏观经济现象。

  • 生成式基于代理的建模:通过结合机制模型与生成式人工智能揭示社会系统动态,2023年,[论文]

关键词:生成式基于代理的建模、规范扩散、社会动态

摘要:作者通过一个简单的规范扩散模型展示了生成式基于代理的建模(GABM),其中代理根据同伴影响决定穿绿衫还是蓝衫。结果显示了群体规范的出现、对代理人设的敏感性以及对不对称采纳力的顺应。

  • 使用不完美替代物进行下游推理:基于设计的监督学习用于大型语言模型在社会科学中的应用,2023年6月,NeurIPS 2023,[论文]

摘要:我们提出了一种新算法,用于使用大语言模型的输出进行下游统计分析,同时保证统计特性——如渐近无偏性和适当的不确定性量化——这些特性对计算社会科学研究至关重要。

  • 使用生成式代理进行流行病建模,2023年7月,[论文][代码]

关键词:流行病建模、生成式人工智能、基于代理的模型、人类行为、新冠肺炎

摘要:该论文提出了一种新的流行病建模方法,使用生成式人工智能赋予个体代理推理能力。生成式基于代理的模型通过人工智能驱动的决策制定(而非预设规则)集体压平了流行病曲线,模拟出多波等模式。

  • 大型语言模型中的涌现类比推理,2023年8月,自然人类行为,[论文]

关键词:GPT-3、类比推理、零样本学习、认知过程、人类对比

摘要:本文研究了GPT-3的涌现类比推理能力,证明了其在各种类比任务中与大学生相比的熟练程度。研究突出了GPT-3在零样本学习方面的潜力,以及其在解决问题时与人类认知过程的相似性。

  • 元代理:通过协作生成式代理模拟人类行为交互以实现大语言模型的任务导向协调,2023年10月,[论文]

关键词:代理模拟、招聘会环境、任务导向协调

摘要:该论文引入"元代理",通过一种新颖的协作和推理方法来增强大语言模型中的协调能力,并在模拟的招聘会环境中进行了测试。研究揭示了基于大语言模型的代理在复杂社会协调任务中的潜力和局限性。

  • 战争与和平(战争代理):基于大语言模型的多代理世界大战模拟,2023年11月,[论文][代码]

摘要:本文介绍了战争代理,一个模拟历史冲突的人工智能系统,揭示了历史和政策因素如何关键地驱动战争的不可避免性和性质。

  • 大语言模型基础代理社会中社会规范的涌现,2024年3月,[论文][代码]

6. 👁️‍🗨️ 观点

  • 通向类人工智能的社会路径,2023年11月,自然机器智能,[论文]

摘要:本文探讨了通向人类智能的社会路径,强调了集体生活、社会关系以及关键演化转变在智能发展中的作用。

  • 个性化大语言模型对个人的利弊和界限,2024年4月,自然机器智能,[论文]
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号