causal-text-papers

causal-text-papers

自然语言处理中的因果推断研究资源汇总

该项目汇集了因果推断在自然语言处理领域的研究论文和代码资源。内容包括文本作为处理、中介、结果和混杂因素的应用,以及因果推断改进NLP任务的方法。此外还涵盖了语言学、营销等社会科学的具体案例。这一资源库为研究人员提供了深入了解因果推断在NLP中应用的机会。

因果推断自然语言处理文本分析机器学习社会科学应用Github开源项目

因果推理与语言相关论文

关于影响力、因果关系和语言的论文和代码库集合。

欢迎提交拉取请求!

目录

  1. 数据集和模拟
  2. 学习资源和博客文章
  3. 使用文本变量进行因果推理
    1. 文本作为处理
    2. 文本作为中介
    3. 文本作为结果
    4. 文本作为混淆因素
  4. 因果关系改进自然语言处理
    1. 因果解释
    2. 敏感性和稳健性
  5. 社会科学中的应用
    1. 语言学
    2. 市场营销
    3. 说服与论证
    4. 心理健康
    5. 心理学
    6. 经济学
    7. 偏见和公平性
    8. 社交媒体
    9. 法律
    10. 在线仇恨言论
  6. 与语言的潜在联系
    1. 向量化处理

数据集和模拟

类型描述代码
半模拟给定文本(亚马逊评论),提取处理(0或5星)和混淆因素(产品类型),然后根据提取的处理和混淆因素对结果(销量)进行采样。git
完全合成从二项分布中采样结果、处理和混淆因素,然后根据这些采样变量从均匀分布中采样词语。git

学习资源和博客文章

标题描述代码
文本和因果推理:使用文本从因果估计中移除混淆的综述 <br> Katherine A. Keith, David Jensen, 和 Brendan O'Connor对使用文本移除混淆的研究进行综述。还强调了文本和因果推理领域中的许多未解决问题。
用于因果推理的文本特征选择 <br> Reid Pryzant 和 Dan Jurafsky关于文本作为处理(通过词典操作化)的博客文章git
计量经济学遇上情感分析:方法和应用概述 <br> Andres Algaba, David Ardia, Keven Bluteau, Samuel Borms, 和 Kris Boudt综述总结了将替代数据(重点是文本)转化为变量并在计量经济模型中使用的各种方法。包括各种应用。git

使用文本变量进行因果推理

文本作为处理

标题描述代码
语言属性的因果效应 <br> Reid Pryzant, Dallas Card, Dan Jurafsky, Victor Veitch, Dhanya Sridhar开发了一种基于分类器处理的文本因果推断调整程序。证明了偏差的界限git
使用文本分类器进行因果推断的挑战 <br> Zach Wood-Doughty, Ilya Shpitser, Mark Dredze研究了使用分类器估计处理标签可能产生的各种错误,提出了解决这些错误的调整方法git
用于可解释社会科学的去混淆词典归纳 <br> Reid Pryzant, Kelly Shen, Dan Jurafsky, Stefan Wager研究了以词典或单个词语形式体现的文本效应,提出了估计效应和评估词典的算法git
如何使用文本进行因果推断 <br> Naoki Egami, Christian J. Fong, Justin Grimmer, Margaret E. Roberts, and Brandon M. Stewart(也涉及文本作为结果)。涵盖了将文本作为处理所需的假设,得出结论应该使用训练/测试集
从文本语料库中发现处理方法 <br> Christian Fong, Justin Grimmer提出了一种新的实验设计和统计模型,可以同时在语料库中发现处理方法并估计这些发现的处理方法的因果效应
措辞对消息传播的影响:Twitter上的主题和作者控制的自然实验 <br> Chenhao Tan, Lillian Lee, and Bo Pang通过研究包含相同URL且由同一用户撰写但使用不同措辞的推文来控制混淆因素
什么时候词语重要?使用个体处理效应估计来理解词汇选择对受众感知的影响 <br> Zhao Wang and Aron Culotta测量词语对读者感知的影响。比较了多种准实验方法git

文本作为中介

标题描述代码
调整文本嵌入以进行因果推断 <br> Victor Veitch, Dhanya Sridhar, and David Blei(也涉及文本作为混淆因素) 通过预测倾向得分和潜在结果,同时进行掩码语言建模目标,调整BERT嵌入以进行因果推断tensorflow <br> pytorch
操作化复杂原因:中介的实用观点 <br> Limor Gultchin, David Watson, Matt Kusner and Ricardo Silva(也可视为文本作为处理) 开发了一种实用中介的概念,有助于在涉及复杂对象(如文本、图像或基因组学)的各种干预机制下进行因果效应估计。实用中介的识别具有可解释性优势,可以指导新干预措施的开发git
文本作为因果中介:通过语言方面估计社会群体差异处理的因果研究设计 <br> Katherine A. Keith, Douglas Rice, and Brendan O'Connor提出了一种用于观察(非实验)数据的因果研究设计,以估计社会群体信号(如种族或性别)对说话者反应的自然直接和间接效应,将语言的不同方面作为因果中介

文本作为结果

标题描述代码
估计在线辩论中语气的因果效应 <br> Dhanya Sridhar and Lise Getoor(也涉及文本作为混淆因素)。研究回复语气对在线辩论中后续回应情感的影响git
司法身份如何改变法律裁决的文本 <br> Michael Gill and Andrew Hall研究随机分配女性法官或非白人法官如何影响法律裁决的语言
使用深度预训练语言表示测量临床试验结果的语义相似性<br> Anna Koroleva, Sanjay Kamath, Patrick Paroubek

文本作为混淆因素

标题描述代码
CausalNLP:一个实用的文本因果推理工具包 <br> Arun S. Maiya(也包括将文本作为处理)。描述了一个主要基于元学习器的文本因果推理工具包。除了使用传统的词袋特征将文本编码为"受控"变量外,还包括Causal Bert的PyTorch实现(最初来自R. Pryzant)。还包括方便的方法,可以轻松地将文本转换为传统的数值或分类变量,以在因果分析中用作处理/混杂/结果变量(例如,情感、主题、情绪等)。git
文本与因果推理:使用文本消除因果估计中混杂因素的综述 <br> Katherine A. Keith, David Jensen, 和 Brendan O'Connor对使用文本消除混杂的研究进行综述。还强调了文本和因果推理领域中的众多未解决问题。
通过文本匹配调整混杂因素 <br> Margaret E Roberts, Brandon M Stewart, 和 Richard A Nielsen估计文本的低维摘要,并通过匹配这个摘要来消除混杂。提出了一种文本匹配方法,即主题逆回归匹配,该方法同时匹配主题内容和倾向得分。
使用文本数据进行匹配:文档匹配方法和匹配质量测量的实验评估 <br> Reagan Mozer, Luke Miratrix, Aaron Russell Kaufman, L Jason Anastasopoulos描述并实证评估了一个文本文档匹配框架,该框架将现有方法分解为:文本表示的选择和距离度量的选择。
学习反事实推理的表示 <br> Fredrik Johansson, Uri Shalit, David Sontag他们的一个半合成实验将新闻内容作为混杂因素。
学习反事实推理的表示 <br> Fredrik Johansson, Uri Shalit, David Sontag他们的一个半合成实验将新闻内容作为混杂因素。
概念化基于文本的因果推理中的处理泄漏 <br> Adel Daoud, Connor T. Jerzak, 和 Richard Johansson描述了在控制基于文本的混杂因素时处理信号泄漏的问题,这可能导致识别和估计问题。对处理泄漏如何导致平均处理效应(ATE)估计问题以及如何通过假设可分离性使用文本预处理来缓解这种偏差进行模拟研究。

因果关系改进自然语言处理

因果解释和说明

标题描述代码
迈向可信解释:基于因果合理化 <br> Wenbo Zhang, Tong Wu, Yunlong Wang, Yong Cai, Hengrui Cai本文利用因果概率来改进NLP自解释模型。git
CausaLM:通过反事实语言模型进行因果模型解释 <br> Amir Feder, Nadav Oved, Uri Shalit 和 Roi Reichart提出了一种通过反事实语言表示生成因果解释的方法。git
用于解释神经NLP的因果中介分析:以性别偏见为例 <br> Jesse Vig, Sebastian Gehrmann, Yonatan Belinkov, Sharon Qian, Daniel Nevo, Yaron Singer 和 Stuart Shieber使用因果中介分析来解释NLP模型。git
Causal BERT:用于检测文本中事件间因果关系的语言模型 <br> Vivek Khetan, Roshni Ramnani, Mayuresh Anand, Subhashis Sengupta, Andrew E. Fano本文研究了语言模型在仅使用句子上下文、句子上下文结合事件信息以及利用领域内和领域外数据分布的掩蔽事件上下文的情况下,识别自然语言文本中表达的事件之间因果关系的能力。

敏感性和鲁棒性

标题描述代码
通过自动生成的反事实案例提高文本分类的鲁棒性 <br> Zhao Wang 和 Aron Culotta通过匹配识别因果术语,然后生成反事实案例用于训练。git
识别虚假相关性以实现鲁棒文本分类 <br> Zhao Wang 和 Aron Culotta通过匹配识别虚假词特征git
使用对抗域适应发现和控制文本分类中的潜在混淆因素 <br> Virgile Landeiro, Tuan Tran 和 Aron Culotta在文本分类中控制未观察到的混淆因素
在混淆偏移下的鲁棒文本分类 <br> Virgile Landeiro 和 Aron Culotta在文本分类中控制变化的混淆因素git
通过反事实增强数据学习关键差异 <br> Divyansh Kaushik, Eduard Hovy, Zachary C. Lipton引入方法和资源来训练对虚假模式不敏感的模型git
解释反事实增强数据的有效性 <br> Divyansh Kaushik, Amrith Setlur, Eduard Hovy, Zachary C. Lipton解释反事实增强数据在训练对虚假模式不敏感的模型方面的有效性git

社会科学应用

语言学

标题描述代码
使用深度神经网络将适应性与一致性解耦 <br> Andreas Weise, Rivka Levitan在建模语音适应性时分离说话者的个人风格。
从情绪日志数据估计运动的因果效应 <br> Dhanya Sridhar, Aaron Springer, Victoria Hollis, Steve Whittaker, Lise Getoor混淆因素:情绪触发因素的文本。混淆调整方法:倾向得分匹配

营销

标题描述代码
从产品描述的语言预测销量 <br> Reid Pryzant, Young-Joo Chung 和 Dan Jurafsky在控制品牌和价格的情况下,找出最能预测销量的产品描述特征。git
用于将广告表现归因于其写作风格的可解释神经网络架构 <br> Reid Pryzant, Kazoo Sone 和 Sugato Basu在控制广告主和定位的情况下,找出最能预测高点击率的广告文案特征。git

说服力与论证

标题描述代码
通过品格影响:在线讨论中声誉的说服力 <br> Emaad Manzoor, George H. Chen, Dokyun Lee, Michael D. Smith在双机器学习框架中使用语言神经模型来控制非结构化论证文本。

医疗保健

标题描述代码
MIMICause:临床笔记中因果关系类型的表示和自动提取 <br> Vivek Khetan, Md Imbesat Rizvi, Jessica Huber, Paige Bartusiak, Bogdan Sacaleanu, Andrew Fano该工作提出了注释指南,开发了一个注释语料库,并提供了基线分数,以识别临床笔记中一对生物医学概念之间的因果关系类型和方向;这些关系可能以隐含或显式方式表达,可能在单个句子中或跨多个句子中识别。

心理健康

标题描述代码
社交媒体中社会支持的语言及其对自杀意念风险的影响 <br> Munmun De Choudhury 和 Emre Kiciman混杂因素:先前在 Reddit 论坛上发布的文本。混杂因素调整方法:分层倾向得分匹配。
从社交媒体的心理健康内容中发现自杀意念的转变 <br> Munmun De Choudhury, Emre Kiciman, Mark Dredze, Glen Coppersmith, Mrinal Kumar混杂因素:用户之前的帖子和收到的评论。混杂因素调整方法:分层倾向得分匹配

心理学

标题描述代码
通过强调美味和愉悦的属性来增加蔬菜摄入量:以味道为重点的标签多站点随机对照干预研究 <br> Bradley Turnwald, Jaclyn Bertoldo, Margaret Perry, Peggy Policastro, Maureen Timmons, Christopher Bosso, Priscilla Connors, Robert Valgenti, Lindsey Pine, Ghislaine Challamel, Christopher Gardner, Alia Crum对自助餐厅食品标签进行随机对照试验,观察这些标签对学生选取食物量的影响。
精神病药物使用效果的社交媒体研究 <br> Koustuv Saha, Benjamin Sugar, John Torous, Bruno Abrahao, Emre Kıcıman, Munmun De Choudhury混杂因素:用户在 Twitter 上的先前帖子。混杂因素调整方法:分层倾向得分匹配。

经济学

标题描述代码
一种深度因果推断方法,用于测量在线非营利小额信贷平台中组建群体贷款的效果 <br> Thai T Pham 和 Yuanyuan Shen混杂因素:Kiva 上的小额贷款描述。混杂因素调整方法:对嵌入向量应用 A-IPTW 和 TMLE。

偏见与公平

标题描述代码
隐含性别偏见的无监督发现使用倾向得分匹配和对抗性学习,使模型专注于偏见而非其他特征。
推文对被推者的治疗效果:通过实验减少种族主义骚扰 <br> Kevin Munger进行随机对照试验,向种族主义 Twitter 用户发送缓解消息,改变"发送者"用户并观察对后续行为的影响。

社交媒体

标题描述代码
估计锻炼对用户在线行为的影响 <br> Seyed Amin Mirlohi Falavarjani, Hawre Hosseini, Zeinab Noorian, Ebrahim Bagheri混杂因素:干预前主题兴趣变化。混杂调整方法:基于主题模型的匹配。
提炼个人经历的结果:社交媒体的倾向得分分析 <br> Alexandra Olteanu, Onur Varol, Emre Kiciman混杂因素:Twitter上过去的用词。混杂调整方法:分层倾向得分匹配。
使用纵向社交媒体分析理解早期大学饮酒行为的影响 <br> Emre Kiciman, Scott Counts, Melissa Gasser混杂因素:Twitter上的先前帖子。混杂调整方法:分层倾向得分匹配。
使用匹配样本从Twitter估计锻炼对心理健康的影响 <br> Virgile Landeiro and Aron Culotta混杂因素:性别、位置、个人资料。混杂调整方法:匹配。git
从2017年至2021年患者报告的糖尿病相关推文中提取显式和隐式因果关系:深度学习方法 <br> Adrian Ahne, Vivek Khetan, Xavier Tanner, Md Imbessat Hasan Rizvi, Thomas Czernichow, Francisco Orchard , Charline Bour, Andrew Fano, Guy Fagherazzi手动标注了一个因果数据集,并使用主动学习进行扩充。首先,通过微调BERTweet模型检测包含因果信息的句子(因果句)。其次,使用多个模型在因果句中识别因果对。最后,在半监督方法中,将因果对聚合形成因果网络,并在D3中可视化。

法律

标题描述代码
万物皆有因:在法律文本分析中利用因果推断 <br> Xiao Liu, Da Yin, Yansong Feng, Yuting Wu, Dongyan Zhao从法律描述自动构建因果图,并利用构建的图表消除类似指控的歧义。处理与混杂因素:来自法律描述的因素。git

在线仇恨言论

标题描述代码
通过因果视角对在线仇恨言论的调查 <br> Antigoni M. Founta, Lucia Specia对测量在线仇恨言论相关因果效应的研究进行调查。该调查还强调了潜在的知识空白和问题,并提供了如何进一步扩展仇恨言论因果视角的建议。
具有因果解释的稳健网络欺凌检测 <br> Lu Cheng, Ruocheng Guo, Huan Liu提出一个原则性框架,识别并阻止潜在隐藏混杂因素对网络欺凌检测的影响。
在线大学社区中仇恨言论的普遍性及其心理影响 <br> Koustuv Saha, Eshwar Chandrasekharan, Munmun De Choudhury测量在Reddit社区中接触仇恨言论对压力水平增加的心理影响。混杂因素:子版块和用户活动。混杂调整方法:倾向得分匹配。

与语言的潜在联系

向量化处理

标题描述代码
用于因果效应估计的图干预网络 <br> Jean Kaddour, Qi Liu, Yuchen Zhu, Matt J. Kusner, Ricardo Silva将Robinson分解(如在R-learner或广义随机森林中使用)推广到向量化处理(如文本、图像、图)。git

编辑推荐精选

Manus

Manus

全面超越基准的 AI Agent助手

Manus 是一款通用人工智能代理平台,能够将您的创意和想法迅速转化为实际成果。无论是定制旅行规划、深入的数据分析,还是教育支持与商业决策,Manus 都能高效整合信息,提供精准解决方案。它以直观的交互体验和领先的技术,为用户开启了一个智慧驱动、轻松高效的新时代,让每个灵感都能得到完美落地。

飞书知识问答

飞书知识问答

飞书官方推出的AI知识库 上传word pdf即可部署AI私有知识库

基于DeepSeek R1大模型构建的知识管理系统,支持PDF、Word、PPT等常见文档格式解析,实现云端与本地数据的双向同步。系统具备实时网络检索能力,可自动关联外部信息源,通过语义理解技术处理结构化与非结构化数据。免费版本提供基础知识库搭建功能,适用于企业文档管理和个人学习资料整理场景。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

TraeAI IDE协作生产力转型热门AI工具
酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

使用教程AI工具酷表ChatExcelAI智能客服AI营销产品
DeepEP

DeepEP

DeepSeek开源的专家并行通信优化框架

DeepEP是一个专为大规模分布式计算设计的通信库,重点解决专家并行模式中的通信瓶颈问题。其核心架构采用分层拓扑感知技术,能够自动识别节点间物理连接关系,优化数据传输路径。通过实现动态路由选择与负载均衡机制,系统在千卡级计算集群中维持稳定的低延迟特性,同时兼容主流深度学习框架的通信接口。

DeepSeek

DeepSeek

全球领先开源大模型,高效智能助手

DeepSeek是一家幻方量化创办的专注于通用人工智能的中国科技公司,主攻大模型研发与应用。DeepSeek-R1是开源的推理模型,擅长处理复杂任务且可免费商用。

KnowS

KnowS

AI医学搜索引擎 整合4000万+实时更新的全球医学文献

医学领域专用搜索引擎整合4000万+实时更新的全球医学文献,通过自主研发AI模型实现精准知识检索。系统每日更新指南、中英文文献及会议资料,搜索准确率较传统工具提升80%,同时将大模型幻觉率控制在8%以下。支持临床建议生成、文献深度解析、学术报告制作等全流程科研辅助,典型用户反馈显示每周可节省医疗工作者70%时间。

Windsurf Wave 3

Windsurf Wave 3

Windsurf Editor推出第三次重大更新Wave 3

新增模型上下文协议支持与智能编辑功能。本次更新包含五项核心改进:支持接入MCP协议扩展工具生态,Tab键智能跳转提升编码效率,Turbo模式实现自动化终端操作,图片拖拽功能优化多模态交互,以及面向付费用户的个性化图标定制。系统同步集成DeepSeek、Gemini等新模型,并通过信用点数机制实现差异化的资源调配。

AI IDE
腾讯元宝

腾讯元宝

腾讯自研的混元大模型AI助手

腾讯元宝是腾讯基于自研的混元大模型推出的一款多功能AI应用,旨在通过人工智能技术提升用户在写作、绘画、翻译、编程、搜索、阅读总结等多个领域的工作与生活效率。

AI 办公助手AI对话AI助手AI工具腾讯元宝智能体热门
Grok3

Grok3

埃隆·马斯克旗下的人工智能公司 xAI 推出的第三代大规模语言模型

Grok3 是由埃隆·马斯克旗下的人工智能公司 xAI 推出的第三代大规模语言模型,常被马斯克称为“地球上最聪明的 AI”。它不仅是在前代产品 Grok 1 和 Grok 2 基础上的一次飞跃,还在多个关键技术上实现了创新突破。

下拉加载更多