Project Icon

causal-text-papers

自然语言处理中的因果推断研究资源汇总

该项目汇集了因果推断在自然语言处理领域的研究论文和代码资源。内容包括文本作为处理、中介、结果和混杂因素的应用,以及因果推断改进NLP任务的方法。此外还涵盖了语言学、营销等社会科学的具体案例。这一资源库为研究人员提供了深入了解因果推断在NLP中应用的机会。

因果推理与语言相关论文

关于影响力、因果关系和语言的论文和代码库集合。

欢迎提交拉取请求!

目录

  1. 数据集和模拟
  2. 学习资源和博客文章
  3. 使用文本变量进行因果推理
    1. 文本作为处理
    2. 文本作为中介
    3. 文本作为结果
    4. 文本作为混淆因素
  4. 因果关系改进自然语言处理
    1. 因果解释
    2. 敏感性和稳健性
  5. 社会科学中的应用
    1. 语言学
    2. 市场营销
    3. 说服与论证
    4. 心理健康
    5. 心理学
    6. 经济学
    7. 偏见和公平性
    8. 社交媒体
    9. 法律
    10. 在线仇恨言论
  6. 与语言的潜在联系
    1. 向量化处理

数据集和模拟

类型描述代码
半模拟给定文本(亚马逊评论),提取处理(0或5星)和混淆因素(产品类型),然后根据提取的处理和混淆因素对结果(销量)进行采样。git
完全合成从二项分布中采样结果、处理和混淆因素,然后根据这些采样变量从均匀分布中采样词语。git

学习资源和博客文章

标题描述代码
文本和因果推理:使用文本从因果估计中移除混淆的综述
Katherine A. Keith, David Jensen, 和 Brendan O'Connor
对使用文本移除混淆的研究进行综述。还强调了文本和因果推理领域中的许多未解决问题。
用于因果推理的文本特征选择
Reid Pryzant 和 Dan Jurafsky
关于文本作为处理(通过词典操作化)的博客文章git
计量经济学遇上情感分析:方法和应用概述
Andres Algaba, David Ardia, Keven Bluteau, Samuel Borms, 和 Kris Boudt
综述总结了将替代数据(重点是文本)转化为变量并在计量经济模型中使用的各种方法。包括各种应用。git

使用文本变量进行因果推理

文本作为处理

标题描述代码
语言属性的因果效应
Reid Pryzant, Dallas Card, Dan Jurafsky, Victor Veitch, Dhanya Sridhar
开发了一种基于分类器处理的文本因果推断调整程序。证明了偏差的界限git
使用文本分类器进行因果推断的挑战
Zach Wood-Doughty, Ilya Shpitser, Mark Dredze
研究了使用分类器估计处理标签可能产生的各种错误,提出了解决这些错误的调整方法git
用于可解释社会科学的去混淆词典归纳
Reid Pryzant, Kelly Shen, Dan Jurafsky, Stefan Wager
研究了以词典或单个词语形式体现的文本效应,提出了估计效应和评估词典的算法git
如何使用文本进行因果推断
Naoki Egami, Christian J. Fong, Justin Grimmer, Margaret E. Roberts, and Brandon M. Stewart
(也涉及文本作为结果)。涵盖了将文本作为处理所需的假设,得出结论应该使用训练/测试集
从文本语料库中发现处理方法
Christian Fong, Justin Grimmer
提出了一种新的实验设计和统计模型,可以同时在语料库中发现处理方法并估计这些发现的处理方法的因果效应
措辞对消息传播的影响:Twitter上的主题和作者控制的自然实验
Chenhao Tan, Lillian Lee, and Bo Pang
通过研究包含相同URL且由同一用户撰写但使用不同措辞的推文来控制混淆因素
什么时候词语重要?使用个体处理效应估计来理解词汇选择对受众感知的影响
Zhao Wang and Aron Culotta
测量词语对读者感知的影响。比较了多种准实验方法git

文本作为中介

标题描述代码
调整文本嵌入以进行因果推断
Victor Veitch, Dhanya Sridhar, and David Blei
(也涉及文本作为混淆因素) 通过预测倾向得分和潜在结果,同时进行掩码语言建模目标,调整BERT嵌入以进行因果推断tensorflow
pytorch
操作化复杂原因:中介的实用观点
Limor Gultchin, David Watson, Matt Kusner and Ricardo Silva
(也可视为文本作为处理) 开发了一种实用中介的概念,有助于在涉及复杂对象(如文本、图像或基因组学)的各种干预机制下进行因果效应估计。实用中介的识别具有可解释性优势,可以指导新干预措施的开发git
文本作为因果中介:通过语言方面估计社会群体差异处理的因果研究设计
Katherine A. Keith, Douglas Rice, and Brendan O'Connor
提出了一种用于观察(非实验)数据的因果研究设计,以估计社会群体信号(如种族或性别)对说话者反应的自然直接和间接效应,将语言的不同方面作为因果中介

文本作为结果

标题描述代码
估计在线辩论中语气的因果效应
Dhanya Sridhar and Lise Getoor
(也涉及文本作为混淆因素)。研究回复语气对在线辩论中后续回应情感的影响git
司法身份如何改变法律裁决的文本
Michael Gill and Andrew Hall
研究随机分配女性法官或非白人法官如何影响法律裁决的语言
使用深度预训练语言表示测量临床试验结果的语义相似性
Anna Koroleva, Sanjay Kamath, Patrick Paroubek

文本作为混淆因素

标题描述代码
CausalNLP:一个实用的文本因果推理工具包
Arun S. Maiya
(也包括将文本作为处理)。描述了一个主要基于元学习器的文本因果推理工具包。除了使用传统的词袋特征将文本编码为"受控"变量外,还包括Causal Bert的PyTorch实现(最初来自R. Pryzant)。还包括方便的方法,可以轻松地将文本转换为传统的数值或分类变量,以在因果分析中用作处理/混杂/结果变量(例如,情感、主题、情绪等)。git
文本与因果推理:使用文本消除因果估计中混杂因素的综述
Katherine A. Keith, David Jensen, 和 Brendan O'Connor
对使用文本消除混杂的研究进行综述。还强调了文本和因果推理领域中的众多未解决问题。
通过文本匹配调整混杂因素
Margaret E Roberts, Brandon M Stewart, 和 Richard A Nielsen
估计文本的低维摘要,并通过匹配这个摘要来消除混杂。提出了一种文本匹配方法,即主题逆回归匹配,该方法同时匹配主题内容和倾向得分。
使用文本数据进行匹配:文档匹配方法和匹配质量测量的实验评估
Reagan Mozer, Luke Miratrix, Aaron Russell Kaufman, L Jason Anastasopoulos
描述并实证评估了一个文本文档匹配框架,该框架将现有方法分解为:文本表示的选择和距离度量的选择。
学习反事实推理的表示
Fredrik Johansson, Uri Shalit, David Sontag
他们的一个半合成实验将新闻内容作为混杂因素。
学习反事实推理的表示
Fredrik Johansson, Uri Shalit, David Sontag
他们的一个半合成实验将新闻内容作为混杂因素。
概念化基于文本的因果推理中的处理泄漏
Adel Daoud, Connor T. Jerzak, 和 Richard Johansson
描述了在控制基于文本的混杂因素时处理信号泄漏的问题,这可能导致识别和估计问题。对处理泄漏如何导致平均处理效应(ATE)估计问题以及如何通过假设可分离性使用文本预处理来缓解这种偏差进行模拟研究。

因果关系改进自然语言处理

因果解释和说明

标题描述代码
迈向可信解释:基于因果合理化
Wenbo Zhang, Tong Wu, Yunlong Wang, Yong Cai, Hengrui Cai
本文利用因果概率来改进NLP自解释模型。git
CausaLM:通过反事实语言模型进行因果模型解释
Amir Feder, Nadav Oved, Uri Shalit 和 Roi Reichart
提出了一种通过反事实语言表示生成因果解释的方法。git
用于解释神经NLP的因果中介分析:以性别偏见为例
Jesse Vig, Sebastian Gehrmann, Yonatan Belinkov, Sharon Qian, Daniel Nevo, Yaron Singer 和 Stuart Shieber
使用因果中介分析来解释NLP模型。git
Causal BERT:用于检测文本中事件间因果关系的语言模型
Vivek Khetan, Roshni Ramnani, Mayuresh Anand, Subhashis Sengupta, Andrew E. Fano
本文研究了语言模型在仅使用句子上下文、句子上下文结合事件信息以及利用领域内和领域外数据分布的掩蔽事件上下文的情况下,识别自然语言文本中表达的事件之间因果关系的能力。

敏感性和鲁棒性

标题描述代码
通过自动生成的反事实案例提高文本分类的鲁棒性
Zhao Wang 和 Aron Culotta
通过匹配识别因果术语,然后生成反事实案例用于训练。git
识别虚假相关性以实现鲁棒文本分类
Zhao Wang 和 Aron Culotta
通过匹配识别虚假词特征git
使用对抗域适应发现和控制文本分类中的潜在混淆因素
Virgile Landeiro, Tuan Tran 和 Aron Culotta
在文本分类中控制未观察到的混淆因素
在混淆偏移下的鲁棒文本分类
Virgile Landeiro 和 Aron Culotta
在文本分类中控制变化的混淆因素git
通过反事实增强数据学习关键差异
Divyansh Kaushik, Eduard Hovy, Zachary C. Lipton
引入方法和资源来训练对虚假模式不敏感的模型git
解释反事实增强数据的有效性
Divyansh Kaushik, Amrith Setlur, Eduard Hovy, Zachary C. Lipton
解释反事实增强数据在训练对虚假模式不敏感的模型方面的有效性git

社会科学应用

语言学

标题描述代码
使用深度神经网络将适应性与一致性解耦
Andreas Weise, Rivka Levitan
在建模语音适应性时分离说话者的个人风格。
从情绪日志数据估计运动的因果效应
Dhanya Sridhar, Aaron Springer, Victoria Hollis, Steve Whittaker, Lise Getoor
混淆因素:情绪触发因素的文本。混淆调整方法:倾向得分匹配

营销

标题描述代码
从产品描述的语言预测销量
Reid Pryzant, Young-Joo Chung 和 Dan Jurafsky
在控制品牌和价格的情况下,找出最能预测销量的产品描述特征。git
用于将广告表现归因于其写作风格的可解释神经网络架构
Reid Pryzant, Kazoo Sone 和 Sugato Basu
在控制广告主和定位的情况下,找出最能预测高点击率的广告文案特征。git

说服力与论证

标题描述代码
通过品格影响:在线讨论中声誉的说服力
Emaad Manzoor, George H. Chen, Dokyun Lee, Michael D. Smith
在双机器学习框架中使用语言神经模型来控制非结构化论证文本。

医疗保健

标题描述代码
MIMICause:临床笔记中因果关系类型的表示和自动提取
Vivek Khetan, Md Imbesat Rizvi, Jessica Huber, Paige Bartusiak, Bogdan Sacaleanu, Andrew Fano
该工作提出了注释指南,开发了一个注释语料库,并提供了基线分数,以识别临床笔记中一对生物医学概念之间的因果关系类型和方向;这些关系可能以隐含或显式方式表达,可能在单个句子中或跨多个句子中识别。

心理健康

标题描述代码
社交媒体中社会支持的语言及其对自杀意念风险的影响
Munmun De Choudhury 和 Emre Kiciman
混杂因素:先前在 Reddit 论坛上发布的文本。混杂因素调整方法:分层倾向得分匹配。
从社交媒体的心理健康内容中发现自杀意念的转变
Munmun De Choudhury, Emre Kiciman, Mark Dredze, Glen Coppersmith, Mrinal Kumar
混杂因素:用户之前的帖子和收到的评论。混杂因素调整方法:分层倾向得分匹配

心理学

标题描述代码
通过强调美味和愉悦的属性来增加蔬菜摄入量:以味道为重点的标签多站点随机对照干预研究
Bradley Turnwald, Jaclyn Bertoldo, Margaret Perry, Peggy Policastro, Maureen Timmons, Christopher Bosso, Priscilla Connors, Robert Valgenti, Lindsey Pine, Ghislaine Challamel, Christopher Gardner, Alia Crum
对自助餐厅食品标签进行随机对照试验,观察这些标签对学生选取食物量的影响。
精神病药物使用效果的社交媒体研究
Koustuv Saha, Benjamin Sugar, John Torous, Bruno Abrahao, Emre Kıcıman, Munmun De Choudhury
混杂因素:用户在 Twitter 上的先前帖子。混杂因素调整方法:分层倾向得分匹配。

经济学

标题描述代码
一种深度因果推断方法,用于测量在线非营利小额信贷平台中组建群体贷款的效果
Thai T Pham 和 Yuanyuan Shen
混杂因素:Kiva 上的小额贷款描述。混杂因素调整方法:对嵌入向量应用 A-IPTW 和 TMLE。

偏见与公平

标题描述代码
隐含性别偏见的无监督发现使用倾向得分匹配和对抗性学习,使模型专注于偏见而非其他特征。
推文对被推者的治疗效果:通过实验减少种族主义骚扰
Kevin Munger
进行随机对照试验,向种族主义 Twitter 用户发送缓解消息,改变"发送者"用户并观察对后续行为的影响。

社交媒体

标题描述代码
估计锻炼对用户在线行为的影响
Seyed Amin Mirlohi Falavarjani, Hawre Hosseini, Zeinab Noorian, Ebrahim Bagheri
混杂因素:干预前主题兴趣变化。混杂调整方法:基于主题模型的匹配。
提炼个人经历的结果:社交媒体的倾向得分分析
Alexandra Olteanu, Onur Varol, Emre Kiciman
混杂因素:Twitter上过去的用词。混杂调整方法:分层倾向得分匹配。
使用纵向社交媒体分析理解早期大学饮酒行为的影响
Emre Kiciman, Scott Counts, Melissa Gasser
混杂因素:Twitter上的先前帖子。混杂调整方法:分层倾向得分匹配。
使用匹配样本从Twitter估计锻炼对心理健康的影响
Virgile Landeiro and Aron Culotta
混杂因素:性别、位置、个人资料。混杂调整方法:匹配。git
从2017年至2021年患者报告的糖尿病相关推文中提取显式和隐式因果关系:深度学习方法
Adrian Ahne, Vivek Khetan, Xavier Tanner, Md Imbessat Hasan Rizvi, Thomas Czernichow, Francisco Orchard , Charline Bour, Andrew Fano, Guy Fagherazzi
手动标注了一个因果数据集,并使用主动学习进行扩充。首先,通过微调BERTweet模型检测包含因果信息的句子(因果句)。其次,使用多个模型在因果句中识别因果对。最后,在半监督方法中,将因果对聚合形成因果网络,并在D3中可视化。

法律

标题描述代码
万物皆有因:在法律文本分析中利用因果推断
Xiao Liu, Da Yin, Yansong Feng, Yuting Wu, Dongyan Zhao
从法律描述自动构建因果图,并利用构建的图表消除类似指控的歧义。处理与混杂因素:来自法律描述的因素。git

在线仇恨言论

标题描述代码
通过因果视角对在线仇恨言论的调查
Antigoni M. Founta, Lucia Specia
对测量在线仇恨言论相关因果效应的研究进行调查。该调查还强调了潜在的知识空白和问题,并提供了如何进一步扩展仇恨言论因果视角的建议。
具有因果解释的稳健网络欺凌检测
Lu Cheng, Ruocheng Guo, Huan Liu
提出一个原则性框架,识别并阻止潜在隐藏混杂因素对网络欺凌检测的影响。
在线大学社区中仇恨言论的普遍性及其心理影响
Koustuv Saha, Eshwar Chandrasekharan, Munmun De Choudhury
测量在Reddit社区中接触仇恨言论对压力水平增加的心理影响。混杂因素:子版块和用户活动。混杂调整方法:倾向得分匹配。

与语言的潜在联系

向量化处理

标题描述代码
用于因果效应估计的图干预网络
Jean Kaddour, Qi Liu, Yuchen Zhu, Matt J. Kusner, Ricardo Silva
将Robinson分解(如在R-learner或广义随机森林中使用)推广到向量化处理(如文本、图像、图)。git
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号