causal-text-papers

causal-text-papers

自然语言处理中的因果推断研究资源汇总

该项目汇集了因果推断在自然语言处理领域的研究论文和代码资源。内容包括文本作为处理、中介、结果和混杂因素的应用,以及因果推断改进NLP任务的方法。此外还涵盖了语言学、营销等社会科学的具体案例。这一资源库为研究人员提供了深入了解因果推断在NLP中应用的机会。

因果推断自然语言处理文本分析机器学习社会科学应用Github开源项目

因果推理与语言相关论文

关于影响力、因果关系和语言的论文和代码库集合。

欢迎提交拉取请求!

目录

数据集和模拟
学习资源和博客文章
使用文本变量进行因果推理
因果关系改进自然语言处理
1. 因果解释
2. 敏感性和稳健性
社会科学中的应用
与语言的潜在联系
1. 向量化处理

数据集和模拟

类型	描述	代码
半模拟	给定文本(亚马逊评论),提取处理(0或5星)和混淆因素(产品类型),然后根据提取的处理和混淆因素对结果(销量)进行采样。	git
完全合成	从二项分布中采样结果、处理和混淆因素,然后根据这些采样变量从均匀分布中采样词语。	git

学习资源和博客文章

标题	描述	代码
文本和因果推理:使用文本从因果估计中移除混淆的综述 <br> Katherine A. Keith, David Jensen, 和 Brendan O'Connor	对使用文本移除混淆的研究进行综述。还强调了文本和因果推理领域中的许多未解决问题。
用于因果推理的文本特征选择 <br> Reid Pryzant 和 Dan Jurafsky	关于文本作为处理(通过词典操作化)的博客文章	git
计量经济学遇上情感分析:方法和应用概述 <br> Andres Algaba, David Ardia, Keven Bluteau, Samuel Borms, 和 Kris Boudt	综述总结了将替代数据(重点是文本)转化为变量并在计量经济模型中使用的各种方法。包括各种应用。	git

使用文本变量进行因果推理

文本作为处理

标题	描述	代码
语言属性的因果效应 <br> Reid Pryzant, Dallas Card, Dan Jurafsky, Victor Veitch, Dhanya Sridhar	开发了一种基于分类器处理的文本因果推断调整程序。证明了偏差的界限	git
使用文本分类器进行因果推断的挑战 <br> Zach Wood-Doughty, Ilya Shpitser, Mark Dredze	研究了使用分类器估计处理标签可能产生的各种错误，提出了解决这些错误的调整方法	git
用于可解释社会科学的去混淆词典归纳 <br> Reid Pryzant, Kelly Shen, Dan Jurafsky, Stefan Wager	研究了以词典或单个词语形式体现的文本效应，提出了估计效应和评估词典的算法	git
如何使用文本进行因果推断 <br> Naoki Egami, Christian J. Fong, Justin Grimmer, Margaret E. Roberts, and Brandon M. Stewart	(也涉及文本作为结果)。涵盖了将文本作为处理所需的假设，得出结论应该使用训练/测试集
从文本语料库中发现处理方法 <br> Christian Fong, Justin Grimmer	提出了一种新的实验设计和统计模型，可以同时在语料库中发现处理方法并估计这些发现的处理方法的因果效应
措辞对消息传播的影响：Twitter上的主题和作者控制的自然实验 <br> Chenhao Tan, Lillian Lee, and Bo Pang	通过研究包含相同URL且由同一用户撰写但使用不同措辞的推文来控制混淆因素
什么时候词语重要？使用个体处理效应估计来理解词汇选择对受众感知的影响 <br> Zhao Wang and Aron Culotta	测量词语对读者感知的影响。比较了多种准实验方法	git

文本作为中介

标题	描述	代码
调整文本嵌入以进行因果推断 <br> Victor Veitch, Dhanya Sridhar, and David Blei	(也涉及文本作为混淆因素) 通过预测倾向得分和潜在结果，同时进行掩码语言建模目标，调整BERT嵌入以进行因果推断	tensorflow <br> pytorch
操作化复杂原因：中介的实用观点 <br> Limor Gultchin, David Watson, Matt Kusner and Ricardo Silva	(也可视为文本作为处理) 开发了一种实用中介的概念，有助于在涉及复杂对象（如文本、图像或基因组学）的各种干预机制下进行因果效应估计。实用中介的识别具有可解释性优势，可以指导新干预措施的开发	git
文本作为因果中介：通过语言方面估计社会群体差异处理的因果研究设计 <br> Katherine A. Keith, Douglas Rice, and Brendan O'Connor	提出了一种用于观察（非实验）数据的因果研究设计，以估计社会群体信号（如种族或性别）对说话者反应的自然直接和间接效应，将语言的不同方面作为因果中介

文本作为结果

标题	描述	代码
估计在线辩论中语气的因果效应 <br> Dhanya Sridhar and Lise Getoor	(也涉及文本作为混淆因素)。研究回复语气对在线辩论中后续回应情感的影响	git
司法身份如何改变法律裁决的文本 <br> Michael Gill and Andrew Hall	研究随机分配女性法官或非白人法官如何影响法律裁决的语言
使用深度预训练语言表示测量临床试验结果的语义相似性<br> Anna Koroleva, Sanjay Kamath, Patrick Paroubek

文本作为混淆因素

标题	描述	代码
CausalNLP：一个实用的文本因果推理工具包 <br> Arun S. Maiya	（也包括将文本作为处理）。描述了一个主要基于元学习器的文本因果推理工具包。除了使用传统的词袋特征将文本编码为"受控"变量外，还包括Causal Bert的PyTorch实现（最初来自R. Pryzant）。还包括方便的方法，可以轻松地将文本转换为传统的数值或分类变量，以在因果分析中用作处理/混杂/结果变量（例如，情感、主题、情绪等）。	git
文本与因果推理：使用文本消除因果估计中混杂因素的综述 <br> Katherine A. Keith, David Jensen, 和 Brendan O'Connor	对使用文本消除混杂的研究进行综述。还强调了文本和因果推理领域中的众多未解决问题。
通过文本匹配调整混杂因素 <br> Margaret E Roberts, Brandon M Stewart, 和 Richard A Nielsen	估计文本的低维摘要，并通过匹配这个摘要来消除混杂。提出了一种文本匹配方法，即主题逆回归匹配，该方法同时匹配主题内容和倾向得分。
使用文本数据进行匹配：文档匹配方法和匹配质量测量的实验评估 <br> Reagan Mozer, Luke Miratrix, Aaron Russell Kaufman, L Jason Anastasopoulos	描述并实证评估了一个文本文档匹配框架，该框架将现有方法分解为：文本表示的选择和距离度量的选择。
学习反事实推理的表示 <br> Fredrik Johansson, Uri Shalit, David Sontag	他们的一个半合成实验将新闻内容作为混杂因素。
学习反事实推理的表示 <br> Fredrik Johansson, Uri Shalit, David Sontag	他们的一个半合成实验将新闻内容作为混杂因素。
概念化基于文本的因果推理中的处理泄漏 <br> Adel Daoud, Connor T. Jerzak, 和 Richard Johansson	描述了在控制基于文本的混杂因素时处理信号泄漏的问题，这可能导致识别和估计问题。对处理泄漏如何导致平均处理效应（ATE）估计问题以及如何通过假设可分离性使用文本预处理来缓解这种偏差进行模拟研究。

因果关系改进自然语言处理

因果解释和说明

标题	描述	代码
迈向可信解释：基于因果合理化 <br> Wenbo Zhang, Tong Wu, Yunlong Wang, Yong Cai, Hengrui Cai	本文利用因果概率来改进NLP自解释模型。	git
CausaLM：通过反事实语言模型进行因果模型解释 <br> Amir Feder, Nadav Oved, Uri Shalit 和 Roi Reichart	提出了一种通过反事实语言表示生成因果解释的方法。	git
用于解释神经NLP的因果中介分析：以性别偏见为例 <br> Jesse Vig, Sebastian Gehrmann, Yonatan Belinkov, Sharon Qian, Daniel Nevo, Yaron Singer 和 Stuart Shieber	使用因果中介分析来解释NLP模型。	git
Causal BERT：用于检测文本中事件间因果关系的语言模型 <br> Vivek Khetan, Roshni Ramnani, Mayuresh Anand, Subhashis Sengupta, Andrew E. Fano	本文研究了语言模型在仅使用句子上下文、句子上下文结合事件信息以及利用领域内和领域外数据分布的掩蔽事件上下文的情况下，识别自然语言文本中表达的事件之间因果关系的能力。

敏感性和鲁棒性

标题	描述	代码
通过自动生成的反事实案例提高文本分类的鲁棒性 <br> Zhao Wang 和 Aron Culotta	通过匹配识别因果术语，然后生成反事实案例用于训练。	git
识别虚假相关性以实现鲁棒文本分类 <br> Zhao Wang 和 Aron Culotta	通过匹配识别虚假词特征	git
使用对抗域适应发现和控制文本分类中的潜在混淆因素 <br> Virgile Landeiro, Tuan Tran 和 Aron Culotta	在文本分类中控制未观察到的混淆因素
在混淆偏移下的鲁棒文本分类 <br> Virgile Landeiro 和 Aron Culotta	在文本分类中控制变化的混淆因素	git
通过反事实增强数据学习关键差异 <br> Divyansh Kaushik, Eduard Hovy, Zachary C. Lipton	引入方法和资源来训练对虚假模式不敏感的模型	git
解释反事实增强数据的有效性 <br> Divyansh Kaushik, Amrith Setlur, Eduard Hovy, Zachary C. Lipton	解释反事实增强数据在训练对虚假模式不敏感的模型方面的有效性	git

社会科学应用

语言学

标题	描述	代码
使用深度神经网络将适应性与一致性解耦 <br> Andreas Weise, Rivka Levitan	在建模语音适应性时分离说话者的个人风格。
从情绪日志数据估计运动的因果效应 <br> Dhanya Sridhar, Aaron Springer, Victoria Hollis, Steve Whittaker, Lise Getoor	混淆因素：情绪触发因素的文本。混淆调整方法：倾向得分匹配

营销

标题	描述	代码
从产品描述的语言预测销量 <br> Reid Pryzant, Young-Joo Chung 和 Dan Jurafsky	在控制品牌和价格的情况下，找出最能预测销量的产品描述特征。	git
用于将广告表现归因于其写作风格的可解释神经网络架构 <br> Reid Pryzant, Kazoo Sone 和 Sugato Basu	在控制广告主和定位的情况下，找出最能预测高点击率的广告文案特征。	git

说服力与论证

标题	描述	代码
通过品格影响：在线讨论中声誉的说服力 <br> Emaad Manzoor, George H. Chen, Dokyun Lee, Michael D. Smith	在双机器学习框架中使用语言神经模型来控制非结构化论证文本。

医疗保健

标题	描述	代码
MIMICause：临床笔记中因果关系类型的表示和自动提取 <br> Vivek Khetan, Md Imbesat Rizvi, Jessica Huber, Paige Bartusiak, Bogdan Sacaleanu, Andrew Fano	该工作提出了注释指南，开发了一个注释语料库，并提供了基线分数，以识别临床笔记中一对生物医学概念之间的因果关系类型和方向；这些关系可能以隐含或显式方式表达，可能在单个句子中或跨多个句子中识别。

心理健康

标题	描述	代码
社交媒体中社会支持的语言及其对自杀意念风险的影响 <br> Munmun De Choudhury 和 Emre Kiciman	混杂因素：先前在 Reddit 论坛上发布的文本。混杂因素调整方法：分层倾向得分匹配。
从社交媒体的心理健康内容中发现自杀意念的转变 <br> Munmun De Choudhury, Emre Kiciman, Mark Dredze, Glen Coppersmith, Mrinal Kumar	混杂因素：用户之前的帖子和收到的评论。混杂因素调整方法：分层倾向得分匹配

心理学

标题	描述	代码
通过强调美味和愉悦的属性来增加蔬菜摄入量：以味道为重点的标签多站点随机对照干预研究 <br> Bradley Turnwald, Jaclyn Bertoldo, Margaret Perry, Peggy Policastro, Maureen Timmons, Christopher Bosso, Priscilla Connors, Robert Valgenti, Lindsey Pine, Ghislaine Challamel, Christopher Gardner, Alia Crum	对自助餐厅食品标签进行随机对照试验，观察这些标签对学生选取食物量的影响。
精神病药物使用效果的社交媒体研究 <br> Koustuv Saha, Benjamin Sugar, John Torous, Bruno Abrahao, Emre Kıcıman, Munmun De Choudhury	混杂因素：用户在 Twitter 上的先前帖子。混杂因素调整方法：分层倾向得分匹配。

经济学

标题	描述	代码
一种深度因果推断方法，用于测量在线非营利小额信贷平台中组建群体贷款的效果 <br> Thai T Pham 和 Yuanyuan Shen	混杂因素：Kiva 上的小额贷款描述。混杂因素调整方法：对嵌入向量应用 A-IPTW 和 TMLE。

偏见与公平

标题	描述	代码
隐含性别偏见的无监督发现	使用倾向得分匹配和对抗性学习，使模型专注于偏见而非其他特征。
推文对被推者的治疗效果：通过实验减少种族主义骚扰 <br> Kevin Munger	进行随机对照试验，向种族主义 Twitter 用户发送缓解消息，改变"发送者"用户并观察对后续行为的影响。

社交媒体

标题	描述	代码
估计锻炼对用户在线行为的影响 <br> Seyed Amin Mirlohi Falavarjani, Hawre Hosseini, Zeinab Noorian, Ebrahim Bagheri	混杂因素：干预前主题兴趣变化。混杂调整方法：基于主题模型的匹配。
提炼个人经历的结果：社交媒体的倾向得分分析 <br> Alexandra Olteanu, Onur Varol, Emre Kiciman	混杂因素：Twitter上过去的用词。混杂调整方法：分层倾向得分匹配。
使用纵向社交媒体分析理解早期大学饮酒行为的影响 <br> Emre Kiciman, Scott Counts, Melissa Gasser	混杂因素：Twitter上的先前帖子。混杂调整方法：分层倾向得分匹配。
使用匹配样本从Twitter估计锻炼对心理健康的影响 <br> Virgile Landeiro and Aron Culotta	混杂因素：性别、位置、个人资料。混杂调整方法：匹配。	git
从2017年至2021年患者报告的糖尿病相关推文中提取显式和隐式因果关系：深度学习方法 <br> Adrian Ahne, Vivek Khetan, Xavier Tanner, Md Imbessat Hasan Rizvi, Thomas Czernichow, Francisco Orchard , Charline Bour, Andrew Fano, Guy Fagherazzi	手动标注了一个因果数据集，并使用主动学习进行扩充。首先，通过微调BERTweet模型检测包含因果信息的句子（因果句）。其次，使用多个模型在因果句中识别因果对。最后，在半监督方法中，将因果对聚合形成因果网络，并在D3中可视化。

法律

标题	描述	代码
万物皆有因：在法律文本分析中利用因果推断 <br> Xiao Liu, Da Yin, Yansong Feng, Yuting Wu, Dongyan Zhao	从法律描述自动构建因果图，并利用构建的图表消除类似指控的歧义。处理与混杂因素：来自法律描述的因素。	git

在线仇恨言论

标题	描述	代码
通过因果视角对在线仇恨言论的调查 <br> Antigoni M. Founta, Lucia Specia	对测量在线仇恨言论相关因果效应的研究进行调查。该调查还强调了潜在的知识空白和问题，并提供了如何进一步扩展仇恨言论因果视角的建议。
具有因果解释的稳健网络欺凌检测 <br> Lu Cheng, Ruocheng Guo, Huan Liu	提出一个原则性框架，识别并阻止潜在隐藏混杂因素对网络欺凌检测的影响。
在线大学社区中仇恨言论的普遍性及其心理影响 <br> Koustuv Saha, Eshwar Chandrasekharan, Munmun De Choudhury	测量在Reddit社区中接触仇恨言论对压力水平增加的心理影响。混杂因素：子版块和用户活动。混杂调整方法：倾向得分匹配。

与语言的潜在联系

向量化处理

标题	描述	代码
用于因果效应估计的图干预网络 <br> Jean Kaddour, Qi Liu, Yuchen Zhu, Matt J. Kusner, Ricardo Silva	将Robinson分解（如在R-learner或广义随机森林中使用）推广到向量化处理（如文本、图像、图）。	git

编辑推荐精选

讯飞智文

讯飞智文

一键生成PPT和Word，让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目，能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定，还是学生群体的职业生涯规划、实习避坑指南，亦或是活动策划、旅游攻略等内容，它都能提供支持，帮助用户精准表达，轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门

讯飞星火

讯飞星火

深度推理能力全新升级，全面对标OpenAI o1

科大讯飞的星火大模型，支持语言理解、知识问答和文本创作等多功能，适用于多种文件和业务场景，提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台，涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能，能为不同需求的用户提供便捷高效的帮助，助力用户轻松获取信息、解决问题，满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活

Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目，由多个知名机构联合参与。该项目提供了高效的 LLM（大语言模型）驱动的语音合成方案，支持语音克隆和语音创建功能，可通过命令行界面（CLI）和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数，生成高质量的语音。该项目适用于多种场景，如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境（IDE），通过自动化和多元协作改变开发流程。利用Trae，团队能够更快速、精确地编写和部署代码，从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能，是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门

咔片PPT

咔片PPT

AI助力，做PPT更简单！

咔片是一款轻量化在线演示设计工具，借助 AI 技术，实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT，提供海量模板、智能美化、素材替换等功能，适用于销售、教师、学生等各类人群，能高效制作出高品质 PPT，满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文，一站式创作，让内容运营更高效

讯飞绘文，一个AI集成平台，支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容，加速品牌传播，提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手

材料星

材料星

专业的AI公文写作平台，公文写作神器

AI 材料星，专业的 AI 公文写作辅助平台，为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能，支持 30 + 文稿类型生成，助力快速完成领导讲话、工作总结、述职报告等材料，提升办公效率，是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK，助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK，它为开发者提供了与 OpenAI 模型交互的高效工具，支持工具调用、结果处理、追踪等功能，涵盖多种应用场景，如研究助手、财务研究等，能显著提升开发效率，让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具，支持从文本描述、单张图片或多视角图片生成 3D 模型，具备快速形状生成能力，可生成带纹理的高质量 3D 模型，适用于多个领域，为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目，涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作，如创建文件和目录、设置布局等，同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景，能够提高系统的性能和可靠性，是分布式存储领域的优质解决方案。

下拉加载更多

探索AI的无限可能

访问

AI工具导航精选AI信息

推荐工具精选

Trae

Trae

字节跳动发布的AI编程神器IDE

豆包

字节跳动旗下 AI 智能助手

讯飞文书

讯飞文书

提升文书撰写效率，满足高频需求

讯飞绘文

讯飞绘文

选题、配图、成文，一站式创作，让内容运营更高效

讯飞绘镜

讯飞绘镜

描述即创作，短视频轻松生成

阿里绘蛙

阿里绘蛙

AI驱动的电商营销工具，一键生成商拍图和种草文案

咔片PPT

咔片PPT

AI助力，做PPT更简单！

AI云服务特惠

懂AI专属折扣

关注微信公众号

最新AI工具、AI资讯
独家AI资源、AI项目落地

微信公众号二维码

微信扫一扫关注公众号

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号