#文本挖掘
tidytext - 应用整洁数据原则的R文本挖掘工具包
tidytext文本挖掘R语言数据处理可视化Github开源项目
tidytext是一个基于R语言的文本挖掘工具包,运用整洁数据原则简化文本分析流程。它提供文本格式转换函数,实现与其他文本挖掘包的兼容。支持词频统计、情感分析和主题建模等任务,可与dplyr、ggplot2等R包集成使用。tidytext通过标准化和简化流程,提高了文本分析的效率和一致性。
ESG-BERT - ESG-BERT模型提升可持续投资领域的文本分析能力
ESG-BERTBERT模型模型可持续投资Github开源项目Huggingface文本挖掘自然语言处理
ESG-BERT是针对可持续投资领域优化的BERT模型。在非结构化文本数据上的训练使其在下一句预测和掩码语言建模任务中表现出色。文本分类任务中,ESG-BERT的F1分数达0.90,超越通用BERT模型和传统机器学习方法。这一模型为可持续投资领域的自然语言处理任务提供了有力支持,显著提升了ESG相关文本分析效果。
matscibert - 材料科学领域的专用文本挖掘与信息提取语言模型
开源项目预训练模型信息抽取Github模型Huggingface文本挖掘材料科学MatSciBERT
MatSciBERT是应用于材料科学领域的预训练语言模型,旨在提高文本挖掘与信息提取的效果。该模型基于BERT技术,在合金、玻璃、金属玻璃等类型的材料科学文献上训练,资料来源于ScienceDirect。研究人员可以从GitHub获取相关代码,用以在科研过程中实现更精确的信息抽取和深入分析。