关于
quanteda是一个用于管理和分析文本的R包,由Kenneth Benoit和Kohei Watanabe创建和维护。它的创建得到了欧洲研究委员会ERC-2011-StG 283794-QUANTESS项目的资助,其持续发展得到了Quanteda Initiative CIC的支持。
更多详情,请访问https://quanteda.io。
quanteda版本4
quanteda 4.0是一个重大更新,它改进了功能和性能,并通过移除先前弃用的函数进一步提高了函数的一致性。它还包含了重要的新分词规则,使默认分词器比以往更加智能,新的Unicode和ICU兼容规则使其能够更加一致地处理更多语言。
我们在以下文章中更全面地描述了这些重要变化:
- 关于新的外部指针标记对象的文章;
- 展示新外部指针标记对象性能基准的文章,以及v4中一些分词器的改进;
- v4的更新日志,列出了v4中的所有变更、改进和弃用内容。
quanteda家族包
随着v3的发布,我们完成了将quanteda拆分为模块化包的趋势。quanteda家族包括以下内容:
- quanteda:包含所有核心自然语言处理和文本数据管理功能
- quanteda.textmodels:包含所有文本模型和支持函数,即
textmodel_*()
函数。这在v2发布时从主包中分离出来 - quanteda.textstats:文本数据统计,即
textstat_*()
函数,在v3发布时分离 - quanteda.textplots:文本数据绘图,即
textplot_*()
函数,在v3发布时分离
我们正在开发additional包,目前可以从我们的GitHub页面获取:
- quanteda.sentiment: 用于使用词典进行情感分析的函数和词典
- quanteda.tidy: 使用您喜欢的tidyverse函数操作核心quanteda对象中的文档变量的扩展
更多内容即将推出。
如何...
从CRAN安装(二进制文件)
通过R图形界面或使用以下命令从CRAN正常安装:
install.packages("quanteda")
**(quanteda v4.0新特性)**对于Linux用户:由于Linux上的所有安装都是编译的,Linux用户首先需要安装Intel oneAPI Threading Building Blocks以实现并行计算,才能成功安装。
在Linux上安装TBB:
# Fedora, CentOS, RHEL
sudo yum install tbb-devel
# Debian和Ubuntu
sudo apt install libtbb-dev
Windows或macOS用户从CRAN安装quanteda时无需安装TBB或任何其他包即可启用并行计算。
从源代码编译(macOS和Windows)
由于这需要编译一些C++和Fortran源代码,您需要安装适当的编译器来构建开发版本。
您还需要安装TBB:
macOS:
首先,您需要安装XCode命令行工具。
xcode-select --install
然后安装TBB库和pkg-config工具:(在安装Homebrew之后):
brew install tbb pkg-config
最后,您需要安装gfortran。
Windows:
安装RTools,其中包含TBB库。
使用quanteda
请参阅快速入门指南以了解如何使用quanteda。
获取帮助
- 阅读我们的文档:https://quanteda.io。
- 查看quanteda速查表。
- 在quanteda StackOverflow频道上提交问题。
- 访问我们的教程网站。
引用本软件包
Benoit, Kenneth, Kohei Watanabe, Haiyan Wang, Paul Nulty, Adam Obeng, Stefan Müller, and Akitaka Matsuo. (2018) "quanteda: An R package for the quantitative analysis of textual data". Journal of Open Source Software 3(30), 774. https://doi.org/10.21105/joss.00774.
要获取BibTeX条目,请使用citation(package = "quanteda")
的输出。
留下反馈
如果您喜欢quanteda,请考虑在这里留下反馈或推荐。
贡献
我们非常欢迎以反馈、评论、代码和错误报告的形式做出贡献。如何贡献:
- 分叉源代码,修改,并通过项目GitHub页面发起拉取请求。请参阅我们的贡献者行为准则和至关重要的quanteda风格指南。
- 问题、错误报告和愿望清单:提交GitHub问题。
- 通过电子邮件联系维护者。