stringi
R语言中快速且可移植的字符串处理(基于Unicode ICU)
完整的教程和参考手册可在以下网址获取: https://stringi.gagolewski.com/
查看
stringx
以获取围绕stringi
的一组具有基础R兼容API的包装器。要深入了解R,请查看Marek的开放访问(免费!)教材 Deep R Programming。
stringi
(发音为"stringy",国际音标 [strinɡi])
是用于字符串/文本/自然语言处理的THE R包。
它非常快速、一致、便捷,并且 — 得益于
ICU – 国际化组件(Unicode)
库 — 可在所有语言环境和平台上移植。
可用功能包括:
- 字符串连接、填充、换行,
- 子字符串提取,
- 模式搜索(例如,使用类Java正则表达式),
- 排序和整理,
- 随机字符串生成,
- 大小写映射和折叠,
- 字符串音译,
- Unicode标准化,
- 日期时间格式化和解析,
以及更多功能。
包维护者:Marek Gagolewski
作者和贡献者:Marek Gagolewski, 以及Bartłomiej Tartanus和许多其他人的贡献。
该包的API受到Hadley Wickham的
stringr
包早期版本(pre-tidyverse;v0.6.2)的启发
(自2015年v1.0.0版本起,stringr
由 stringi
提供支持)。
主页:https://stringi.gagolewski.com/
引用:Gagolewski M.,
stringi
: R中快速且可移植的字符串处理,
统计软件杂志 103(2),2022,1–59,
https://dx.doi.org/10.18637/jss.v103.i02。
CRAN条目:https://CRAN.R-project.org/package=stringi
系统要求:R >= 3.4,ICU4C >= 61(更多详情请参阅 INSTALL 文件)
许可证:stringi
的源代码根据开源
BSD-3-clause许可证分发。更多详情,请参阅
LICENSE。
此git仓库还包含Unicode公司和其他方版权所有的ICU4C源代码的自定义子集。 包含了Unicode字符数据库的二进制版本。有关版权持有者的更多详情,请参阅 LICENSE。 ICU项目采用 Unicode许可证 — 这是一个简单、宽松的非copyleft自由软件许可证,与 GNU GPL兼容。ICU许可证 旨在 允许ICU被包含在自由软件项目以及 专有或商业产品中。
变更:请参阅 NEWS文件。