text2vec是一个R语言包,为文本分析和自然语言处理(NLP)提供了高效的框架和简洁的API。
我们在开发text2vec
时旨在实现以下目标:
- 简洁 - 尽可能少地暴露函数
- 一致 - 提供统一的接口,无需为每个任务探索新的接口
- 灵活 - 允许轻松解决复杂任务
- 快速 - 最大化单线程效率,在多核机器上透明地扩展到多线程
- 内存高效 - 使用流和迭代器,尽可能不将数据保留在内存中
详情请参阅API部分。
性能
这个包之所以高效,是因为它经过精心用C++编写,这也意味着text2vec对内存友好。某些部分使用OpenMP实现了完全并行化。
其他明显可并行的任务(如向量化)可以在类UNIX机器上使用任何基于fork的并行后端。它们可以随可用核心数量实现近乎线性的可扩展性。
最后,流式API意味着用户无需将所有数据加载到内存中。
贡献
该包在GitHub上有问题跟踪器,我在那里提交功能请求和未来工作的注意事项。欢迎提供任何想法。
欢迎贡献者。您可以通过以下方式提供帮助:
- 在GitHub问题跟踪器(最好)或直接通过电子邮件进行测试并留下反馈
- 分叉并贡献(查看我们的代码风格指南)。非常欢迎提供说明文档、文档、测试和使用案例
- 在项目页面上给我一个星标 :-)
许可证
GPL(>= 2)