#形态素分析

Sudachi:日本独特的柑橘果实及其在自然语言处理中的应用

3 个月前
Cover of Sudachi:日本独特的柑橘果实及其在自然语言处理中的应用

深入解析khaiii:卡카오的第三代韩文形态素分析器

3 个月前
Cover of 深入解析khaiii:卡카오的第三代韩文形态素分析器

Pecab:基于Mecab的纯Python韩语形态素分析器

3 个月前
Cover of Pecab:基于Mecab的纯Python韩语形态素分析器

Pecab:基于Mecab的纯Python韩语形态素分析器

3 个月前
Cover of Pecab:基于Mecab的纯Python韩语形态素分析器
相关项目
Project Cover

vibrato

Vibrato是利用Viterbi算法的高效分词器,用Rust重写并优化了MeCab分词器,显著提高分词性能。它支持与MeCab兼容的输出,并允许从自己的数据训练分词参数。Vibrato擅长处理大规模矩阵数据,加快分词速度。项目提供了Python接口和WebAssembly演示,兼顾多种应用场景。详见项目文档,可通过Slack社区进行讨论。支持Apache 2.0和MIT双许可。

Project Cover

pecab

Pecab是一个基于Mecab的纯Python韩语形态素分析工具,保留了Mecab的高速和准确性,同时简化了安装流程。该工具提供形态素分割、词性标注和名词提取等功能,并采用零拷贝内存映射和双数组字典树技术,显著提升了加载速度并降低了内存占用。Pecab为韩语自然语言处理提供了一个高效且易于使用的解决方案。

Project Cover

khaiii

khaiii是Kakao开发的开源韩语形态素分析工具,采用CNN算法实现。该项目结合预分析词典和错误修复技术,在保证准确率的同时提供高效处理速度。支持自定义词典,可用于韩语自然语言处理的基础预处理,适合大规模文本分析场景。

Project Cover

Sudachi

Sudachi是一款开源的日语形态素分析器,支持多级分词、大型词典和插件系统。基于UniDic和NEologd,Sudachi提供强大的文本正规化功能,可同时进行形态素分析和命名实体识别。它具有命令行接口和Java API,便于集成应用。Sudachi在分词准确性和性能上表现优秀,是处理日语文本的有力工具。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号