#泰语
pythainlp - Python实现的泰语自然语言处理库
Github开源项目Python开源自然语言处理PyThaiNLP泰语
PyThaiNLP是一个专注于泰语的Python自然语言处理库,提供丰富的功能如分词、词性标注、拼写检查等。支持Python 3.7+,可通过pip安装。这个开源项目被广泛应用于工业和研究领域,为泰语NLP任务提供支持。PyThaiNLP具有命令行接口,支持额外功能的可选安装。
thainer-corpus-v2-base-model - 泰语命名实体识别模型,支持地名、人名等信息的高精度识别
Github开源项目模型训练模型HuggingfaceNamed Entity Recognition泰语WangchanBERTa实体识别模型
该命名实体识别模型基于Thai NER v2.0语料库训练,专为泰语文本的实体分类而设计。通过WangchanBERTa基础模型训练,提供高精度和F1分数,确保识别结果准确。需要使用自定义代码进行推理以避免错误标签,相关信息和下载链接在HuggingFace Hub提供。
wav2vec2-large-xlsr-53-th-cv8-newmm - 基于wav2vec2的泰语语音识别模型整合CommonVoice V8数据集实现性能突破
Github开源项目语音识别模型语音转文本机器学习模型Huggingface泰语Wav2Vec2
这是一个针对泰语的开源语音识别模型,通过微调wav2vec2-large-xlsr-53并整合CommonVoice V8数据集实现。模型采用pythainlp进行预分词,结合语言模型显著提升性能。在CommonVoice V8测试集上,模型实现12.58%的词错率和3.28%的字符错率,较基准模型大幅提升。该项目代表了当前泰语语音识别领域的先进水平。