whatlang-rs
Rust实现的高效自然语言检测库,支持69种语言,识别语言和文字脚本(如拉丁文、西里尔文等),并提供可靠性评估。轻量、快速且简洁,适用于Sonic、Meilisearch等项目。
lingua
此库可检测文本数据的语言,适用于自然语言处理如文本分类和拼写检查。与其他开源库相比,该库无需复杂配置,适用于长文本和短文本,甚至单词和短语。支持75种语言,高精度检测,完全离线运行,无需外部API或服务,适用于社交媒体和电子邮件自动分拣等应用。
franc
franc是一款多语言文本检测工具,支持从82种到419种语言。提供命令行接口,适用于Node.js、Deno和现代浏览器。适用大文档检测以提高准确性,确保检测结果可靠。
lingua-go
Lingua-go 是一款能够准确识别文本语言的开源工具,适用范围广泛,包括长文本、单个词语和短语等。相比其他库,它在处理短文本时表现更佳,无需依赖外部API,支持75种语言,完全离线使用,适合预处理、文本分类和拼写检查等自然语言处理任务。
sherpa-onnx
Sherpa-onnx是一个支持多平台、多功能的语音处理开源项目,涵盖语音识别、语音合成、说话人验证、语言识别等功能,兼容安卓、iOS、Windows、macOS、Linux等系统。支持多种编程语言如C++、C、Python、Go、C#、Java、Kotlin、JavaScript、Swift和Dart,提供预构建的APK和Flutter应用,以及开源预训练模型,便于语音处理开发和部署。
xlm-roberta-base-language-detection
这是一个基于XLM-RoBERTa模型微调的多语言文本分类工具,可识别20种语言,测试集准确率达99.6%。模型通过简单的pipeline API快速部署,适用于多语言环境下的自动语言检测。与基准模型相比,该工具在准确性和易用性方面均有提升,为自然语言处理应用提供了可靠的语言识别功能。
fasttext-language-identification
fastText是一个高效的开源文本分类和词向量学习库,能在普通硬件上快速训练模型并可压缩用于移动设备。其语言识别模型基于维基百科和Common Crawl数据,可识别217种语言。通过简单的Python代码,用户可实现语言检测并获取多语言概率输出。该库适用于需要快速、准确进行多语言文本处理的应用场景。
51-languages-classifier
该项目开发了一个基于XLM-Roberta的51语言分类器,能够精确区分51种不同语言的文本。模型使用MASSIVE数据集进行训练,该数据集包含超过100万条多语言话语样本。在评估中,模型在大多数语言上的F1分数均超过0.98,展现出优异的性能。研究人员和开发者可通过Hugging Face Transformers库轻松集成和使用这一多语言分类模型。
whisper-medium-fleurs-lang-id
该模型是对openai/whisper-medium在FLEURS数据集上进行微调的版本,专注于多语言识别任务。经过3轮训练后,模型在评估集上实现了88.05%的准确率。采用Adam优化器和线性学习率调度器,模型性能得到显著提升。这一成果为音频语言识别应用提供了有力工具,可应用于多语种环境下的语音分析和处理。这一模型在多语言环境下的语音转写、实时翻译等领域具有广阔应用前景。相比原始Whisper Medium模型,该微调版本在特定语言识别任务上表现更为出色,为跨语言交流和音频内容分析提供了更精准的工具支持。