#日语

wav2vec2-large-xlsr-53-japanese - 基于Wav2Vec2的日语语音识别模型
Huggingface模型语音识别Github日语开源项目Wav2Vec2XLSR-53Common Voice
该模型是在facebook/wav2vec2-large-xlsr-53基础上,使用日语语音数据集微调而来的语音识别模型。在Common Voice日语测试集上,其词错误率(WER)为81.80%,字符错误率(CER)为20.16%,优于同类模型。它可直接用于日语语音转文本,无需额外语言模型。模型要求输入音频采样率为16kHz。
reazonspeech-nemo-v2 - 改进后的Conformer架构实现日语长音频自动语音识别
Huggingface模型NeMo语音识别Github日语开源项目ReazonSpeechConformer
reazonspeech-nemo-v2是一个基于改进Conformer架构的日语自动语音识别模型。它采用Longformer注意力机制和RNN-T结构,可处理长达数小时的音频。模型在ReazonSpeech v2.0语料库上训练,参数量为619M。通过reazonspeech库,用户可便捷地使用该模型进行日语语音识别。
kotoba-whisper-v2.1 - 日语语音识别模型优化版:提升精度和功能
模型Kotoba-WhisperGithubHugging Face语音识别日语Huggingface开源项目自然语言处理
Kotoba-Whisper-v2.1是一款基于Whisper的日语语音识别模型。该模型通过集成额外的后处理功能,如添加标点符号,提高了识别准确度。在多个日语语音数据集上,其表现超越了原版Whisper模型。模型支持使用Transformers库进行推理,并可选用Flash Attention 2等技术优化性能。
japanese-gpt-neox-small - 日本GPT-NeoX小型模型,兼容Huggingface加载
前缀微调NVIDIA日语HuggingfaceGithub开源项目模型GPT-NeoX文本生成
本项目提供了一个小型的日本GPT-NeoX模型,基于EleutherAI/gpt-neox代码进行训练。该模型使用Japanese CC-100、Japanese C4和Japanese Wikipedia数据集进行训练,优化语言模型目标。可通过Huggingface的GPT-NeoX无缝加载,模型结构包括12层、768隐藏单元,支持基于sentencepiece的分词。此外,还提供前缀调优权重文件,可以用于后接表情符号的句子生成。经过验证,该模型兼容NVIDIA FasterTransformer 5.1进行推理。
japanese-stablelm-base-beta-7b - 日本语自然语言处理的7B参数高效模型
自然语言处理开源项目模型日语GithubHuggingfaceJapanese-StableLM-Base-Beta-7BLlama2语言模型
该7B参数自回归模型基于Llama-2-7b,经过微调以提升日本语言任务表现。其使用多样的日本语数据集训练,适合各种文本生成任务,并且推理速度优异。提供开放商业用途,适合应用程序的专用调整。
sentence-bert-base-ja-mean-tokens - 日语Sentence-BERT模型实现句子向量化和相似度计算
特征提取Huggingface模型句向量模型BERTGithub语义相似度日语开源项目
sentence-bert-base-ja-mean-tokens是一个专为日语开发的Sentence-BERT模型,可将日语句子转换为向量表示。该模型适用于句子相似度计算、文本分类等NLP任务,提供Python接口,支持批量处理和GPU加速。作为日语自然语言处理的基础工具,它为开发者提供了高效的句子编码解决方案。
bert-base-japanese-char - 日语BERT模型采用字符级分词预训练
模型维基百科字符分词BERTGithub日语开源项目Huggingface机器学习
bert-base-japanese-char是一个基于日语维基百科训练的BERT模型,采用字符级分词。模型架构包括12层、768维隐藏状态和12个注意力头,词汇量4000。处理流程先用MeCab进行形态分析,再进行字符级分词。模型在约1700万个句子上训练100万步,每批次处理256个实例,每个实例包含512个标记。该模型适用于各种日语自然语言处理任务。
deberta-v2-large-japanese-char-wwm - 基于DeBERTa V2的大规模日语预训练语言模型
模型Github预训练模型开源项目HuggingfaceDeBERTa V2日语自然语言处理字符级tokenization
deberta-v2-large-japanese-char-wwm是一个基于DeBERTa V2架构的日语预训练语言模型。它采用字符级分词和全词遮蔽技术,在171GB的日语语料库上训练而成。该模型支持掩码语言建模等任务,可直接处理原始文本。经26天训练后,模型在掩码语言建模评估集上达到79.5%的准确率,为日语自然语言处理研究和应用提供了强大工具。
deberta-v2-base-japanese - 日语DeBERTa V2 base模型:为自然语言处理提供强大基础
模型DeBERTa V2Github日语预训练模型开源项目Huggingface机器学习自然语言处理
DeBERTa V2 base日语模型基于维基百科、CC-100和OSCAR数据集预训练而成。该模型在情感分析、语义相似度和问答等多项自然语言理解任务中表现优异。模型采用Juman++分词技术,并使用sentencepiece构建32000个子词词表。预训练过程耗时3周,使用8块NVIDIA A100 GPU。在JGLUE基准测试中,模型在MARC-ja、JSTS、JNLI、JSQuAD和JComQA等任务上均取得了与现有最佳模型相当或更好的结果,突显了其在各种日语自然语言理解任务中的广泛适用性和高效性。这一模型为日语自然语言处理研究和应用提供了坚实基础。
MedNER-CR-JA - 日语医疗文档命名实体识别模型
Huggingface开源项目模型MedTxt-CR-JA模型训练日语Github医疗文档命名实体识别
MedNER-CR-JA是一个面向日语医疗文档的命名实体识别模型,基于NTCIR-16 Real-MedNLP标准开发。模型可识别医疗文本中的疾病诊断、用药信息及时序表达,输出XML格式的标准化标注结果。通过Python实现,支持批量处理医疗文档,适用于医疗信息提取和文本分析等应用场景。
calm3-22b-chat - 基于22亿参数的日英双语对话模型,专为智能交互优化
CALM3-22B-Chat开源项目自然语言处理模型语言模型Huggingface日语对话系统Github
CALM3-22B-Chat是一个基于2.0万亿tokens训练的大规模语言模型,专为对话场景优化。该模型具有220亿参数,支持日英双语交互,最大上下文长度16384。采用ChatML格式,支持流式输出,适合构建智能对话系统。由CyberAgent开发,Apache-2.0许可证开源,为开发者提供强大的自然语言处理能力。
t5-large-medium - 基于Transformer的日文预训练模型,提高NLP任务性能
Retrieva日语HuggingfaceT5 v1.1开源项目模型预训练GithubTransformer
该T5 v1.1模型基于Transformer架构,专为日文语料进行预训练。通过使用GEGLU激活函数代替ReLU,提升了文本生成质量。模型在预训练时关闭Dropout以提升泛化能力,微调时可重启。训练数据包括mC4/ja和日本Wikipedia,确保日文内容的纯净性。此大型模型拥有约7.7亿参数,适用于广泛的日文自然语言处理任务,表现出优异的性能与适应性。
EvoLLM-JP-v1-7B - 探索日语语言模型的进化潜力
EvoLLM-JP-v1-7B开源项目模型Github演化模型合并Sakana AI研究开发日语Huggingface
EvoLLM-JP-v1-7B是由Sakana AI开发的实验性日语语言模型,采用进化模型合并方法,由多个源模型合并而成。用户可通过Hugging Face平台在研究与开发领域利用该模型,尽管其提供了语言处理的新机遇,但尚未针对商业用途进行验证,需谨慎应用。
bert-base-japanese-upos - 日语自然语言处理的BERT模型应用
POS标注开源项目模型日语GithubHuggingface依存解析Universal DependenciesBERT
此模型在日语维基百科文本上进行预训练,支持词性标注和依存解析等任务。它衍生自bert-base-japanese-char-extended,利用UPOS体系为短单位词标注。通过Python代码,用户能方便地进行文本处理和结构解析,适合希望高效处理日语文本的用户。该模型具有良好的兼容性,可通过Huggingface平台使用。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号