日本語LLM总结
本文汇总了公开的日语LLM(以日语为中心学习的LLM)及其评估基准的信息。信息由志愿者收集,其中一部分引用了论文和公开的资源。
⚠ 关于以下几点,敬请事先理解并谅解:
- 本文的内容不保证其完整性或准确性。信息可能会在未通知的情况下发生变化,且不一定能始终提供最新信息。
- 部分信息可能基于推测或个人用户的解释,因此不一定对所有读者都准确。
- 本文中所述的大多数模型适用于 MIT 或 Apache-2.0 等开源许可。但请注意,部分模型可能适用于非营利限定许可(例如:CC BY-NC-SA 4.0)或开发者特定许可,这些可能不一定是开源的。
- 关于个人开发的模型的描述,作者的敬称被省略。
本文在 GitHub 上进行管理。如果您发现文章中的错误,或希望建议添加模型,欢迎通过 GitHub Issues 报告。
目录
主要用于文本生成的模型
包含图像的文本生成模型见此处
从零开始预训练的模型
通用
架构 | 输入输出可处理的 Token 数 | 学习文本 | 开发者 | 许可证 | |
---|---|---|---|---|---|
Stockmark-100b | Llama (100b, 100b-instruct-v0.1) | 4,096 | 预训练: RedPajama, 日语 Wikipedia, Japanese mC4, Japanese CommonCrawl, 日语专利, Stockmark Web Corpus (共 910B Tokens) 指令微调 (LoRA): ichikara-instruction | Stockmark | MIT |
Sarashina2 | Llama (7b, 13b, 70b) | 7b, 13b: 4,096 70b: 8,192 | 预训练: Japanese Common Crawl, SlimPajama, StarCoder (共 2.1T Tokens) | SB Intuitions | MIT |
Sarashina1 | GPT-NeoX (7b, 13b, 65b) | 2,048 | 预训练: Japanese Common Crawl (共 1T Tokens) | SB Intuitions | MIT |
CyberAgentLM3 (CALM3) | Llama (22b-chat) | 16,384 | 不明 (共 2.0T Tokens) | CyberAgent | Apache 2.0 |
LLM-jp-13B v2.0 | Llama (13b-v2.0, 13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0) | 4,096 | 预训练: llm-jp-corpus-v2 指令微调: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2 | LLM-jp | Apache 2.0 |
Fugaku-LLM | GPT (13B, 13B-instruct, 13B-instruct-gguf) | 2,048 | 预训练: 独家 指令微调: OASST1, Dolly Dataset, GSM8K | 东京工业大学, 东北大学, 富士通, 理化学研究所, 名古屋大学, CyberAgent, Kotoba Technologies | Fugaku-LLM 使用条款 |
LLM-jp-13B v1.1 | GPT (13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-dpo-lora-hh_rlhf_ja-v1.1) | 2,048 | 指令微调 (LoRA 或 全参数微调): Dolly Dataset, OASST1, ichikara-instruction DPO (LoRA): HH RLHF | LLM-jp | Apache 2.0 |
LLM-jp-13B | GPT ([1.3b-v1.0](https://huggingface.co/llm | ||||
Stockmark-13b | Llama (13b, 13b-instruct) | 2,048 | 事前学習: 日本語 Wikipedia、Japanese CC-100、Japanese mC4、Japanese CommonCrawl、日本語特許、Stockmark Web Corpus (計 220B トークン) Instruction Tuning (LoRA): ichikara-instruction | ストックマーク | baseモデル: MIT instructモデル: CC BY-NC-SA 4.0 |
Weblab-10B | GPT-NeoX (10b, 10b-instruction-sft) | 2,048 | Japanese mC4 + The Pile(計 600B トークン) *instruction-sft モデルは Alpaca Dataset, FLAN でファインチューニング | 東大 松尾研 | CC BY-NC 4.0 |
Japanese StableLM Alpha | GPT-NeoX (base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2) | 2,048 | Wikipedia, Japanese CC-100, Japanese mC4, Japanese OSCAR, RedPajama (+ 独自のデータセット)[^2] (計 750B トークン) *instruct モデルでは Alpaca Dataset, Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subsetでファインチューニング (v2では商用利用不可の Alpaca Dataset を除外) | Stability AI | baseモデル: Apache 2.0 instruct モデル (v1): 独自のライセンス instruct モデル (v2): Apache 2.0 |
CyberAgentLM2 (CALM2) | Llama (7b, 7b-chat, 7b-chat-dpo-experimental) | base: 4,096 chat: 32,768 | 一般公開されている日本語・英語のデータセット(詳細不明) (計 1.3T トークン) *dpo モデルは Chatbot Arena Conversations JA (calm2) Dataset を用いて DPO で学習 | サイバーエージェント | Apache 2.0 (dpo モデルのみ CC BY 4.0) |
OpenCALM | GPT-NeoX (small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b)) | 2,048 | 日本語 Wikipedia + Jpanese mC4 + Japanese CC-100 | サイバーエージェント | CC BY-SA 4.0 |
Stormy | GPT-NeoX (7b(6.8b)) | 2,048 | OpenCALM (6.8b) に対して llm-japanese-dataset v0 のうち翻訳タスクを除いたデータで LoRAチューニング | 東大 和泉研 | CC BY-SA 4.0 |
rinna GPT (英語やコードも含めて学習されたモデル) | GPT-NeoX (4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo) | 8kモデル: 8,192 他: 2,048 | Wikipedia, Japanese CC-100, Japanese C4, RedPajama, The Pile (計 524B トークン) *8k モデルでは 4,000トークンを超える長いトークン列でファインチューニング *instruction-sft モデルでは HH RLHF、FLAN でファインチューニング *instruction-ppo モデルでは HH RLHF で PPO ベースの強化学習 | rinna | MIT |
japanese-large-lm | GPT-NeoX (1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft) | 2,048 | 日本語 Wikipedia, Japanese CC-100, Japanese C4, Japanese OSCAR や独自データなど (計 650GB) *instruction-sft モデルでは OASST1 でファインチューニング | LINE | Apache 2.0 |
rinna GPT (日本語のみで学習されたモデル) | GPT または GPT-NeoX (xsmall, small, medium, 1b, neox-small, [neox-3.6b](https://hugging | ||||
ABEJA GPT | GPT 或者 GPT-NeoX (large, neox-2.7b) | 日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR | ABEJA | MIT | |
早大GPT | GPT (small, xl(1.5b)) | 日本語 Wikipedia + Japanese CC-100 | 早大 河原研 | CC BY-SA 4.0 | |
ストックマークGPT | GPT-NeoX (1.4b) | 日本語 Wikipedia (0.88B トークン) + Japanese CC-100 (10.5B トークン) + 独自のWebデータ (8.6B トークン) | ストックマーク | MIT | |
イエローバックGPT | GPT-NeoX (1.3b) | 日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR | イエローバック | Apache 2.0 | |
colorfulscoop GPT | GPT (small) | 日本語 Wikipedia | Colorful Scoop | CC BY-SA 3.0 | |
東工大GPT | GPT (medium, medium (逆方向)) [^3] | 日本語 Wikipedia + Japanese CC-100 | 東工大 岡崎研 | CC BY-SA 4.0 | |
京大GPT | GPT (small (文字レベル), medium (文字レベル), large (文字レベル)) | 日本語 Wikipedia (约2,700万句 (3.2GB)) + Japanese CC-100 (约6亿1,900万句 (85GB)) + Japanese OSCAR (约3亿2,600万句 (54GB)) | 京大 言语媒体研究室 | CC BY-SA 4.0 | |
日本語BART | BART (base, large) | 日本語 Wikipedia (约1,800万句) | 京大 言语媒体研究室 | CC BY-SA 4.0 | |
Megagon Labs T5 | T5 (base) | Japanese mC4 (87,425,304页 (782 GB)) + Japanese wiki40b (828,236篇文章 (2 GB)) | Megagon Labs (Recruit) | Apache 2.0 | |
<SOURCE_TEXT> | |||||
专用领域
领域 | 架构 | 训练文本 | 开发者 | 许可证 | |
---|---|---|---|---|---|
日本语对话Transformer | 对话 | Transformer | 来自Twitter的日语回复对 | NTT | 专有许可证 |
日本语新闻BART | 商业 | BART (base) | 日本语商业新闻文章(约2100万篇文章 (2.9亿句)) | Stockmark | MIT |
AcademicBART | 学术 | BART (base) | CiNii上的日语论文 | 爱媛大学人工智能研究室 | Apache 2.0 |
通过日本语进行附加预训练的海外模型(持续预训练模型)
通用
</SOURCE_TEXT>
基础LLM | 学习文本 | 开发者 | 许可证 | |
---|---|---|---|---|
cyberagent/Llama-3.1-70B-Japanese-Instruct-2407 | Llama 3.1 (70b) | 不明 | CyberAgent | Llama 3.1 社区许可证 |
Llama 3 Swallow 70B (70B-v0.1, 70B-Instruct-v0.1) | Llama 3 (70b) | 预训练: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath 指令调优: OASST1 [^17] | Swallow项目 | Llama 3 社区许可证 |
Llama 3 Youko 70B (70b, 70b-instruct, 70b-gptq, 70b-instruct-gptq) | Llama 3 (70b) | 预训练: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 自定义数据集 (总计 5B tokens) 指令调优: 自定义数据集[^11] | rinna | Llama 3 社区许可证 |
Swallow 70B (70b-hf, 70b-instruct-hf, 70b-instruct-v0.1, 70b-NVE-hf, 70b-NVE-instruct-hf) | Llama 2 (70b) | 预训练: 日本语 Wikipedia, RefinedWeb, Swallow Corpus, The Pile 指令调优: Dolly 数据集, HH RLHF, OASST1 *v0.1模型使用了 OASST1, OASST2 | Swallow项目 | Llama 2 社区许可证 |
KARAKURI LM (70b-v0.1, 70b-chat-v0.1) | Llama 2 (70b) | 预训练: mC4, CC100, OSCAR, RedPajama, 自定义数据集 (总计 16B tokens) SteerLM: OASST2, 自定义数据集 | Karakuri | Llama 2 社区许可证[^13] |
Japanese Stable LM Beta 70B (base-beta-70b, instruct-beta-70b) | Llama 2 (70b) | 预训练: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(除外Books3) (总计 100B tokens) 指令调优: Dolly 数据集, HH RLHF, OASST1 | Stability AI | Llama 2 社区许可证 |
Swallow-MX 8x7B (8x7b-NVE-v0.1) | Mixtral-8x7B-Instruct-v0.1 (46.7b) | 预训练: Algebraic Stack, 日本语 Wikipedia, RefinedWeb, Swallow Corpus, The Pile, The Vault | Swallow项目 | Apache 2.0 |
KARAKURI LM 8x7B Instruct v0.1 (8x7b-instruct-v0.1) | Mixtral-8x7B-Instruct-v0.1 (46.7b) | 针对 Swallow-MX 8x7B 使用以下数据集进行训练: Dolly 数据集, OASST2, HelpSteer, glaive-code-assistant-v3, glaive-function-calling-v2, synthetic_text_to_sql, MetaMathQA, orca-math-word-problems-200k, rag-dataset-12000, rag-hallucination-dataset-1000, 自定义数据集 | Karakuri | Apache 2.0 (?)[^12] |
KARAKURI LM 8x7B Chat v0.1 (8x7b-chat-v0.1) | Mixtral-8x7B-Instruct-v0.1 (46.7b) | 针对 Swallow-MX 8x7B SteerLM: OASST2, HelpSteer, 自定义数据集 | Karakuri | Apache 2.0 |
ABEJA-Mixtral-8x7B-japanese (8x7B-v0.1-japanese, 8x7B-Instruct-v0.1-japanese, 8x7B-Instruct-v0.1-japanese-alpha, 8x7B-Instruct-v0.1-japanese-alpha-merged) | Mixtral-8x7B-Instruct-v0.1 (46.7b) *只有未带Instruct的模型为 Mixtral-8x7B-v0.1 | 预训练: Japanese CC, Redpajama, 自定义 (总计 450B tokens) | ABEJA | Apache 2.0 |
Nekomata 14B (14b, 14b-instruction, 14b-gguf, 14b-instruction-gguf) | Qwen (14b) | 预训练: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, | ||
Llama 3 Swallow 8B (8B-v0.1, 8B-Instruct-v0.1) | Llama 3 (8b) | 事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath Instruction Tuning: OASST1 [^17] | Swallow Project | Llama 3 Community License |
Llama 3 Youko 8B (8b, 8b-instruct, 8b-gptq, 8b-instruct-gptq) | Llama 3 (8b) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 22B トークン) Instruction Tuning[^11]: Aya Dataset (Japanese subset), FLAN, Dolly Dataset, HH RLHF, OASST1, OASST2, MetaMathQA, CodeAlpaca Dataset, 独自のデータセット DPO: HelpSteer, HelpSteer2, 独自のデータセット | rinna | Llama 3 Community License |
Llama 3 ELYZA JP 8B (8B, 8B-GGUF, 8B-AWQ) | Llama 3 (8b) | 不明 | ELYZA | Llama 3 Community License |
Llama 3 neoAI 8B Chat v0.1 (8B-Chat-v0.1) | Llama 3 (8b) | 不明 | neoAI | Llama 3 Community License |
Swallow 7B (7b-hf, 7b-instruct-hf, 7b-instruct-v0.1, 7b-NVE-hf, 7b-NVE-instruct-hf, 7b-plus-hf) | Llama 2 (7b) | 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1モデルでは OASST1, OASST2 を使用 | Swallow Project | Llama 2 Community License |
LEIA-Swallow-7B (7b) | Llama 2 (7b) | Swallow 7B に対して LEIA で追加学習 | 個人 (山田育矢, 李凌寒) | Llama 2 Community License |
ELYZA-japanese-Llama-2-7b (7b, 7b-instruct, 7b-fast, 7b-fast-instruct) | Llama 2 (7b) | 事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど (計 18B トークン) Instruction Tuning: 独自のデータセット | ELYZA | Llama 2 Community License |
Youri 7B (7b, 7b-instruction, 7b-chat, 7b-gptq, 7b-instruction-gptq, 7b-chat-gptq) | Llama 2 (7b) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 40B トークン) Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部 | rinna | Llama 2 Community License |
houou-7b (instruction-7b-v1, instruction-7b-v2, instruction-7b-v3) | Llama 2 (7b) | Youri 7B (base) に対して Instruction Tuning: ichikara-instruction | マネーフォワード | Llama 2 Community License |
Japanese Stable LM Beta 7B (base-beta-7b, base-ja_vocab-beta-7b, instruct-beta-7b, [instruct-ja_vocab-beta-7b](https://huggingface | ||||
Japanese Stable LM Gamma 7B (base-gamma-7b, instruct-gamma-7b) | Mistral-7B-v0.1 (7b) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset | Stability AI | Apache 2.0 |
ChatNTQ JA 7B (7b-v1.0) | Mistral-7B-v0.1 (7b) | Japanese Stable LM Gamma 7B (base) に対して独自のデータセットで Instruction Tuning | NTQ Solution | Apache 2.0 |
Shisa Gamma 7B (7b-v1) | Mistral-7B-v0.1 (7b) | Japanese Stable LM Gamma 7B (base) に対して ultra-orca-boros-en-ja で Instruction Tuning | AUGMXNT | Apache 2.0 (?)[^12] |
Shisa 7B (base-7b-v1, 7b-v1) | Mistral-7B-v0.1 (7b) | 事前学習: shisa-pretrain-en-ja-v1 (8B トークン) Instruction Tuning & DPO: ultra-orca-boros-en-ja, shisa-en-ja-dpo-v1 | AUGMXNT | Apache 2.0 (?)[^12] |
Karasu (7B, 7B-chat, 7B-chat-plus, 7B-chat-plus-unleashed) | Mistral-7B-v0.1 (7b) | Shisa 7B (base) に対して以下のデータセットで追加事前学習: 青空文庫, 日本の法律・判例, 日本語 Wikipedia, CulturaX の日本ドメインのデータ, UltraChat 200k (計 7B トークン) Instruction Tuning: ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセット | Lightblue | Apache 2.0 (?)[^12] |
Nekomata 7B (7b, 7b-instruction, 7b-gguf, 7b-instruction-gguf) | Qwen (7b) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 66B トークン) Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部 | rinna | Tongyi Qianwen LICENSE |
lightblue/japanese-mpt-7b | MPT (7b) | Japanese mC4 | Lightblue | Apache 2.0 |
Japanese Stable LM 3B-4E1T (3b-4e1t-base, 3b-4e1t-instruct) | StableLM-3B-4E1T (3b) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset | Stability AI | Apache 2.0 |
kotomamba-2.8B-CL | mamba-2.8b-slimpj (2.8b) | 日本語 Wikipedia, Swallow Corpus, SlimPajama | Kotoba Technologies | Apache 2.0 |
Japanese Stable LM 2 1.6B (base, instruct) | Stable LM 2 1.6B (1.6b) | 事前学習: Wikipedia, CulturaX Instruction Tuning: jaster, ichikara-instruction, alpaca-gpt4-japanese, ultra-orca-boros-en-ja-v1 | Stability AI | STABILITY AI NON-COMMERCIAL RESEARCH COMMUNITY LICENSE |
karasu-1.1B | TinyLlama (1.1b) | 事前学習: Japanese OSCAR, Japanese mC4 (計 3B トークン) | Lightblue | Apache 2.0 |
<SOURCE_TEXT> | ||||
专业领域特化
领域 | 基础LLM | 开发者 | 许可证 | |
---|---|---|---|---|
Llama3-Preferred-MedSwallow-70B (70B) | 医疗 | Llama 3 (70b) | Preferred Networks | Llama 3 社区许可证 |
AIgroup-CVM-utokyohospital/MedSwallow-70b | 医疗 | Llama 2 (70b) | 东京大学医学部附属医院 心脏内科 AI小组 | CC BY-NC-SA 4.0 |
nekomata-14b-pfn-qfin (qfin, qfin-inst-merge) | 金融 | Qwen (14b) | Preferred Networks | 通义千问许可证 |
Watashiha-Llama-2-13B-Ogiri-sft (sft, sft-neuron) | 大喜利 | Llama 2 (13b) | わたしは | Llama 2 社区许可证 |
ELYZA-japanese-CodeLlama-7b (7b, 7b-instruct) | 编码 | Code Llama (7b) | ELYZA | Llama 2 社区许可证 |
AIBunCho/japanese-novel-gpt-j-6b | 故事生成 | GPT-J (6b) | 个人 (大曾根宏幸) | CreativeML OpenRAIL-M 许可证 |
NovelAI/genji-jp | 故事生成 | GPT-J (6b) | NovelAI | ? |
对海外模型进行仅指令调整 (Instruction Tuning) 的模型
通用
基础LLM | 训练文本 | 开发者 | 许可证 | |
---|---|---|---|---|
ao-Karasu (72B) | Qwen1.5 (72b) | ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 日语的公开技术博客, 新闻文章, QA网站的回答, 自定义数据集 | Lightblue | 通义千问许可证 (?)[^12] |
Llama 3 shisa-v1-llama3-70b (70b) | Llama 3 (70b) | ultra-orca-boros-en-ja-v1 | Shisa.AI | Llama 3 社区许可证 (?)[^12] |
AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japanese | Llama 2 (70b) | 东京大学医学部附属医院 心脏内科 AI小组 | Llama 2 社区许可证 | |
doshisha-mil/llama-2-70b-chat-4bit-japanese-v1 | Llama 2 (70b) | 同志社大学 媒体信息研究室 | ? | |
Qarasu (14B-chat-plus-unleashed) | Qwen (14b) | ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 自定义数据集 | Lightblue | 通义千问许可证 (?)[^12] |
Sparticle/llama-2-13b-chat-japanese-lora | Llama 2 (13b) | Sparticle | ? | |
izumi-lab/llama-13b-japanese-lora-v0-1ep | Llama (13b) | 东大 和泉研究室 | ? | |
Llama 3 Suzume 8B (8B-japanese, 8B-japanese-gguf) | Llama 3 (8b) | megagonlabs/instruction_ja, ShareGPT, 自定义数据集 | Lightblue | Llama 3 社区许可证 (?)[^12] |
Llama 3 shisa-v1-llama3-8b (8b) | Llama 3 (8b) | ultra-orca-boros-en-ja-v1 | Shisa.AI | Llama 3 社区许可证 (?)[^12] |
ganchengguang/Yoko-7B-Japanese-v1 | Llama 2 (7b) | 横滨国立大学 森研究室 | ? | |
Sparticle/llama-2-7b-chat-japanese-lora | Llama 2 (7b) | Sparticle | ? | |
izumi-lab/llama-7b-japanese-lora-v0-5ep | Llama (7b) | 东大 和泉研究室 | ? | |
lightblue/jod | Mistral-7B-SlimOrca (7b) | Lightblue | Apache 2.0 | |
NTQAI/chatntq-7b-jpntuned | RWKV-4 World (7b) | NTQ Solution | ? |
专业领域特化
领域 | 基础LLM | 开发者 | 许可证 | |
---|---|---|---|---|
[JMedLoRA](https://arxiv.org/pdf/2310.100 |
| | 架构 | 学习文本 | 开发者 | 许可证 | HuggingFace 直接使用? [^4] |
|:---|:---:|:---:|:---:|:---:|:---:|
| [京大BERT](https://nlp.ist.i.kyoto-u.ac.jp/?ku_bert_japanese) | BERT(基础版,大型版) | 日语维基百科(约1800万句) | 京都大学语言媒体研究室 | Apache 2.0 | △ |
| [东北大BERT](https://github.com/cl-tohoku/bert-japanese) | BERT(基础版,大型版) | 基础版(v1):<br>日语维基百科约1700万句(2.6GB)<br>基础版(v2)& 大型版:<br>日语维基百科约3000万句(4.0GB)<br>基础版(v3)& 大型版(v2):<br>日语维基百科约3400万句(4.9GB)<br>+ 日语CC-100约3亿9200万句(74.3GB) | 东北大学<br>自然语言处理研究小组 | 基础版(v1, v2)& 大型版:CC BY-SA 3.0<br>基础版(v3)& 大型版(v2):Apache 2.0 |◯ ([基础版(v1)](https://huggingface.co/tohoku-nlp/bert-base-japanese-whole-word-masking), [基础版(v1, 字符级)](https://huggingface.co/tohoku-nlp/bert-base-japanese-char-whole-word-masking), [基础版(v2)](https://huggingface.co/tohoku-nlp/bert-base-japanese-v2), [基础版(v2, 字符级)](https://huggingface.co/tohoku-nlp/bert-base-japanese-char-v2), [大型版](https://huggingface.co/tohoku-nlp/bert-large-japanese), [大型版(字符级)](https://huggingface.co/tohoku-nlp/bert-large-japanese-char), [基础版(v3)](https://huggingface.co/tohoku-nlp/bert-base-japanese-v3), [基础版(v3, 字符级)](https://huggingface.co/tohoku-nlp/bert-base-japanese-char-v3), [大型版(v2)](https://huggingface.co/tohoku-nlp/bert-large-japanese-v2), [大型版(v2, 字符级)](https://huggingface.co/tohoku-nlp/bert-large-japanese-char-v2)) |
| [NICT BERT](https://alaginrc.nict.go.jp/nict-bert/index.html) | BERT(基础版) | 日语维基百科 | NICT | CC BY 4.0 | △ |
| [Laboro BERT](https://github.com/laboroai/Laboro-BERT-Japanese) | BERT(基础版,大型版) | 日语网络语料库 <br>(新闻网站和博客等<br>共计4307个网站,2605280个页面(12GB)) | Laboro.AI | CC BY-NC 4.0 | ✕ |
| [colorfulscoop BERT](https://huggingface.co/colorfulscoop/bert-base-ja) | BERT(基础版) | 日语维基百科 | Colorful Scoop | CC BY-SA 3.0 | [◯](https://huggingface.co/colorfulscoop/bert-base-ja) |
| [东大BERT](https://sites.google.com/socsim.org/izumi-lab/tools/language-model) | BERT(小型版) | 日语维基百科(约2000万句(2.9GB)) | 东京大学和泉研究所 | CC BY-SA 4.0 | [◯](https://huggingface.co/izumi-lab/bert-small-japanese) |
| [chiTra (Sudachi Transformers)](https://www.worksap.co.jp/news/2022/0225/) | BERT(基础版) | 国语研日语网络语料库(NWJC)(148GB) | NINJAL, Works德岛人工智能NLP研究 | Apache 2.0 | △ |
| [ACCMS BERT](https://huggingface.co/ku-accms/bert-base-japanese-ssuw) | BERT(基础版) | 日语维基百科(3.3GB) | 京大ACCMS | CC BY-SA 4.0 | [◯](https://huggingface.co/ku-accms/bert-base-japanese-ssuw) |
| [日立BERT](https://aclanthology.org/2023.acl-srw.5.pdf) | BERT(基础版) | 日语维基百科 <br>+ 日语CC-100 | 日立制作所 | CC BY-NC-SA 4.0 | [◯](https://huggingface.co/hitachi-nlp/bert-base-japanese_jumanpp-bpe) [^6] |
| [RetrievaBERT](https://note.com/retrieva/n/n715bea2c2cd1) | BERT [^5] | Japanese CommonCrawl, RefinedWeb, 中文维基百科, 韩文维基百科, The Stack | Retrieva | Apache 2.0 | [◯](https://huggingface.co/retrieva-jp/bert-1.3b) |
| [Bandai Namco DistilBERT](https://github.com/BandaiNamcoResearchInc/DistilBERT-base-jp/blob/main/docs/GUIDE.md) | DistilBERT | - (东北大BERT(基础版)为父模型的知识蒸馏) | Bandai Namco Research | MIT | [◯](https://huggingface.co/bandainamco-mirai/distilbert-base-japanese) |
| [Laboro DistilBERT](https://github.com/laboroai/Laboro-DistilBERT-Japanese) | DistilBERT | - (Laboro BERT(基础版)为父模型的知识蒸馏)| Laboro.AI | CC BY-NC 4.0 | [◯](https://huggingface.co/laboro-ai/distilbert-base-japanese) |
| [LINE DistilBERT](https://engineering.linecorp.com/ja/blog/line-distilbert-high-performance-fast-lightweight-japanese-language-model) | DistilBERT | - (LINE社内的BERT为父模型的知识蒸馏)| LINE | Apache 2.0 | [◯](https://huggingface.co/line-corporation/line-distilbert-base-japanese) |
| [rinna RoBERTa](https://rinna.co.jp/news/2021/08/20210825.html) | RoBERTa(基础版) | 日语维基百科 <br>+ 日语CC-100 | rinna | MIT | [◯](https://huggingface.co/rinna/japanese-roberta-base) |
| [早大RoBERTa](https://huggingface.co/nlp-waseda/roberta-base-japanese-with-auto-jumanpp) | RoBERTa(基础版,大型版) | 日语维基百科 <br>+ 日语CC-100 | 早大河原研究所 | CC BY-SA 4.0 | ◯ ([基础版](https://huggingface.co/nlp-waseda/roberta-base-japanese-with-auto-jumanpp), [大型版](https://huggingface.co/nlp-waseda/roberta-large-japanese-with-auto-jumanpp), [大型版(seq512)](https://huggingface.co/nlp-waseda/roberta-large-japanese-seq512-with-auto-jumanpp)) [^7] |
| [信息学RoBERTa](https://www.informatix.co.jp/pr-roberta/) | RoBERTa(基础版) | 日语维基百科<br> + 网络上的文章(共25GB) | 信息学 | Apache 2.0 | △ |
| [京大RoBERTa](https://huggingface.co/ku-nlp/roberta-base-japanese-char-wwm) | RoBERTa(基础版,大型版) | 日语维基百科 <br>+ 日语CC-100 | 京大语言媒体研究室 | CC BY-SA 4.0 | ◯ ([基础版(字符级)](https://huggingface.co/ku-nlp/roberta-base-japanese-char-wwm), [大型版(字符级)](https://huggingface.co/ku-nlp/roberta-large-japanese-char-wwm)) |
| [横滨国大RoBERTa](https://huggingface.co/ganchengguang/RoBERTa-base-janpanese) | RoBERTa
| [京大DeBERTaV2](https://huggingface.co/ku-nlp/deberta-v2-base-japanese) | DeBERTaV2 (tiny, base, large) | 日本語 Wikipedia <br> + Japanese CC-100 <br> + Japanese OSCAR<br>(計171GB) | 京大 言語メディア研究室 | CC BY-SA 4.0 | ◯ ([tiny](https://huggingface.co/ku-nlp/deberta-v2-tiny-japanese), [tiny (文字レベル)](https://huggingface.co/ku-nlp/deberta-v2-tiny-japanese-char-wwm), [base](https://huggingface.co/ku-nlp/deberta-v2-base-japanese), [large](https://huggingface.co/ku-nlp/deberta-v2-large-japanese)) |
| [京大DeBERTaV3](https://huggingface.co/ku-nlp/deberta-v3-base-japanese) | DeBERTaV3 (base) | [llm-jp-corpus](https://github.com/llm-jp/llm-jp-corpus) | 京大 言語メディア研究室 | Apache 2.0 | [◯](https://huggingface.co/ku-nlp/deberta-v3-base-japanese) |
| [東大DeBERTaV2](https://sites.google.com/socsim.org/izumi-lab/tools/language-model) | DeBERTaV2 (small, base) | 日本語 Wikipedia, 日本語 Wikinews, Japanese CC-100, Japanese mC4, Japanese OSCAR | 東大 和泉研 | CC BY-SA 4.0 | ◯ ([small](https://huggingface.co/izumi-lab/deberta-v2-small-japanese), [base](https://huggingface.co/izumi-lab/deberta-v2-base-japanese)) |
| [GLOBIS DeBERTaV3](https://qiita.com/akeyhero/items/d7c215ceac37b7d3290a) | DeBERTaV3 (xsmall, base, large) | Wikipedia, WikiBooks, 青空文庫, Japanese CC-100, Japanese mC4, Japanese OSCAR | グロービス | CC BY-SA 4.0 | ◯ ([xsmall](https://huggingface.co/globis-university/deberta-v3-japanese-xsmall), [base](https://huggingface.co/globis-university/deberta-v3-japanese-base), [large](https://huggingface.co/globis-university/deberta-v3-japanese-large)) |
| [日本語BigBird](https://huggingface.co/nlp-waseda/bigbird-base-japanese) | BigBird (base) | 日本語 Wikipedia <br> + Japanese CC-100 <br> + Japanese OSCAR | 早大 河原研 | CC BY-SA 4.0 | [◯](https://huggingface.co/nlp-waseda/bigbird-base-japanese) |
| [日本語LayoutLM](https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/Q2-7.pdf) | LayoutLM (base) | 東北大BERT (base, v2) で重みを初期化した上で、日本語 Wikipedia の文章とレイアウトで事前学習 | 日本総合研究所 | CC BY-SA 3.0 | [◯](https://huggingface.co/jri-advtechlab/layoutlm-wikipedia-ja) |
<a id="autoencoding-domain-specific"></a>
### 域名特化型
| | 域名 | 架构 | 学习文本 | 开发者 | 许可证 | HuggingFace 上可用吗? |
|:---|:---:|:---:|:---:|:---:|:---:|:---:|
| [日本语新闻BERT](https://qiita.com/mkt3/items/3c1278339ff1bcc0187f) | 商业 | BERT (base) | 日本语商业新闻文章(300万篇) | Stockmark | CC BY 4.0 | △ |
| [日本语新闻XLNet](https://qiita.com/mkt3/items/4d0ae36f3f212aee8002) | 商业 | XLNet (base) | 日本语商业新闻文章(300万篇) | Stockmark | ? | ※ 已非官方转换为 HuggingFace 模型并[公开](https://huggingface.co/hajime9652/xlnet-japanese) |
| [日本语新闻ALBERT](https://qiita.com/mkt3/items/b41dcf0185e5873f5f75) | 商业 | ALBERT (base) | 日本语商业新闻文章(300万篇) | Stockmark | ? | △ |
| [日本语博客ELECTRA](https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/E2-5.pdf) | 口语 | ELECTRA (small) | 日本语博客语料库(3亿5,400万句) | 北见工大 桝井・普塔辛斯基研究室 | CC BY-SA 4.0 | [◯](https://huggingface.co/ptaszynski/yacis-electra-small-japanese) |
| [日本语口语BERT](https://tech.retrieva.jp/entry/2021/04/01/114943) | 口语 | BERT (base) | 对东北大BERT进行了追加学习,使用了日本语口语语料库(CSJ)<br>(DAPT模型还使用了国会记录数据) | Retrieva | Apache 2.0 | [◯](https://huggingface.co/retrieva-jp/japanese-spoken-language-bert) |
| [日本语金融BERT](https://sites.google.com/socsim.org/izumi-lab/tools/language-model) | 金融 | BERT (small, base) [^9] | 日本语 Wikipedia<br> + 日本语金融语料库 (约2,700万句 (5.2GB)) | 东大 和泉研究室 | CC BY-SA 4.0 |◯ ([small](https://huggingface.co/izumi-lab/bert-small-japanese-fin), [base](https://huggingface.co/izumi-lab/bert-base-japanese-fin-additional)) |
| [日本语金融ELECTRA](https://sites.google.com/socsim.org/izumi-lab/tools/language-model) | 金融 | ELECTRA (small) | 日本语 Wikipedia (约2,000万句 (2.9GB)) <br> + 日本语金融语料库 (约2,700万句 (5.2GB)) | 东大 和泉研究室 | CC BY-SA 4.0 | [◯](https://huggingface.co/izumi-lab/electra-small-japanese-fin-discriminator) |
| [UTH-BERT](https://ai-health.m.u-tokyo.ac.jp/home/research/uth-bert) | 医疗 | BERT (base) | 日本语诊疗记录(约1亿2,000万行) | 东大医院 <br> 医疗AI开发学讲座 | CC BY-NC-SA 4.0 | △ |
| [medBERTjp](https://github.com/ou-medinfo/medbertjp) | 医疗 | BERT (base) | 日本语 Wikipedia <br> + 日本语医疗语料库(《今日的诊疗高级版》网络版) | 大阪大学医院 <br> 医疗信息学研究室 | CC BY-NC-SA 4.0 | △ |
| [JMedRoBERTa](https://www.anlp.jp/proceedings/annual_meeting/2023/pdf_dir/P3-1.pdf) | 医疗 | RoBERTa (base) | 日本语医学论文 (约1,100万句 (1.8GB)) | 东大 相泽研究室 | CC BY-NC-SA 4.0 | ◯ ([万病WordPiece](https://huggingface.co/alabnii/jmedroberta-base-manbyo-wordpiece), [SentencePiece](https://huggingface.co/alabnii/jmedroberta-base-sentencepiece)) [^10] |
| [AcademicRoBERTa](https://github.com/EhimeNLP/AcademicRoBERTa) | 学术 | RoBERTa (base) | CiNii 的日本语论文 (约628万句) | 爱媛大学 人工智能研究室 | Apache 2.0 | [◯](https://huggingface.co/EhimeNLP/AcademicRoBERTa) |
| [民族博物馆BERT](https://proceedings-of-deim.github.io/DEIM2022/papers/F43-4.pdf) | 文化遗产 | BERT (base) | 对东北大BERT进行了追加学习,使用了国立民族学博物馆的文化遗产数据 | 兵库县立大学 大岛研究室 | MIT | ◯ ([minpaku-v1](https://huggingface.co/ohshimalab/bert-base-minpaku-v1), [minpaku-v3](https://huggingface.co/ohshimalab/bert-base-minpaku-v3), [minpaku-v3-no-additional-token](https://huggingface.co/ohshimalab/bert-base-minpaku-v3-no-additional-token)) |
| [local-politics-BERT](http://local-politics.jp/%e5%85%ac%e9%96%8b%e7%89%a9/local-politics-bert/) | 政治 | BERT (base) | Wikipedia, 国会会议记录, 地方议会会议记录 | 地方议会会议记录语料库项目 | CC BY-SA 4.0 | ◯ ([SC-min](https://huggingface.co/local-politics-jp/bert-base-japanese-minutes-scratch), [SC-minwiki](https://huggingface.co/local-politics-jp/bert-base-japanese-minutes-wikipedia-scratch), [SC-2M-wiki](https://huggingface.co/local-politics-jp/bert-base-japanese-wikipedia-scratch-2m), [SC-2M-min](https://huggingface.co/local-politics-jp/bert-base-japanese-minutes-scratch-2m), [SC-2M-minwiki](https://huggingface.co/local-politics-jp/bert-base-japanese-minutes-wikipedia-scratch-2m), [FP-min](https://huggingface.co/local-politics-jp/bert-base-japanese-minutes-further), [FP-minwiki](https://huggingface.co/local-politics-jp/bert-base-japanese-minutes-wikipedia-further)) [^18] |
<a id="embeddings"></a>
## 专注于嵌入 (Embeddings) 生成的模型
| | 架构 | 开发者 | 许可证 |
|:---|:---:|:---:|:---:|
| [JaColBERT](https://arxiv.org/pdf/2312.16144.pdf)<br>([JaColBERT](https://huggingface.co/bclavie/JaColBERT), [JaColBERTv2](https://huggingface.co/bclavie/JaColBERTv2)) | ColBERT | 个人 ([Benjamin Clavié](https://scholar.google.com/citations?user=vuMln98AAAAJ)) | MIT |
| [Japanese SimCSE](https://github.com/hppRC/simple-simcse-ja)<br>([cl-nagoya/unsup-simcse-ja-base](https://huggingface.co/cl-nagoya/unsup-simcse-ja-base), [cl-nagoya/unsup-simcse-ja-large](https://huggingface.co/cl-nagoya/unsup-simcse-ja-large), [cl-nagoya/sup-simcse-ja-base](https://huggingface.co/cl-nagoya/sup-simcse-ja-base), [cl-nagoya/sup-simcse-ja-large](https://huggingface.co/cl-nagoya/sup-simcse-ja-large)) | SimCSE | 名古屋大学 武田・笹野实验室 | CC BY-SA 4.0 |
| [GLuCoSE](https://prtimes.jp/main/html/rd/p/000000123.000022705.html)<br>([pkshatech/GLuCoSE-base-ja](https://huggingface.co/pkshatech/GLuCoSE-base-ja)) | 基于LUKE的句子嵌入模型<br>(GLuCoSE) | PKSHA Technology | Apache 2.0 |
||||
| [colorfulscoop/sbert-base-ja](https://huggingface.co/colorfulscoop/sbert-base-ja) | Sentence-BERT | Colorful Scoop | CC BY-SA 4.0 |
| [MU-Kindai/SBERT-JSNLI-base](https://huggingface.co/MU-Kindai/SBERT-JSNLI-base)<br>[MU-Kindai/SBERT-JSNLI-large](https://huggingface.co/MU-Kindai/SBERT-JSNLI-large) | Sentence-BERT | 近畿大学 (研究室不明) | ? |
| [MU-Kindai/Japanese-SimCSE-BERT-base-unsup](https://huggingface.co/MU-Kindai/Japanese-SimCSE-BERT-base-unsup)<br>[MU-Kindai/Japanese-SimCSE-BERT-large-unsup](https://huggingface.co/MU-Kindai/Japanese-SimCSE-BERT-large-unsup)<br>[MU-Kindai/Japanese-SimCSE-RoBERTa-base-unsup](https://huggingface.co/MU-Kindai/Japanese-SimCSE-RoBERTa-base-unsup)<br>[MU-Kindai/Japanese-SimCSE-BERT-base-sup](https://huggingface.co/MU-Kindai/Japanese-SimCSE-BERT-base-sup)<br>[MU-Kindai/Japanese-SimCSE-BERT-large-sup](https://huggingface.co/MU-Kindai/Japanese-SimCSE-BERT-large-sup) | SimCSE | 近畿大学 (研究室不明) | MIT |
| [pkshatech/simcse-ja-bert-base-clcmlp](https://huggingface.co/pkshatech/simcse-ja-bert-base-clcmlp) | SimCSE | PKSHA Technology | CC BY-SA 4.0 |
| [MU-Kindai/Japanese-MixCSE-BERT-base](https://huggingface.co/MU-Kindai/Japanese-MixCSE-BERT-base)<br>[MU-Kindai/Japanese-MixCSE-BERT-large](https://huggingface.co/MU-Kindai/Japanese-MixCSE-BERT-large) | MixCSE | 近畿大学 (研究室不明) | MIT |
| [MU-Kindai/Japanese-DiffCSE-BERT-base](https://huggingface.co/MU-Kindai/Japanese-DiffCSE-BERT-base) | DiffCSE | 近畿大学 (研究室不明) | MIT |
| [cl-nagoya/shioriha-large-pt](https://huggingface.co/cl-nagoya/shioriha-large-pt) | | 名古屋大学 武田・笹野实验室 | |
<a id="multimodal"></a>
## 视觉语言模型 (Vision-Language Models)
<a id="multimodal-text-generation"></a>
### 从图像+文本生成文本
<a id="multimodal-general"></a>
#### 通用
| | 架构 | 训练图像/文本 | 开发者 | 许可证 |
|:---|:---:|:---:|:---:|:---:|
| [llava-calm2-siglip](https://www.cyberagent.co.jp/news/detail/id=30344)<br>([llava-calm2-siglip](https://huggingface.co/cyberagent/llava-calm2-siglip)) | LLaVA-1.5 | MS-COCO 和 VisualGenome 生成的对话数据 | CyberAgent | Apache 2.0 |
| [EvoVLM-JP](https://sakana.ai/evolutionary-model-merge-jp/)<br>([v1-7B](https://huggingface.co/SakanaAI/EvoVLM-JP-v1-7B)) | - | - (Shisa Gamma 7B (v1) 和 LLaVA-1.6-Mistral-7B 合并) | Sakana AI | Apache 2.0 |
| [Heron](https://github.com/turingmotors/heron/blob/main/docs/README_JP.md)<br>([blip-ja-stablelm-base-7b-v0](https://huggingface.co/turing-motors/heron-chat-blip-ja-stablelm-base-7b-v0), [blip-ja-stablelm-base-7b-v1](https://huggingface.co/turing-motors/heron-chat-blip-ja-stablelm-base-7b-v1), [blip-ja-stablelm-base-7b-v1-llava-620k](https://huggingface.co/turing-motors/heron-chat-blip-ja-stablelm-base-7b-v1-llava-620k), [git-ja-stablelm-base-7b-v0](https://huggingface.co/turing-motors/heron-chat-git-ja-stablelm-base-7b-v0), [git-ELYZA-fast-7b-v0](https://huggingface.co/turing-motors/heron-chat-git-ELYZA-fast-7b-v0), [git-ja-stablelm-base-7b-v1](https://huggingface.co/turing-motors/heron-chat-git-ja-stablelm-base-7b-v1)) | BLIP-2 或 GIT | v1: LLaVA-Instruct-150K-JA 或 LLaVA-Instruct-620K-JA<br>v0: LLaVA-Instruct-150K-JA, Japanese STAIR Captions, Japanese Visual Genome VQA dataset | Turing | CC BY-NC 4.0 |
| [Japanese Stable VLM](https://ja.stability.ai/blog/japanese-stable-vlm)<br>([japanese-stable-vlm](https://huggingface.co/stabilityai/japanese-stable-vlm)) | LLaVA-1.5 | Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA dataset | Stability AI | STABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE |
| [Japanese InstructBLIP Alpha](https://ja.stability.ai/blog/japanese-instructblip-alpha)<br>([japanese-instructblip-alpha](https://huggingface.co/stabilityai/japanese-instructblip-alpha)) | InstructBLIP | Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA dataset | Stability AI | JAPANESE STABLELM RESEARCH LICENSE |
| [rinna MiniGPT-4](https://rinna.co.jp/news/2023/07/20230731.html)<br>([bilingual-gpt-neox-4b-minigpt4](https://huggingface.co/rinna/bilingual-gpt-neox-4b-minigpt4)) | MiniGPT-4 | CC12M, COCO 2014, Visual Genome, STAIR Captions, Japanese Visual Genome VQA dataset | rinna | MIT |
<a id="multimodal-domain-specific"></a>
#### 特定领域
| | 架构 | 领域 | 开发者 | 许可证 |
|:---|:---:|:---:|:---:|:---:|
| [watashiha/Watashiha-Llama-2-13B-Ogiri-sft-vlm](https://huggingface.co/watashiha/Watashiha-Llama-2
その他
| | 架构 | 学习图片/文本 | 开发者 | 许可证 |
|:---|:---:|:---:|:---:|:---:|
| [LINE雅虎CLIP](https://techblog.lycorp.co.jp/ja/20240514b)<br>([clip-japanese-base](https://huggingface.co/line-corporation/clip-japanese-base)) | CLIP | CommonCrawl, CC12M, YFCC100M | LINE雅虎 | Apache 2.0 |
| [Recruit CLIP](https://blog.recruit.co.jp/data/articles/japanese-clip/)<br>([japanese-clip-vit-b-32-roberta-base](https://huggingface.co/recruit-jp/japanese-clip-vit-b-32-roberta-base)) | CLIP | laion2B-multi的约1.2亿条字幕 | Recruit | CC BY-4.0 |
| [Japanese Stable CLIP](https://ja.stability.ai/blog/japanese-stable-clip)<br>([japanese-stable-clip-vit-l-16](https://huggingface.co/stabilityai/japanese-stable-clip-vit-l-16)) | SigLIP | CC12M的字幕翻译成日语, STAIR Captions | Stability AI | STABILITY AI JAPANESE STABLE CLIP COMMUNITY LICENSE |
| [rinna CLIP](https://rinna.co.jp/news/2022/05/20220512.html)<br>([japanese-clip-vit-b-16](https://huggingface.co/rinna/japanese-clip-vit-b-16)) | CLIP | CC12M的字幕翻译成日语 | rinna | Apache 2.0 |
| [rinna CLOOB](https://rinna.co.jp/news/2022/05/20220512.html)<br>([japanese-cloob-vit-b-16](https://huggingface.co/rinna/japanese-cloob-vit-b-16)) | CLOOB | CC12M的字幕翻译成日语 | rinna | Apache 2.0 |
| [博报堂技术CLIP](https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/B6-5.pdf)<br>([base](https://huggingface.co/hakuhodo-tech/japanese-clip-vit-h-14-bert-base), [deeper](https://huggingface.co/hakuhodo-tech/japanese-clip-vit-h-14-bert-deeper), [wider](https://huggingface.co/hakuhodo-tech/japanese-clip-vit-h-14-bert-wider)) | CLIP | laion2B-multi的约1.2亿条字幕 | 博报堂技术 | CC BY-NC-SA 4.0 |
## 语音语言模型 (Speech-Language Models)
### 语音识别
| | 架构 | 学习语料库 | 开发者 | 许可证 |
|:---|:---:|:---:|:---:|:---:|
| [Kotoba-Whisper](https://huggingface.co/kotoba-tech/kotoba-whisper-v1.0)<br>([v1.0](https://huggingface.co/kotoba-tech/kotoba-whisper-v1.0), [v1.0-ggml](https://huggingface.co/kotoba-tech/kotoba-whisper-v1.0-ggml), [v1.0-faster](https://huggingface.co/kotoba-tech/kotoba-whisper-v1.0-faster), [v1.1](https://huggingface.co/kotoba-tech/kotoba-whisper-v1.1)) | Distil-Whisper | ReazonSpeech | Kotoba Technologies | Apache 2.0 |
| [Nue ASR](https://rinna.co.jp/news/2023/12/20231207.html)<br>([nue-asr](https://huggingface.co/rinna/nue-asr)) | Nue ASR<br>(HuBERT + LLM) | ReazonSpeech | rinna | Apache 2.0 |
| [ReazonSpeech](https://research.reazon.jp/projects/ReazonSpeech/)<br>([espnet-v1](https://huggingface.co/reazon-research/reazonspeech-espnet-v1), [espnet-next](https://huggingface.co/reazon-research/reazonspeech-espnet-next), [espnet-v2](https://huggingface.co/reazon-research/reazonspeech-espnet-v2), [nemo-v2](https://huggingface.co/reazon-research/reazonspeech-nemo-v2)) | ESPnet (Conformer-Transducer) 或 NeMo (FastConformer-RNNT) | ReazonSpeech | Reazon Holdings | Apache 2.0 |
### 其他
| | 架构 | 学习语料库 | 开发者 | 许可证 |
|:---|:---:|:---:|:---:|:---:|
| [Kotoba-Speech](https://huggingface.co/kotoba-tech/kotoba-speech-v0.1)<br>([v0.1](https://huggingface.co/kotoba-tech/kotoba-speech-v0.1)) | Transformer | 不明 | Kotoba Technologies | Apache 2.0 |
| [东京大学HuBERT](https://huggingface.co/sarulab-speech/hubert-base-jtube)<br>([base-jtube](https://huggingface.co/sarulab-speech/hubert-base-jtube)) | HuBERT | JTubeSpeech | 东京大学 猿渡・高道研究室 | MIT |
| [rinna HuBERT](https://rinna.co.jp/news/2023/04/20230428.html)<br>([base](https://huggingface.co/rinna/japanese-hubert-base), [large](https://huggingface.co/rinna/japanese-hubert-large)) | HuBERT | ReazonSpeech | rinna | Apache 2.0 |
## 日语LLM评估基准/数据集总结
### 综合型基准
| | 说明 | 开发者 |
|:---|:---:|:---:|
| [Nejumi LLM排行榜3](https://api.wandb.ai/links/wandb-japan/psrsl8gu) | 从语言理解能力、应用能力和对齐性(包括可控性、安全性)三个方面评估LLM的日语能力。详情请参阅[这篇文章](https://note.com/wandb_jp/n/nd4e54c2020ce) | Weights & Biases |
| [日语LLM评估](https://swallow-llm.github.io/evaluation/index.ja.html) | 综合评估各种LLM在日语理解与生成任务、日语多轮对话任务、英语理解与生成任务中的表现。此外,还公开了一个整合并改进现有LLM评估工具的评估脚本[swallow-evaluation](https://github.com/swallow-llm/swallow-evaluation) | Swallow Project |
### 以基础自然语言理解 (NLU) 为主的基准/数据集
<SOURCE_TEXT>
| | 说明 | 开发者 |
|:---|:---|:---:|
| <a id="llm-jp-eval"></a> [llm-jp-eval](https://github.com/llm-jp/llm-jp-eval) | 是一个跨多个数据集自动评估日语LLM的工具。<br>支持的所有数据集列表可以在[此处](https://github.com/llm-jp/llm-jp-eval/tree/main/src/llm_jp_eval/jaster)查看(其中包括JNLI和JCommonsenseQA等JGLUE任务)。<br>评估结果汇总在[llm-jp-eval排行榜](http://wandb.me/llm-jp-leaderboard)。 | LLM-jp |
| [JP Language Model Evaluation Harness](https://github.com/Stability-AI/lm-evaluation-harness/tree/jp-stable) | 由Stability AI基于[EleutherAI/lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness)开发的分支工具。是一个跨多个数据集自动评估日语LLM的工具。<br>支持的所有数据集列表可以在[此处](https://github.com/Stability-AI/lm-evaluation-harness/tree/jp-stable/lm_eval/tasks/ja)查看(其中包括JNLI和JCommonsenseQA等JGLUE任务)。<br>rinna提供了详细的评估结果总结: [[rinna] Stability-AI/lm-evaluation-harness基准测试](https://rinnakk.github.io/research/benchmarks/lm/) | Stability AI |
| [JGLUE](https://github.com/yahoojapan/JGLUE) | 作为[GLUE基准测试](https://gluebenchmark.com/)的日语版本构建的基准测试。包含MARC-ja, JCoLA, JSTS, JNLI, JSQuAD, JCommonsenseQA共6个任务([JCoLA](https://github.com/osekilab/JCoLA)由东大大关研开发)。各任务的详细信息可参阅[此处](https://www.jstage.jst.go.jp/article/jnlp/30/1/30_63/_article/-char/ja)和[此处](https://techblog.yahoo.co.jp/entry/2022122030379907/)。 | 早大河原研, 雅虎 |
| [JMMLU](https://github.com/nlp-waseda/JMMLU) | 作为[MMLU基准测试](https://github.com/hendrycks/test)的日语版本构建的基准测试。涵盖自然科学、人文学科、社会科学的广泛学术领域的四选一问题。除了翻译原有的MMLU外,还新增了基于日本独特文化背景的问题(日本问题)。 | 早大河原研 |
| [日语 Open LLM 排行榜](http://wandb.me/llm-jp-openllmleaderboard) | 对日语LLM进行与Huggingface的[Open LLM 排行榜](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)相同的验证。可以查看日语LLM在英语任务中的表现。 | LLM-jp |
<a id="open-ended-benchmark-suites"></a>
### 以人类化回应生成能力为中心的基准测试/数据集
| | 说明 | 开发者 |
|:---|:---|:---:|
| <a id="jp-mt-bench"></a> [Japanese MT-bench](https://github.com/Stability-AI/FastChat/tree/jp-stable/fastchat/llm_judge) | 是用于评估多轮对话能力的[MT-bench](https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge)的日语版本。包括Writing, Roleplay, Reasoning, Math, Coding, Extraction, STEM, Humanities八大类,每类10题,共80题。制作日语版本时,部分问题内容已根据日本文化进行调整。<br>还包含由GPT-4进行10分制绝对评价的脚本。 | Stability AI |
| <a id="rakuda-benchmark"></a> [Rakuda Benchmark](https://github.com/yuzu-ai/japanese-llm-ranking) | 让模型对关于日本地理、历史、政治、社会的[40道开放性问题](https://huggingface.co/datasets/yuzuai/rakuda-questions)作答。通过GPT-4比较两个模型对同一问题的回答,并判断哪个答案更优,以此对模型进行排名。 | YuzuAI |
| <a id="elyza-tasks"></a> [ELYZA-tasks-100](https://huggingface.co/datasets/elyza/ELYZA-tasks-100) | 包含100条复杂指令任务的日语数据,每条数据均带有评价标准注释。<br>包括修改摘要并解释修改部分的任务,从具体事件中总结抽象教训的任务,作为理解用户意图并提供帮助的AI助手的任务,涉及情况分类的复杂数学任务,从未知语言中提取模式并进行日语翻译的高级推理任务,结合多条指令生成YouTube对话的任务,以及与虚构生物和成语相关的生成任务等。 | ELYZA |
| [Japanese Vicuna QA Benchmark](https://github.com/ku-nlp/ja-vicuna-qa-benchmark) | 是[vicuna-blog-eval](https://github.com/lm-sys/vicuna-blog-eval)的日语版,MT-Bench的前身。包含关于一般知识、角色扮演、常识、费米估计、反事实假设、编码、数学、写作等80个问题。此外,还包含GPT-4的自动评估(胜率计算)脚本。排行榜在[此处](http://wandb.me/llm-jp-vicunaleaderboard)。 | 京大语言媒体研究室 |
| <a id="tengu-bench"></a> [Tengu-Bench](https://huggingface.co/datasets/lightblue/tengu_bench) | 收录了来自各类问题的120个开放性问题。问题类别包括:表格解读、逻辑谜题、创意生成、函数调用、长文档摘要(超过千标记)、对话摘要、长文档闭合QA(超过千标记)、敬语、项目创建、数学、翻译、提取、伦理控制、成本估算、日本、闲聊、双关语、格式、建筑、商务、法律判断、政治、虚构问题。 | Lightblue |
| [Shaberi](https://github.com/lightblue-tech/japanese_llm_eval) | 是一个可以综合评估[Japanese MT-bench](#jp-mt-bench)、[Rakuda Benchmark](#rakuda-benchmark)、[ELYZA-tasks-100](#elyza-tasks)、[Tengu-Bench](#tengu-bench)的框架。另有Shisa.AI的[分支版本](https://github.com/shisa-ai/shaberi)。 | Lightblue |
<a id="logical-reasoning-benchmark-suites"></a>
### 逻辑推理能力基准测试/数据集
| | 说明 | 开发者 |
|:---|:---|:---:|
| [JFLD (Japanese Formal Logic Deduction)](https://aclanthology.org/2024.lrec-main.832/) | 是用于评估日语LLM演绎推理能力的数据集(与同一作者提出的[FLD (Formal Logic Deduction)](https://github.com/hitachi-nlp/FLD)类似的日语版)。为与LLM的知识分离,数据集由反事实样本构成。 | 日立制作所 |
| [JHumanEval](https://huggingface.co/datasets/kogi-jwu/jhumaneval) | 是用于评估从英语指令生成Python代码能力的基准测试[HumanEval](https://huggingface.co/datasets/openai_humaneval)的日语版。在制作日语版时,首先进行机器翻译,然后再进行人工修正。 | 日本女子大学 仓光研究室 |
<a id="controllabilitiy-benchmark-suites"></a>
### 受控生成能力基准测试/数据集
</SOURCE_TEXT>
| | Description | Developer |
|:---|:---|:---:|
| [LCTG Bench](https://github.com/CyberAgentAILab/LCTG-Bench) | A Japanese LLM controllability benchmark. Evaluates whether the LLM adheres to constraints across four perspectives: output format, character count, keywords, and prohibited words. It also assesses the quality of the generated text. | CyberAgent |
<a id="domain-specific-benchmark-suites"></a>
### Benchmarks/Datasets for Evaluating Performance in Specific Domains
| | Description | Developer |
|:---|:---|:---:|
| [Japanese Language Model Financial Evaluation Harness](https://github.com/pfnet-research/japanese-lm-fin-harness) | A Japanese LLM benchmark for the financial domain. Includes tasks such as sentiment analysis in the financial domain (chabsa), fundamental knowledge tasks in securities analysis (cma_basics), audit tasks in the Certified Public Accountant exam (cpa_audit), multiple-choice tasks in the Financial Planner exam (fp2), and a mock test task in the Securities Sales Representative exam (security_sales_1). For details, refer to [this document](https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/C6-4.pdf). | Preferred Networks |
| [pfmt-bench-fin-ja](https://github.com/pfnet-research/pfmt-bench-fin-ja) | A benchmark for measuring the generation capabilities of Japanese LLMs in the financial domain. | Preferred Networks |
| [Stockmark Business Questions](https://huggingface.co/datasets/stockmark/business-questions) | Contains 50 questions covering knowledge on market trends, current events, social issues, and business trends. | Stockmark |
| [JMED-LLM](https://github.com/sociocom/JMED-LLM) | A dataset for evaluating Japanese LLMs in the medical field. It compiles previously developed Japanese medical language processing tasks for LLM benchmarking. | NAIST Social Computing Laboratory |
| [karakuri-bench](https://huggingface.co/datasets/karakuri-ai/karakuri-bench-v0.1) | A dataset for measuring the performance of Japanese LLMs in customer support. | Karakuri |
<a id="embeddings-benchmark-suites"></a>
### Benchmarks/Datasets for Embedding Models
| | Description | Developer |
|:---|:---|:---:|
| [JMTEB](https://www.sbintuitions.co.jp/blog/entry/2024/05/16/130848) | A benchmark created as the Japanese version of [MTEB](https://github.com/embeddings-benchmark/mteb).<br>It consists of five tasks: document clustering, document classification, sentence similarity, sentence pair label prediction, and document retrieval (with a re-ranking task added later). | SB Intuitions |
<a id="vl-benchmark-suites"></a>
### Benchmarks/Datasets for Vision-Language Models
| | Description | Developer |
|:---|:---|:---:|
| [Heron VLM Leaderboard powered by nejumi@WandB](https://api.wandb.ai/links/vision-language-leaderboard/h2lxge4n) | Summarizes the evaluation results of [Japanese-Heron-Bench](#japanese-heron-bench) and [LLaVA-Bench-In-the-Wild (Japanese)](#llava-bench-in-the-wild). | Turing, Weights & Biases |
| <a id="japanese-heron-bench"></a> [Japanese-Heron-Bench](https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench) | Assigns a total of 102 questions to 21 images. The images and questions require knowledge related to Japan. | Turing |
| [JA-VLM-Bench-In-the-Wild](https://huggingface.co/datasets/SakanaAI/JA-VLM-Bench-In-the-Wild) | A dataset independently prepared by Sakana AI for evaluating EvoVLM-JP-v1-7B. A total of 50 questions are assigned to 42 images. The images and questions require knowledge related to Japan. | Sakana AI |
| <a id="llava-bench-in-the-wild"></a> [LLaVA-Bench-In-the-Wild (Japanese)](https://github.com/turingmotors/heron/tree/main/playground/data/llava-bench-in-the-wild) | A Japanese translation of [LLaVA-Bench-In-the-Wild](https://huggingface.co/datasets/liuhaotian/llava-bench-in-the-wild) done by DeepL. Assigns a total of 60 questions to 24 images. | Turing |
| [LLaVA-Bench (COCO) Japanese](https://github.com/turingmotors/heron/tree/main/playground/data/llava-bench-ja) | A Japanese translation of the LLaVA-Bench (COCO) dataset used for LLaVA evaluation, done by DeepL. Three types of questions are assigned to each of 30 images. | Turing |
<a id="reference"></a>
## Original Papers on Each Model/Architecture
| 模型/架构 | 首次发布时间 | 会议/期刊 | 论文 |
|:---|:---|:---|:--|
| Transformer | 2017.06.12 | NIPS(NeurIPS) 2017 | [Attention Is All You Need](https://arxiv.org/abs/1706.03762) |
| GPT | 2018.06.11 | - | [Improving Language Understanding by Generative Pre-Training](https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf) |
| BERT | 2018.10.11 | NAACL 2019 | [BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding](https://aclanthology.org/N19-1423/) |
| GPT-2 | 2019.02.14 | - | [Language Models are Unsupervised Multitask Learners](https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf) |
| XLNet | 2019.06.19 | NeurIPS 2019 | [XLNet: Generalized Autoregressive Pretraining for Language Understanding](https://arxiv.org/abs/1906.08237) |
| RoBERTa | 2019.07.26 | - | [RoBERTa: A Robustly Optimized BERT Pretraining Approach](https://arxiv.org/abs/1907.11692) |
| Sentence-BERT | 2019.08.27 | EMNLP-IJCNLP 2019 | [Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks](https://aclanthology.org/D19-1410/) |
| ALBERT | 2019.09.26 | ICLR 2020 | [ALBERT: A Lite BERT for Self-supervised Learning of Language Representations](https://arxiv.org/abs/1909.11942) |
| DistilBERT | 2019.10.02 | EMC2 Workshop at NeurIPS 2019 | [DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter](https://arxiv.org/abs/1910.01108) |
| T5 | 2019.10.23 | JMLR 2020 | [Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer](https://arxiv.org/abs/1910.10683) |
| BART | 2019.10.29 | ACL 2020 | [BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension](https://aclanthology.org/2020.acl-main.703/) |
| LayoutLM | 2019.12.31 | KDD 2020 | [LayoutLM: Pre-training of Text and Layout for Document Image Understanding](https://arxiv.org/abs/1912.13318) |
| ELECTRA | 2020.03.23 | ICLR 2020 | [ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators](https://arxiv.org/abs/2003.10555) |
| ColBERT | 2020.04.27 | SIGIR 2020 | [ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT](https://dl.acm.org/doi/10.1145/3397271.3401075) |
| Conformer | 2020.05.16 | INTERSPEECH 2020 | [Conformer: Convolution-augmented Transformer for Speech Recognition](https://arxiv.org/abs/2005.08100) |
| GPT-3 | 2020.05.28 | NeurIPS 2020 | [Language Models are Few-Shot Learners](https://arxiv.org/abs/2005.14165) |
| DeBERTa | 2020.06.05 | ICLR 2021 | [DeBERTa: Decoding-enhanced BERT with Disentangled Attention](https://arxiv.org/abs/2006.03654) |
| BigBird | 2020.07.28 | NeurIPS 2020 | [Big Bird: Transformers for Longer Sequences](https://arxiv.org/abs/2007.14062) |
| LUKE | 2020.10.02 | EMNLP 2020 | [LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention](https://aclanthology.org/2020.emnlp-main.523/) |
| CLIP | 2021.02.26 | ICML 2021 | [Learning Transferable Visual Models From Natural Language Supervision](https://arxiv.org/abs/2103.00020) |
| SimCSE | 2021.04.18 | EMNLP 2021 | [SimCSE: Simple Contrastive Learning of Sentence Embeddings](https://aclanthology.org/2021.emnlp-main.552/) |
| RoFormer | 2021.04.20 | - | [RoFormer: Enhanced Transformer with Rotary Position Embedding](https://arxiv.org/abs/2104.09864) |
| HuBERT | 2021.06.14 | TASLP 2021 | [HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units](https://arxiv.org/abs/2106.07447) |
| CLOOB | 2021.10.21 | NeurIPS 2022 | [CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP](https://arxiv.org/abs/2110.11316) |
| DeBERTaV3 | 2021.11.18 | ICLR 2023 | [DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing](https://arxiv.org/abs/2111.09543) |
| Stable Diffusion | 2021.12.20 | CVPR 2022 | [High-Resolution Image Synthesis With Latent Diffusion Models](https://arxiv.org/abs/2112.10752) |
| BLIP | 2022.01.28 | ICML 2022 | [BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation](https://arxiv.org/abs/2201.12086) |
| MixCSE | 2022.02.22 | AAAI 2022 | [Unsupervised Sentence Representation via Contrastive Learning with Mixing Negatives](https://ojs.aaai.org/index.php/AAAI/article/view/21428) |
| InstructGPT | 2022.03.04 | NeurIPS 2022 | [Training language models to follow instructions with human feedback](https://arxiv.org/abs/2203.02155) |
| GPT-NeoX | 2022.04.14 | BigScience Research Workshop at ACL 2022 | [GPT-NeoX-20B: An Open-Source Autoregressive Language Model](https://aclanthology.org/2022.bigscience-1.9/) |
| DiffCSE | 2022.04.21 | NAACL 2022 | [DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings](https://aclanthology.org/2022.naacl-main.311/) |
| GIT | 2022.05.27 | TMLR 2022 | [GIT: A Generative Image-to-text Transformer for Vision and Language](https://arxiv.org/abs/2205.14100) |
| Whisper | 2022.12.06 | ICML 2023 | [Robust Speech Recognition via Large-Scale Weak Supervision](https://arxiv.org/abs/2212.04356) |
| BLIP-2 | 2023.01.30 | ICML 2023 | [BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models](https://arxiv.org/abs/2301.12597) |
| ControlNet | 2023.02.10 | ICCV 2023 | [Adding Conditional Control to Text-to-Image Diffusion Models](https://arxiv.org/abs/2302.05543) |
| Llama | 2023.02.27 | - | [LLaMA: Open and Efficient Foundation Language Models](https://arxiv.org/abs/2302.13971) |
| GPT-4 | 2023.03.15 | - | [GPT-4 Technical Report](https://arxiv.org/abs/2303.08774) |
| SigLIP | 2023.03.27 | ICCV 2023 | [Sigmoid Loss for Language Image Pre-Training](https://arxiv.org/abs/2303.15343) |
| LLaVA | 2023.04.17 | NeurIPS 2023 | [Visual Instruction Tuning](https://arxiv.org/abs/2304.08485) |
| MiniGPT-4 | 2023.04.20 | - | [MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models](https://arxiv.org/abs/
| Heron | 2024.04.11 | - | [Heron-Bench: 用于评估日语视觉语言模型的基准](https://arxiv.org/abs/2404.07824) |
| Stockmark-13b | 2024.04.12 | - | [预训练与更新语言和领域特定的大型语言模型:日语商业领域的案例研究](https://arxiv.org/abs/2404.08262) |
| Swallow | 2024.04.27 | COLM 2024 | [跨语言大型语言模型适应的持续预训练:增强日语语言能力](https://arxiv.org/abs/2404.17790) |
| LLM-jp-13B | 2024.07.04 | - | [LLM-jp: 跨组织的全开放日语大型语言模型研发项目](https://arxiv.org/abs/2407.03963) |
| Llama 3.1 | 2024.07.23 | - | [Llama 3 模型群](https://ai.meta.com/research/publications/the-llama-3-herd-of-models/) |
<a id="reference-training"></a>
## LLM学习方法的原始论文
| 方法 | 首次发表时间 | 会议/期刊 | 论文 |
|:---|:---|:---|:---|
| PPO (RLHF) | 2017.07.20 | - | [Proximal Policy Optimization Algorithms](https://arxiv.org/abs/1707.06347) |
| Instruction Tuning<br>(Supervised Fine-tuning; SFT) | 2021.09.03 | ICLR 2022 | [Finetuned Language Models Are Zero-Shot Learners](https://arxiv.org/abs/2109.01652) |
| DPO | 2023.05.29 | NeurIPS 2023 | [Direct Preference Optimization: Your Language Model is Secretly a Reward Model](https://arxiv.org/abs/2305.18290) |
| SteerLM | 2023.10.09 | EMNLP 2023 (Findings) | [SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF](https://aclanthology.org/2023.findings-emnlp.754/) |
<a id="contributors"></a>
## 贡献者
感谢为这个项目做出贡献的所有贡献者们!
<a href="https://github.com/llm-jp/awesome-japanese-llm/graphs/contributors" target="_blank" rel="noreferrer">
<img src="https://yellow-cdn.veclightyear.com/2b54e442/cae442b9-6b0e-408e-a350-cf093aceea1b.svg" alt="贡献者" />
</a>
<a id="citation"></a>
## 引用
该仓库的总结也作为预印本公开发布:
[Exploring Open Large Language Models for the Japanese Language: A Practical Guide](https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/682/2035)
如果提及此仓库,请按以下方式引用:
@article{awesomeJapanese2024, title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}}, author={Kaito Sugimoto}, doi={10.51094/jxiv.682}, journal={Jxiv preprint}, year={2024} }
[^1]: 但为了加快模型速度,对原版Llama的架构进行了修改。详情参见: [PLaMo-13Bを公開しました](https://tech.preferred.jp/ja/blog/llm-plamo/)
[^2]: 虽然未明确说明详细信息,但新闻稿中提到: "学习数据包括开放数据集,以及由Stability AI Japan创建的专有数据集,并在EleutherAI Polyglot项目的日语团队和Stable Community Japan成员的协助下制作的数据。"
[^3]: 这是一个评估语言模型的研究,它训练了一个从右到左预测词汇的模型,而不是通常从左到右预测词汇的模型。发布了正常方向的语言模型和逆向的语言模型。
[^4]: ○: 模型已上传至HuggingFace的Model Hub,可通过`AutoModel.from_pretrained()`等直接加载。△: 虽然模型未上传至Model Hub,但支持HuggingFace (transformers,旧pytorch-transformers) 格式。✕: 模型不支持HuggingFace。
[^5]: 虽然最大序列长度扩展到了2048,但对原始BERT做了一些架构修改。详情请参见HuggingFace仓库的README。
[^6]: 这是一个尝试多种形态素分析器和子词分词方法组合的研究。由于展示所有组合的模型非常繁琐,这里仅列出在实验中平均任务性能最高的Juman++ + BPE模型。
[^7]: nlp-waseda/roberta-base-japanese和nlp-waseda/roberta-large-japanese的模型输入最大token长度为128,而nlp-waseda/roberta-large-japanese-seq512的最大token长度为512。
[^8]: 但最大序列长度从通常的512扩展到了1282,可以处理更长的输入文本。
[^9]: small模型通过日本语Wikipedia和日本语金融语料库从头开始训练,而base模型则在东北大BERT的基础上进一步训练了日本语金融语料库。
[^10]: 万病WordPiece模型是在使用MeCab (IPA辞书+万病辞书) 进行词汇分割后,再通过WordPiece进行子词化的模型,SentencePiece模型则是直接使用Unigram进行子词化的模型。
[^11]: 在进行Instruction Tuning之后,加入了Llama 3 Instruct与Llama 3 Base之间差异的Chat Vector。
[^12]: 在Instruction Tuning过程中,使用了由OpenAI模型(如GPT-3.5,GPT-4)生成的数据进行训练,可能违反了OpenAI的规定。
[^13]: 但如果想要商用KARAKURI LM,需要直接联系开发公司Karakuri株式会社。
[^14]: 但呼吁在研究和教育目的下使用。此外,需注意合并模型中的一些许可证并非Apache 2.0。
[^15]: 详情请参见以下视频: [松尾研 GENIAC LLM开发项目 第1阶段成果发布会 2024.06.01 @ 东京大学 福武大厅 @ 58:22](https://youtu.be/Ju_KgrGhANY?si=zUhZ1S6dznGeF0Gi&t=3502)
[^16]: 但与通常的BERT (base)相比,其Layer和Attention Head的数量较少。
[^17]: 在进行Instruction Tuning之前,加入了Llama 3 Instruct与Llama 3 Base之间差异的Chat Vector。
[^18]: 具体详情请参见作者在[论文](https://www.jstage.jst.go.jp/article/jnlp/31/2/31_707/_pdf/-char/ja)第四章的描述。需要注意的是,SC-2M-wiki模型仅在Wikipedia上进行了预训练,因此严格来说并非领域特化型模型。