読むと良いかも

Common LLM settings:https://docs.google.com/spreadsheets/d/14vbBbuRMEHoqeuMHkTfw3uiZVmyXNuoSp8s-aHvfvZk/edit

DPO:

https://qiita.com/jovyan/items/6767c9fd944a636fdf88

MIX系

https://arxiv.org/abs/2403.07816

日本語モデルの特徴

Swallow Llama2(Swallow: LLaMA-2 日本語継続事前学習モデル (zenn.dev))(Swallow (tokyotech-llm.github.io))
- 継続事前学習は100B token(日本語が90%)
- 語彙拡張によって日本語のtoken 効率は上がったものの性能はあがらず。
- 継続事前学習はbf16
- 継続事前学習には独自のswallowコーパスを使用
- flash attention2の採用
- 学習方法に大きな特徴の記載なし
Elyza Llama2(Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました｜ELYZA, Inc. (note.com))
(https://note.com/elyza/n/n0ea755ca3e7b)
- 70B 追加事前学習には、約100Bトークンの日本語コーパスを用いています。事後学習には、日本語での指示追従能力と一般的な知識を向上させることを目的として ELYZA が独自に構築した高品質なデータセットを用いています。また、今回学習データの一部としてichikara-instructionデータ [1] も使用しています
- 語彙拡張によって日本語のtoken 効率は上がったものの性能はあがらず。
- 7Bは追加で日本語データを180億トークン追加で事前学習し、合計で200億トークンの日本語を学習する
- SFTについての記載はなし

700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました｜ELYZA, Inc.

KARAKURI(KARAKURI LMの解説 | KARAKURI Techblog (medium.com))
- 訓練データの作成に際しては、公開されているmC4やRedPajamaといったコーパスに加え、独自に収集した日本語コーパスを使用しました。これらを組み合わせて、合計で約100Bトークンのデータセットを構築しました。このデータセットには、全体の約20%を占める日本語以外のトークンも含まれています。16Bトークンのデータを学習
- 追加する語彙には、常用漢字以外のマイナーな漢字や絵文字などが含まれないようにフィルタリングを行いました。
- ファインチューニングはsteer LM。独自に構築したデータセットには約1000件の会話が含まれています。OASST2に含まれる日本語以外の会話は日本語に翻訳せずにそのまま用いました。訓練データに含まれるトークン数は約36Mで、そのうち日本語のトークンは約2.5%です。日本語のトークン数が少ないため、継続学習のアプローチを採用しました。具体的には、継続事前学習の際に用意したデータセットの中からまだ学習させていないものを使用し、事前学習タスクも同時に解かせるマルチタスク学習を行いました。事前学習タスクを混ぜる割合は全体の約20%としました。
Mistral系
- Swallow
  
  (https://tokyotech-llm.github.io/swallow-mistral)
  
  7Bと7BX8を追加事前学習
  
  Mistral 7BとMixtral 8x7B Instructに継続事前学習を施し構築。 100Bの追加学習。
  
  算術推論とコード生成に強い日本語大規模言語モデルを目指し、ソースコードのコーパスをテキストコーパスに混ぜて利用。具体的には、Swallow-MS 7Bでは数学関連ソースコードのコーパスであるAlgebraicStack [Azerbayev+, 2024]を学習し、Swallow-MX 8x7BではAlgebraicStackに加えて、自然言語とソースコードが対になったコーパスであるThe Vault [Nguyen+, 2023]も学習しました。なおソースコードのコーパスの利用がもたらす効果は、比較実験などにより今後検証を進めたいと考えています。テキストコーパスは、Swallowと同様に日本語と英語が9:1（ただし、Swallow-MX 8x7Bでは72:28）の混合比で、日本語はSwallowコーパスと日本語Wikipedia，英語はRefinedWebとThe StackのarXivサブセットを用いました。今回は、Swallow-MS 7Bにのみ日本語の語彙を追加し、Swallow-MX 8x7Bには語彙拡張を適用しませんでした。語彙追加により、語彙に含まれる平仮名文字の種類数は58から83に、片仮名文字の種類数は76から87に、漢字の種類数は1,456から3,208に増加しました。 MistralおよびMixtralの追加事前学習には、独自に開発したソフトウェアを用いました。
  
  学習ライブラリはhttps://github.com/okoge-kaz/llm-recipesを使用。megatron-lmベース。
Branch MoE
- Branch-Train-MiX:2403.07816.pdf (arxiv.org)
- https://docs.google.com/document/d/1_vOftBnrk9NRk5h10UqrfJ5CDih9KBKL61yvrZtVWPE/edit?usp=drive_link