モデルの学習・評価に関係する方が、読むべき情報を共有いただけますと幸いです。
大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part1:https://zenn.dev/turing_motors/articles/04c1328bf6095a
Common LLM settings:https://docs.google.com/spreadsheets/d/14vbBbuRMEHoqeuMHkTfw3uiZVmyXNuoSp8s-aHvfvZk/edit
DPO:
https://qiita.com/jovyan/items/6767c9fd944a636fdf88
MIX系
https://arxiv.org/abs/2403.07816
Swallow Llama2(Swallow: LLaMA-2 日本語継続事前学習モデル (zenn.dev))(Swallow (tokyotech-llm.github.io))
Elyza Llama2(Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました|ELYZA, Inc. (note.com))
(https://note.com/elyza/n/n0ea755ca3e7b)
700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました|ELYZA, Inc.
KARAKURI(KARAKURI LMの解説 | KARAKURI Techblog (medium.com))
Mistral系
Swallow
(https://tokyotech-llm.github.io/swallow-mistral)
7Bと7BX8を追加事前学習
Mistral 7BとMixtral 8x7B Instructに継続事前学習を施し構築。 100Bの追加学習。
算術推論とコード生成に強い日本語大規模言語モデルを目指し、ソースコードのコーパスをテキストコーパスに混ぜて利用。 具体的には、Swallow-MS 7Bでは数学関連ソースコードのコーパスであるAlgebraicStack [Azerbayev+, 2024]を学習し、Swallow-MX 8x7BではAlgebraicStackに加えて、自然言語とソースコードが対になったコーパスであるThe Vault [Nguyen+, 2023]も学習しました。 なおソースコードのコーパスの利用がもたらす効果は、比較実験などにより今後検証を進めたいと考えています。 テキストコーパスは、Swallowと同様に日本語と英語が9:1(ただし、Swallow-MX 8x7Bでは72:28)の混合比で、日本語はSwallowコーパスと日本語Wikipedia,英語はRefinedWebとThe StackのarXivサブセットを用いました。 今回は、Swallow-MS 7Bにのみ日本語の語彙を追加し、Swallow-MX 8x7Bには語彙拡張を適用しませんでした。 語彙追加により、語彙に含まれる平仮名文字の種類数は58から83に、片仮名文字の種類数は76から87に、漢字の種類数は1,456から3,208に増加しました。 MistralおよびMixtralの追加事前学習には、独自に開発したソフトウェアを用いました。
学習ライブラリはhttps://github.com/okoge-kaz/llm-recipesを使用。megatron-lmベース。
Branch MoE