これは何？

LLM開発のイメージが湧くように、過去の事例をまとめたもの
- どのようなプロセスで進んでいくのか
- 過去の事例ではどんなアイデアが試されてきたのか

LLM開発の進め方

LLM学習専用ライブラリを用いてベースライン開発
小規模(100M程度)で実験して有効なアイデアを絞り込み
有効なアイデアを取り込んで大規模(数B~10B)モデルを学習

LLM学習専用ライブラリを用いてベースライン開発

GPT-NeoXやMegatron-DeepSpeedのようなライブラリを使用する(標準コードは後者)

並列計算ライブラリのDeepSpeedによって高速な学習が可能
GPT-NeoXを使ってる事例が多い
- weblab/ELYZA/Stability AI/ABEJA…
これをもとに少し改造して学習するケースが多い

小規模(100M程度)で実験して有効なアイデアを絞り込み

小規模モデルで実験し、性能が改善するアイデアを絞り込む

Untitled

※ABEJAのブログがイメージしやすい

小規模で良いものが大規模でもうまくいくと信じる

Untitled