これは何?
- LLM開発のイメージが湧くように、過去の事例をまとめたもの
- どのようなプロセスで進んでいくのか
- 過去の事例ではどんなアイデアが試されてきたのか
LLM開発の進め方
- LLM学習専用ライブラリを用いてベースライン開発
- 小規模(100M程度)で実験して有効なアイデアを絞り込み
- 有効なアイデアを取り込んで大規模(数B~10B)モデルを学習
LLM学習専用ライブラリを用いてベースライン開発
GPT-NeoXやMegatron-DeepSpeedのようなライブラリを使用する(標準コードは後者)
- 並列計算ライブラリのDeepSpeedによって高速な学習が可能
- GPT-NeoXを使ってる事例が多い
- weblab/ELYZA/Stability AI/ABEJA…
- これをもとに少し改造して学習するケースが多い
小規模(100M程度)で実験して有効なアイデアを絞り込み
小規模モデルで実験し、性能が改善するアイデアを絞り込む

※ABEJAのブログがイメージしやすい
小規模で良いものが大規模でもうまくいくと信じる
