※たたき台なので改善のためのご意見歓迎!!
※あまり決めすぎず色々実装したいという気持ちもありそうなのでバランス見ながら
目標
個人環境提供1日目までに、、
- 0.1Bレベルのモデルが回せるコードがある
- 試行する実験のアイデアとその計画が立てられている
H100提供1日目までに、、
- 提供されたGPUをフルに使った実験を開始できる
- 「データが同じなら少なくとも既存モデルくらいの性能は出せる」であろう方法を構築する
- 「この方法なら既存モデルよりも良い性能が出る可能性がある」であろう方法の目処をつけ、それを実験できる状態にする
- 実験に必要な時間を見積り、最大でどのアイデアまで試せそうか見立てを立てる
優先順位
分担して並行に進められるものの、上から順に優先度が高い
- まずは大規模実験が実行できるように
- ただし、標準コードが提供されるまでは優先順位が少し落ちる
- 新しい手法を試す前に、まずは良く知られた方法でまともに学習できるように
- これがないと新しいアイデアを試したとしても良いのか悪いのかわからない
進め方
- weblab-10bの開発方法を参考に、100Mで予備実験し、結果が良かったアイデアを採用するかどうか判断して10Bにスケール
- 小サイズモデルで良かったものがスケールしたときも良いのか?
- 最終的にはそうだと信じて進めるしかないかも
- 個人での実行環境が提供されるまでにベースラインを作成(~3/15)
- 誰でも実行可能な形にして他のサブチームの人にも実行してもらう
- 複数の設定を試行するので実験設定と結果の管理が必要
- 設定をどうすべきか?
- データセットの種類と大きさは? → データセットのチームに教えて欲しい
- 日本語データはJapanese-mc4で314Bトークン
- 英語も入れる?
- トークナイザーは?
- モデルは?
- 提供される標準コードがMegatron-Deepspeedのようなので、それに組み込めるもの
- 学習のステップ数は?
- 事前学習:1epoch(weblabの予備実験は100,000 itertion)
- 評価方法は?
- nejumi LB newはこの時点で使えるのだろうか
- 追加検証するアイデアの収集・選定・実装(~3/15)