開発の進め方

※たたき台なので改善のためのご意見歓迎！！ ※あまり決めすぎず色々実装したいという気持ちもありそうなのでバランス見ながら

目標

個人環境提供1日目までに、、

H100提供1日目までに、、

分担して並行に進められるものの、上から順に優先度が高い

weblab-10bの開発方法を参考に、100Mで予備実験し、結果が良かったアイデアを採用するかどうか判断して10Bにスケール
- 小サイズモデルで良かったものがスケールしたときも良いのか？
- 最終的にはそうだと信じて進めるしかないかも
個人での実行環境が提供されるまでにベースラインを作成(~3/15)
- 誰でも実行可能な形にして他のサブチームの人にも実行してもらう
- 複数の設定を試行するので実験設定と結果の管理が必要
- 設定をどうすべきか？
  - データセットの種類と大きさは？ → データセットのチームに教えて欲しい
    - 日本語データはJapanese-mc4で314Bトークン
    - 英語も入れる？
  - トークナイザーは？
  - モデルは？
    - 提供される標準コードがMegatron-Deepspeedのようなので、それに組み込めるもの
  - 学習のステップ数は？
    - 事前学習：1epoch(weblabの予備実験は100,000 itertion)
  - 評価方法は？
    - nejumi LB newはこの時点で使えるのだろうか
追加検証するアイデアの収集・選定・実装(~3/15)