※ 研究室のサポートメンバーに直接聞きたい
学習時間に関係する要素
データ量
モデル
アーキテクチャ
サイズ
学習方法
アルゴリズム
エポック数
バッチサイズ
計算資源
データ通信
過去事例
weblab-10b
予備実験
100Mのモデルで4node32GPU(A100-40GB)で4.4日
本実験
A100(40B) 256 * 20日間
そのうち6日間は上部実行できず
チェックポイントからの学習再開が27回
補足情報
事前学習
GPT-NeoX
事後学習
Stanford Alpaca