開発テーマ・概要
- Geniac-matsuolab Phase2条件下で考え得る最高峰の50クラス LLMを開発する
- 全体開発期間:2024/06/01~2024/08/09 15:00
- 計算資源:本番環境
- 以下の条件のノードが21個
- vCPU: 208
- GPU: H100 × 8
- メインメモリ: 1,872GB
- ノード内ストレージ: 200GB (/dev/root)
- /home領域の各ユーザの利用可能なデータサイズ: 30GB
- 共有ディスク領域で各サブチームが使用可能なサイズ: 45TB(30TBから増えました)
チーム全体の開発状況
- (事前学習本番) Llama3 38B → 8 x Nへの戦略変換を議論中
- (データチーム) 戦略変換に合わせてデータセットの見直し
各サブチーム:直近1週間でやったこと・情報共有
- <直近1週間でやったことを、1~2行程度で要約し、各チームリーダーが記入>
- 全体・マネージメント
- 学習コード班
- トークナイザー班
- 事前学習データ班
- ノウハウ共有班 (6/21新設)
- ファインチューニングデータ班
- ポストトレーニング班
- ファインチューニング班
- マルチモーダル班
- エージェント班
- マージ班