開発テーマ・概要
- Geniac-matsuolab Phase2条件下で考え得る最高峰の50クラス LLMを開発する
- 全体開発期間:2024/06/01~2024/08/09 15:00
- 計算資源:本番環境
- 以下の条件のノードが21個
- vCPU: 208
- GPU: H100 × 8
- メインメモリ: 1,872GB
- ノード内ストレージ: 200GB (/dev/root)
- /home領域の各ユーザの利用可能なデータサイズ: 30GB
- 共有ディスク領域で各サブチームが使用可能なサイズ: 45TB(30TBから増えました)
チーム全体の開発状況
- (全体) 1ヶ月の研究開発の成果を元に、目指すゴールのレベル設定と、それに向けた進め方の議論を実施(7/5~7/6)
- (事前学習本番・データチーム) 8 x Nのベースとなるモデルを順調に事前学習中
- (事前学習本番) MoE化の目途付け、Expertの学習方法の議論を概ね完了
- (FT・PT・MM) 事後学習後の更なる性能向上に向けて手法の研究と各種実験を推進中
- (合成データ) 次世代SFT・DPOデータセット構築プロジェクトを起動
各サブチーム:直近1週間でやったこと・情報共有
- <直近1週間でやったことを、1~2行程度で要約し、各チームリーダーが記入>
- 全体・マネージメント
- 学習コード班
- トークナイザー班
- 事前学習データ班
- ファインチューニングデータ班
- ポストトレーニング班
- ファインチューニング班
- マルチモーダル班