開発テーマ・概要
- Geniac-matsuolab Phase2条件下で考え得る最高峰の50クラス LLMを開発する
- 全体開発期間:2024/06/01~2024/08/08
- 計算資源:本番環境
vCPU: 208
GPU: H100 × 8
メインメモリ: 1,872GB
/home領域の各ユーザの利用可能なデータサイズ: 30GB
共有ディスク領域で各サブチームが使用可能なサイズ: 30TB
チーム全体の開発状況
- 今、赤い線のところ。
図(原本リンクはこちら)からわかる通り、事前学習開始前にもう少し、いろいろ試す時間があります。

- 事前学習開始に向けて、以下の3つを緊急体制で進行。
- Phase2からプラスαする活動チームも立ち上がり、Slackチャンネル中心に議論開始。
各サブチーム:直近1週間でやったこと・情報共有
- <直近1週間でやったことを、1~2行程度で要約し、各チームリーダーが記入>
- 学習コード班
- トークナイザー班
- 事前学習データ班
- ファインチューニングデータ班
- ポストトレーニング班
- ファインチューニング班
- マルチモーダル班
- マージ班:まだ先
- 人工合成データ
- ChatBotArena