過去バージョン
開発目標の設定と実施v1 (7/5)
以下、開発目標です (by hatakeyama)
Japanese MT-Benchで「トップスコア」を目指す
- 世界レベルの推論力を持つ、高性能な言語モデルを得るための手段(データ・アルゴリズム)を明らかにする
- 8b、Nx8Bモデルの二部門で、それぞれトップスコアを目指す
- MT-Benchはわりと汎用的なので、この指標をもとにモデルを開発することで、高性能なモデルが自然と得られる (汎用性の向上が目的なので、MT-Bench類題作成みたいなことはしない)
具体的な目標
- fugaku, rakuten-chat, calm-2あたりがライバル
- ゴール1: 10 bクラスの純国産モデルで、最高スコアを出す
- ゴール2: 10 bクラスの全モデルで、最高(クラスの)スコアを出す
- Llama, Qwen, Mistralの派生モデルを超える必要がある
- かなりチャレンジングだが、これらのモデルに匹敵する性能を出す (日本できちんとした基盤モデルを作れるようになる)のが、GENIACとしての大きなミッション
- ゴール3: 数十 bクラスの純国産モデルで、最高スコアを出す
- calm3-22bがライバルとしては手ごわい
- geniacとしてはPFNなども高性能モデルを出してきそう
- ゴール4: 数十bクラスの全モデルで、最高(クラスの)スコアを出す
進め方
- グループなどで進めてきたSFTやポストトレーニングの知見やデータセットを、ある種の「共用インフラ」として使いながらも、原則として個人レベルで、モデルをチューニングする
- 個人レベルでの、自由なアイデアに基づいてスピーディーに検討を行うことで、総合的に知見を貯めたい
- リーダーボード類を設置し、どういうデータ&学習法を使ったかを、随時共有する
- 5 nodeは確保してあるので、訓練&自動評価のshell scriptを投げて、バッチジョブとして評価していくと効率的?
- 8x8Bも事前学習は少し進んだので、huggingface形式に変換次第、sftを試せる段階