以下、素案です (by hatakeyama)
モデルの開発の目標(出口)を決めたい
- ゴールを定めることで、タスクが発散したり、手段が目的化してしまうことを防ぐ
- 各種ポストトレーニング手法やデータの準備は、モデル性能を上げるための手段であって、目的ではない(常に有効性を見極めながら、準備・活用していくのが良い)
- 難しすぎず、簡単すぎないゴールが良い
(案) Japanese MT-Benchで「トップスコア」を目指す
以下のように、「トップ」の定義範囲を変えることで、ゴールを小分けする
ゴール1、2については、今から(7/5)でも基本的には取り組める目標設定。
- ゴール1: 10 bクラスの純国産モデルで、最高スコアを出す
- fugaku, rakuten-chat, calmあたりがライバル
- 継続学習中のtanuki-8bをファインチューニングすれば、超えられそう
- ゴール2: 10 bクラスの全モデルで、最高(クラスの)スコアを出す
- Llama, Qwen, Mistralの派生モデルを超える必要がある
- かなりチャレンジングだが、これらのモデルに匹敵する性能を出す (日本できちんとした基盤モデルを作れるようになる)のが、GENIACとしての大きなミッション
- ゴール3: 数十 bクラスの純国産モデルで、最高スコアを出す
- calm3-22bがライバルとしては手ごわそう
- geniacとしてはPFNなども高性能モデルを出してきそう
- ゴール4: 数十bクラスの全モデルで、最高(クラスの)スコアを出す
進め方
- グループなどで進めているSFTやポストトレーニングの知見やデータセットを、ある種の「共用インフラ」として使いながらも、原則として個人レベルで、モデルをチューニングしていく方向性が良い?
- 個人レベルでの、自由なアイデアに基づいてスピーディーに検討を行うことで、総合的に知見を貯めたい
- リーダーボードを設置し、どういうデータ&学習法を使ったかを、随時共有する
- 5 nodeは確保してあるので、訓練&自動評価のshell scriptを投げて、バッチジョブとして評価していく感じ?
注意点
- Japanese MT-Benchを、ある種のdevelopデータセットとして使ってしまっている点に注意
- 良い性能が出たモデルについては、汎化性能を確かめるため、特別な試験対策を行っていないベンチマーク(例えばelyza)で性能評価を行う
- ある種のtestデータ
- MT-Benchで高性能が出たモデルは、経験的には、elyzaでも高性能が出るので、mt benchへのoverfitについては、(敢えて類題を作るなどをしなければ、)そこまで気にしなくてOK