以下､素案です (by hatakeyama)

モデルの開発の目標(出口)を決めたい

ゴールを定めることで､タスクが発散したり､手段が目的化してしまうことを防ぐ
- 各種ポストトレーニング手法やデータの準備は､モデル性能を上げるための手段であって､目的ではない(常に有効性を見極めながら､準備・活用していくのが良い)
難しすぎず､簡単すぎないゴールが良い

(案) Japanese MT-Benchで「トップスコア」を目指す

以下のように､「トップ」の定義範囲を変えることで､ゴールを小分けする

ゴール1､2については､今から(7/5)でも基本的には取り組める目標設定｡

ゴール1: 10 bクラスの純国産モデルで､最高スコアを出す
- fugaku, rakuten-chat, calmあたりがライバル
- 継続学習中のtanuki-8bをファインチューニングすれば､超えられそう
ゴール2: 10 bクラスの全モデルで､最高(クラスの)スコアを出す
- Llama, Qwen, Mistralの派生モデルを超える必要がある
- かなりチャレンジングだが､これらのモデルに匹敵する性能を出す (日本できちんとした基盤モデルを作れるようになる)のが､GENIACとしての大きなミッション
ゴール3: 数十 bクラスの純国産モデルで､最高スコアを出す
- calm3-22bがライバルとしては手ごわそう
- geniacとしてはPFNなども高性能モデルを出してきそう
ゴール4: 数十bクラスの全モデルで､最高(クラスの)スコアを出す
- ゴール2と同じ難しさがある

進め方

グループなどで進めているSFTやポストトレーニングの知見やデータセットを､ある種の「共用インフラ」として使いながらも､原則として個人レベルで､モデルをチューニングしていく方向性が良い?
- 個人レベルでの､自由なアイデアに基づいてスピーディーに検討を行うことで､総合的に知見を貯めたい
  - もちろん､組織的にやる方々がいてもOK
- リーダーボードを設置し､どういうデータ&学習法を使ったかを､随時共有する
  - 条件&結果のspreadsheetを設置
- 5 nodeは確保してあるので､訓練&自動評価のshell scriptを投げて､バッチジョブとして評価していく感じ?

注意点

Japanese MT-Benchを､ある種のdevelopデータセットとして使ってしまっている点に注意
- 問題のリークのようなことが起きている
良い性能が出たモデルについては､汎化性能を確かめるため､特別な試験対策を行っていないベンチマーク(例えばelyza)で性能評価を行う
- ある種のtestデータ
- MT-Benchで高性能が出たモデルは､経験的には､elyzaでも高性能が出るので､mt benchへのoverfitについては､(敢えて類題を作るなどをしなければ､)そこまで気にしなくてOK