はじめに

13位のsomeya373です．本レポートでは最終課題での取り組みについてまとめます．

最終課題は以下の成績となりました．

ありがたいことに予選から大きく順位を伸ばし，優秀賞をいただくことができました．

開発方針

予選および決勝での評価方法を考慮して，以下の方針で開発を進めることにしました．

STEP1：指示に対する応答を正しい日本語で回答できること（予選対策）

STEP2：人間好みの回答をすること（決勝対策）

STEP2の方針については，決勝での評価方法として複数モデルの相対評価（ChatbotArenaのような形式）を想定して策定しましたが，評価方法の予想が外れたため，決勝での効果については不明です．

ベースモデル：google/gemma-2-9b
データセット：mnm373/AutoMultiTurnByCalm3-22B-refine（59084件）
- kanhatakeyama/AutoMultiTurnByCalm3-22Bの応答を修正したもの
学習手法：SFT（LoRA）

提出モデルに至るまでの各submitのスコアおよび概要は以下のとおりです．

#1（score: 2.64）
- unslothのサンプルコードから主に以下を変更してSFTを実行．
  - ベースモデル：google/gemma-2-9b
  - データセット：kanhatakeyama/AutoMultiTurnByCalm3-22B（q1, a1のみ使用）
- 推論時間を短縮するためにLoRAアダプタをマージ．（推論時間は17分）