特に私たちが構築するようなパラメータ数の限られたモデルにおいては、ハイパーパラメータ (temperature, top_p, top_k, repetition_penalty など) の設定次第で、生成するテキストのクオリティが著しく変わってしまう傾向にあります。そのためハイパーパラメータの設定が適切であるかは評価前に必ず確認した方がいいと思います。
評価ツール(llm-jp-eval, Japanese-MT-bench)を動かす作業自体はそんなに難しくないはずです。なので、0.1Bモデルなどが出来上がってから動き出すのでも遅くはない気はします。
(JGLUEの first author でもある)栗原さんの記事は分かりやすいので一読する価値あり
一問一答形式の評価では、プロンプトのフォーマットによってスコアが大きく変わってしまうことが知られています。
日本語LLMベンチマークと自動プロンプトエンジニアリング - Preferred Networks Research & Development
custom_prompt_template
という引数でプロンプトフォーマットも設定することができますが、本番で使えるかどうかは要確認です