モデル開発の概要

事前学習モデルllm-jp-3-13b」をベースモデルとして、合成データを用いて事後学習を行いました。

事後学習

事後学習では、SFTおよびDPOを行いました。

SFTは、事前学習後のベースモデルに対して実施する教師あり学習です。SFTでは、特定の入力(指示)と期待される出力(適切な応答)のペアを用いて、指示に対して適切な応答を生成するようにモデルを学習します。多様な指示に対する応答を学習することで、モデルは汎用的な指示理解能力を獲得し、より柔軟な対話が可能になります。

DPOは、人間の選好に基づいてモデルを最適化する手法です。SFT後のモデルに対してDPOを実施することで、より自然で人間の期待に沿った応答を生成するモデルを作成することができます。

Tanuki-8B, 8x8B - 事後学習の軌跡

決勝では「人手による評価」があるので、SFTに加えてDPOも行いました。

事後学習は、「QLoRA」を用いました。また、Unslothを使って、「事後学習の高速化」および「メモリ使用量の削減」を行いました。

Unslothでは「RoPEをサポートしているのでコンテキスト長は自由に設定可能」となっているので、「コンテキスト長を2048」にしてSFTおよびDPOを実行しました。

合成データの生成