大まかな流れ

評価するquestion-answerペアを学習したいモデルで用意する
人間の手でお好みにラベリングする
軽くデータを処理する
DPO学習する
1~4を満足いくまで繰り返す

評価するquestion-answerペアを学習したいモデルで用意する

人の手でお好みにラベリングする