大まかな流れ
評価するquestion-answerペアを学習したいモデルで用意する
人間の手でお好みにラベリングする
軽くデータを処理する
DPO学習する
1~4を満足いくまで繰り返す
評価するquestion-answerペアを学習したいモデルで用意する
人の手でお好みにラベリングする