大まかな流れ

  1. 評価するquestion-answerペアを学習したいモデルで用意する
  2. 人間の手でお好みにラベリングする
  3. 軽くデータを処理する
  4. DPO学習する
  5. 1~4を満足いくまで繰り返す

評価するquestion-answerペアを学習したいモデルで用意する

人の手でお好みにラベリングする