話し合うべきこと
Output:
- ビジネス向け & コンペでの優勝のために目指すべき評価指標の決定
- 評価指標における精度向上のため使用すべき事前学習データセットの重要度決定
補足:
- 今回のコンペでは、LLM-jp-eval + JMTBench + α (こちらが重くなるかも)
- wandbのベストプラクティスを確認し、私たちのLLMが目指すべき目標(評価指標)を決定
https://site.wandb.ai/wp-content/uploads/2024/04/LLM-Evaluation-Whitepaper.pdf
- コンペの観点での理想的な評価指標:汎用性の高い評価指標
- ビジネスの観点での理想的な評価指標:下記参照
- ビジネス利用可能:文章要約、Q&A(コールセンター, 社内文章)、議事録・企画書作成
- (どれに着目するかをデータセットから決定するのもOK)
- 下記4つの観点で良い出力(https://note.com/kojiro_iizuka/n/na2b385103445)
- ロバスト性(指示に従ってくれる、入力が多少変わっても正しい出力)
- 有害性(悪意のある出力をしない)
- 公平性(差別等を行わない)
- バイアス (偏った結果を生成をしない)
4/27 議事録
方針
- 畠山チームの知見によると、LLM-jp-evalのような評価指標において、小中規模のLLMでは事前学習よりファインチューニングの方が重要
- コンペに勝つためだけのモデルにするのではなく、ビジネス用途で使えるものにしたい
そもそも既存の大規模言語モデルではなく、今回開発するローカルLLMを使ってもらう利点と用途は?