指示データセット先行研究の調査 | Notion

OpenAssistant

大規模に複数言語のインストラクションデータセット収集を行った事例

OpenAssistant Conversations -- Democratizing Large Language Model Alignment

ichikara-instruction

手作業で日本語インストラクションデータセットを作った事例

内容

ChatQA

15%くらい情報不足で回答できない質問を入れると性能が上がること
手作業で作成(wikipediaベース)したデータセットでもかなり効果がある

ことを示した

ChatQA: Building GPT-4 Level Conversational QA Models

Databricks Dolly

社内でゲーミフィケーション的にインストラクションデータセットを作成した事例

databricks/databricks-dolly-15k · Datasets at Hugging Face

データセットは15k件