大規模に複数言語のインストラクションデータセット収集を行った事例
OpenAssistant Conversations -- Democratizing Large Language Model Alignment
手作業で日本語インストラクションデータセットを作った事例
ことを示した
ChatQA: Building GPT-4 Level Conversational QA Models
社内でゲーミフィケーション的にインストラクションデータセットを作成した事例
databricks/databricks-dolly-15k · Datasets at Hugging Face
データセットは15k件