使用した/できそうなデータセット一覧(各自追加していただけるとありがたいです) | Notion

SFTデータセット

名前	URL	ライセンス	概要
llm-jp/magpie-sft-v1.0	https://huggingface.co/datasets/llm-jp/magpie-sft-v1.0	Apache license 2.0	calm3とQwen2.5-32bで生成されたSFTデータセット
Aratako/Magpie-Tanuki-8B-97k	https://huggingface.co/datasets/Aratako/Magpie-Tanuki-8B-97k	Apache license 2.0	Tanuki-8Bで生成されたSFTデータセット
Aratako/Magpie-Tanuki-8B-annotated-96k	https://huggingface.co/datasets/Aratako/Magpie-Tanuki-8B-97k	Apache license 2.0	Tanuki-8Bで生成されたSFTデータセットにアノテーションを加えたもの。アノテーションはcalm3で作成
weblab-GENIAC/Open-Platypus-Japanese-masked	weblab-GENIAC/Open-Platypus-Japanese-masked	CC-BY-4.0	LLMの数学能力と推論能力を向上させるために作成したデータセットの機械翻訳版
weblab-GENIAC/aya-ja-evol-instruct-calm3-dpo-masked	https://huggingface.co/datasets/weblab-GENIAC/aya-ja-evol-instruct-calm3-dpo-masked	Apache license 2.0	あるSFTデータセットの日本語部分をcalm3で再生成したもの
rejectは実質Tanuki専用のためSFTに利用
DeL-TaiseiOzaki/Tengentoppa-sft-v1.0	https://huggingface.co/datasets/DeL-TaiseiOzaki/Tengentoppa-sft-v1.0	CC-BY-4.0	GENIAC Phase 1(Team 天元突破)で使われたデータセット。複数のSFTデータセットの統合
https://huggingface.co/datasets/llm-jp/magpie-sft-v1.0	llm-jp/magpie-sft-v1.0	Apache license 2.0	magpieを使ってcyberagant/calm3-22b-chattとQwen/Qwen2.5-32B-Instructを使って生成されたデータセット。
weblab-GENIAC/aya-ja-nemotron-dpo-masked	https://huggingface.co/datasets/weblab-GENIAC/aya-ja-nemotron-dpo-masked	Apache license 2.0	aya-datasetの日本語パートを抜粋し，nvidia/Nemtron-4-340B-Instructで応答を生成したデータセット．rejectは実質Tanuki専用のためSFTに利用
GENIAC-Team-Ozaki/databricks-dolly-15k-ja-newans	https://huggingface.co/datasets/GENIAC-Team-Ozaki/databricks-dolly-15k-ja-newans	CC-BY-4.0	dolly-15k-jaの応答部分をなんらかのモデルで生成したデータセット．
dollyの欠点であった応答の短さを補ったデータセットとなっている
kunishou/OpenMathInstruct-1-1.8m-ja	https://huggingface.co/datasets/kunishou/OpenMathInstruct-1-1.8m-ja	nvidia-license	OpenMathInstruct-1 を日本語に自動翻訳した商用利用可能な180万件の指示チューニングデータセット
tohoku-nlp/abc-multiple-choice	https://huggingface.co/datasets/tohoku-nlp/abc-multiple-choice	不明

• 本データセットのクイズ問題の著作権は abc/EQIDEN 実行委員会 に帰属します。 • 本データセットは研究目的での利用許諾を得ているものです。商用目的での利用は不可とします。 | 競技クイズの大会「abc」で使用された4択問題を元に作成された、多肢選択式の質問応答データセット |

RLHF/DPOデータセット

名前	URL	ライセンス	概要
llm-jp/hh-rlhf-12k-ja	https://huggingface.co/datasets/llm-jp/hh-rlhf-12k-ja	MIT	有害/無害に焦点を当てたRLHFデータセットの機械翻訳版
weblab-GENIAC/aya-ja-nemotron-dpo-masked	https://huggingface.co/datasets/weblab-GENIAC/aya-ja-nemotron-dpo-masked	Apache license 2.0	有用性に焦点を当てたデータセットの日本語部分

継続事前学習データセット

名前	URL	ライセンス	概要
kajuma/CC-news-2024-July-October-cleaned	kajuma/CC-news-2024-July-October-cleaned	odc-by	Common Crawl Newsから抽出した7月から10月の日本語ニュースのデータセット
wikipedia	https://ja.wikipedia.org/wiki/Wikipedia:データベースダウンロード	CC BY-SA 4.0およびGFDL(ともにコピーレフト)	フリー百科事典Wikipediaの記事データ直近は11/20のダンプ
allenai/c4	https://huggingface.co/datasets/allenai/c4	odc-by	Common Crawl dataset: "https://commoncrawl.org".を元に作られたデータセット

その他記事

LLM のデータセットまとめ｜npaka

awesome-japanese-nlp-resources/docs/README.ja.md at main · taishi-i/awesome-japanese-nlp-resources