SFTデータセット

名前 URL ライセンス 概要
llm-jp/magpie-sft-v1.0 https://huggingface.co/datasets/llm-jp/magpie-sft-v1.0 Apache license 2.0 calm3とQwen2.5-32bで生成されたSFTデータセット
Aratako/Magpie-Tanuki-8B-97k https://huggingface.co/datasets/Aratako/Magpie-Tanuki-8B-97k Apache license 2.0 Tanuki-8Bで生成されたSFTデータセット
Aratako/Magpie-Tanuki-8B-annotated-96k https://huggingface.co/datasets/Aratako/Magpie-Tanuki-8B-97k Apache license 2.0 Tanuki-8Bで生成されたSFTデータセットにアノテーションを加えたもの。アノテーションはcalm3で作成
weblab-GENIAC/Open-Platypus-Japanese-masked weblab-GENIAC/Open-Platypus-Japanese-masked CC-BY-4.0 LLMの数学能力と推論能力を向上させるために作成したデータセットの機械翻訳版
weblab-GENIAC/aya-ja-evol-instruct-calm3-dpo-masked https://huggingface.co/datasets/weblab-GENIAC/aya-ja-evol-instruct-calm3-dpo-masked Apache license 2.0 あるSFTデータセットの日本語部分をcalm3で再生成したもの
rejectは実質Tanuki専用のためSFTに利用
DeL-TaiseiOzaki/Tengentoppa-sft-v1.0 https://huggingface.co/datasets/DeL-TaiseiOzaki/Tengentoppa-sft-v1.0 CC-BY-4.0 GENIAC Phase 1(Team 天元突破)で使われたデータセット。複数のSFTデータセットの統合
https://huggingface.co/datasets/llm-jp/magpie-sft-v1.0 llm-jp/magpie-sft-v1.0 Apache license 2.0 magpieを使ってcyberagant/calm3-22b-chattとQwen/Qwen2.5-32B-Instructを使って生成されたデータセット。
weblab-GENIAC/aya-ja-nemotron-dpo-masked https://huggingface.co/datasets/weblab-GENIAC/aya-ja-nemotron-dpo-masked Apache license 2.0 aya-datasetの日本語パートを抜粋し,nvidia/Nemtron-4-340B-Instructで応答を生成したデータセット.rejectは実質Tanuki専用のためSFTに利用
GENIAC-Team-Ozaki/databricks-dolly-15k-ja-newans https://huggingface.co/datasets/GENIAC-Team-Ozaki/databricks-dolly-15k-ja-newans CC-BY-4.0 dolly-15k-jaの応答部分をなんらかのモデルで生成したデータセット.
dollyの欠点であった応答の短さを補ったデータセットとなっている
kunishou/OpenMathInstruct-1-1.8m-ja https://huggingface.co/datasets/kunishou/OpenMathInstruct-1-1.8m-ja nvidia-license OpenMathInstruct-1 を日本語に自動翻訳した商用利用可能な180万件の指示チューニングデータセット
tohoku-nlp/abc-multiple-choice https://huggingface.co/datasets/tohoku-nlp/abc-multiple-choice 不明

• 本データセットのクイズ問題の著作権は abc/EQIDEN 実行委員会 に帰属します。 • 本データセットは研究目的での利用許諾を得ているものです。商用目的での利用は不可とします。 | 競技クイズの大会「abc」で使用された4択問題を元に作成された、多肢選択式の質問応答データセット |

RLHF/DPOデータセット

名前 URL ライセンス 概要
llm-jp/hh-rlhf-12k-ja https://huggingface.co/datasets/llm-jp/hh-rlhf-12k-ja MIT 有害/無害に焦点を当てたRLHFデータセットの機械翻訳版
weblab-GENIAC/aya-ja-nemotron-dpo-masked https://huggingface.co/datasets/weblab-GENIAC/aya-ja-nemotron-dpo-masked Apache license 2.0 有用性に焦点を当てたデータセットの日本語部分

継続事前学習データセット

名前 URL ライセンス 概要
kajuma/CC-news-2024-July-October-cleaned kajuma/CC-news-2024-July-October-cleaned odc-by Common Crawl Newsから抽出した7月から10月の日本語ニュースのデータセット
wikipedia https://ja.wikipedia.org/wiki/Wikipedia:データベースダウンロード CC BY-SA 4.0およびGFDL(ともにコピーレフト) フリー百科事典Wikipediaの記事データ直近は11/20のダンプ
allenai/c4 https://huggingface.co/datasets/allenai/c4 odc-by Common Crawl dataset: "https://commoncrawl.org".を元に作られたデータセット

その他記事

LLM のデータセットまとめ|npaka

awesome-japanese-nlp-resources/docs/README.ja.md at main · taishi-i/awesome-japanese-nlp-resources