llm-jp/magpie-sft-v1.0 |
https://huggingface.co/datasets/llm-jp/magpie-sft-v1.0 |
Apache license 2.0 |
calm3とQwen2.5-32bで生成されたSFTデータセット |
Aratako/Magpie-Tanuki-8B-97k |
https://huggingface.co/datasets/Aratako/Magpie-Tanuki-8B-97k |
Apache license 2.0 |
Tanuki-8Bで生成されたSFTデータセット |
Aratako/Magpie-Tanuki-8B-annotated-96k |
https://huggingface.co/datasets/Aratako/Magpie-Tanuki-8B-97k |
Apache license 2.0 |
Tanuki-8Bで生成されたSFTデータセットにアノテーションを加えたもの。アノテーションはcalm3で作成 |
weblab-GENIAC/Open-Platypus-Japanese-masked |
weblab-GENIAC/Open-Platypus-Japanese-masked |
CC-BY-4.0 |
LLMの数学能力と推論能力を向上させるために作成したデータセットの機械翻訳版 |
weblab-GENIAC/aya-ja-evol-instruct-calm3-dpo-masked |
https://huggingface.co/datasets/weblab-GENIAC/aya-ja-evol-instruct-calm3-dpo-masked |
Apache license 2.0 |
あるSFTデータセットの日本語部分をcalm3で再生成したもの |
rejectは実質Tanuki専用のためSFTに利用 |
|
|
|
DeL-TaiseiOzaki/Tengentoppa-sft-v1.0 |
https://huggingface.co/datasets/DeL-TaiseiOzaki/Tengentoppa-sft-v1.0 |
CC-BY-4.0 |
GENIAC Phase 1(Team 天元突破)で使われたデータセット。複数のSFTデータセットの統合 |
https://huggingface.co/datasets/llm-jp/magpie-sft-v1.0 |
llm-jp/magpie-sft-v1.0 |
Apache license 2.0 |
magpieを使ってcyberagant/calm3-22b-chattとQwen/Qwen2.5-32B-Instructを使って生成されたデータセット。 |
weblab-GENIAC/aya-ja-nemotron-dpo-masked |
https://huggingface.co/datasets/weblab-GENIAC/aya-ja-nemotron-dpo-masked |
Apache license 2.0 |
aya-datasetの日本語パートを抜粋し,nvidia/Nemtron-4-340B-Instructで応答を生成したデータセット.rejectは実質Tanuki専用のためSFTに利用 |
GENIAC-Team-Ozaki/databricks-dolly-15k-ja-newans |
https://huggingface.co/datasets/GENIAC-Team-Ozaki/databricks-dolly-15k-ja-newans |
CC-BY-4.0 |
dolly-15k-jaの応答部分をなんらかのモデルで生成したデータセット. |
dollyの欠点であった応答の短さを補ったデータセットとなっている |
|
|
|
kunishou/OpenMathInstruct-1-1.8m-ja |
https://huggingface.co/datasets/kunishou/OpenMathInstruct-1-1.8m-ja |
nvidia-license |
OpenMathInstruct-1 を日本語に自動翻訳した商用利用可能な180万件の指示チューニングデータセット |
tohoku-nlp/abc-multiple-choice |
https://huggingface.co/datasets/tohoku-nlp/abc-multiple-choice |
不明 |
|