Goal

(旧) CommonCrawlデータの問題点

segments_1707947473347.0_warc_CC-MAIN-20240220211055-20240221001055-00010_japanese.json

CC-MAIN-2024-10_ja_1.zip

(新) CommonCrawlデータの問題点

segments_1707947473738.92_warc_CC-MAIN-20240222093910-20240222123910-00100_japanese.json

drive-download-20240328T010930Z-001.zip

(共通) CommonCrawlデータの問題点

既存データセット(CulturaX ?)の問題点