Goal

実装内容

| URLフィルタ | トップレベルドメイン | 一致すればOK | 無効化 | ・ja_valid_domains.txt は、llm-jp から入手 ・一致しなくても使えそうなデータが多そうなため無効化している | **2.0%**削除(CC(lang=ja判定済み)の9099 URLで検証) | | --- | --- | --- | --- | --- | --- | | URLフィルタ | ブロックリスト | マッチしたらNG | 有効 | ・3/19(火)に仁平さんが作成した UT1 blocklist ・件数は多い(450万)が、日本語サイトは少ないため、ja_valid_domains.txt で絞り込んで(80万)使用 | **0.5%**削除(CC(lang=ja判定済み)の9099 URLで検証) | | URLフィルタ | ブロックリスト(追加) | マッチしたらNG | 有効 | ・Swallowに習って、wikipedia.org5ch.net ・必要に応じて追加(-av , porn , -sex , xvideos) | **0.0%**削除(CC(lang=ja判定済み)の9099 URLで検証) | | 日本語判定 | lang=ja判定 | lang=jaのみOK | 未実装 | ・CommonCrawlからダウンロード時に判定済みのため未実装 | - | | 日本語判定 | FastText判定 | 日本語のみOK | 有効 | ・lang=jaであっても、textが他言語の場合はNG | **4.2%**削除 (776件のjsonlデータで検証) |

URLフィルタ トップレベルドメイン 一致すればOK 無効化 llm-jp-corpusからja_valid_domains.txtllm-jp を取得 **2.0%**削除(CC(lang=ja判定済み)の9099 URLで検証)
URLフィルタ ブロックリスト マッチしたらNG 有効 **UT1 blocklistを使用.**件数は多い(450万)が、日本語サイトは少ないため、ja_valid_domains.txt で絞り込んで(80万)使用 **0.5%**削除(CC(lang=ja判定済み)の9099 URLで検証)
URLフィルタ ブロックリスト(追加) マッチしたらNG 有効 Swallowコーパスに習って,wikipedia.org,5ch.netを追加.独自で「-av , porn , -sex , xvideos」を追加 **0.0%**削除(CC(lang=ja判定済み)の9099 URLで検証)

IF

# jsonl_dataで776件を渡して、有効な743件を返却
def urlfilter_for_jsonl_data(jsonl_data):
	# 略
	return filtered_jsonl_data

メモ

リソース