| URLフィルタ | トップレベルドメイン | 一致すればOK | 無効化 | ・ja_valid_domains.txt は、llm-jp から入手 ・一致しなくても使えそうなデータが多そうなため無効化している | **2.0%**削除(CC(lang=ja判定済み)の9099 URLで検証) | | --- | --- | --- | --- | --- | --- | | URLフィルタ | ブロックリスト | マッチしたらNG | 有効 | ・3/19(火)に仁平さんが作成した UT1 blocklist ・件数は多い(450万)が、日本語サイトは少ないため、ja_valid_domains.txt で絞り込んで(80万)使用 | **0.5%**削除(CC(lang=ja判定済み)の9099 URLで検証) | | URLフィルタ | ブロックリスト(追加) | マッチしたらNG | 有効 | ・Swallowに習って、wikipedia.org、5ch.net ・必要に応じて追加(-av , porn , -sex , xvideos) | **0.0%**削除(CC(lang=ja判定済み)の9099 URLで検証) | | 日本語判定 | lang=ja判定 | lang=jaのみOK | 未実装 | ・CommonCrawlからダウンロード時に判定済みのため未実装 | - | | 日本語判定 | FastText判定 | 日本語のみOK | 有効 | ・lang=jaであっても、textが他言語の場合はNG | **4.2%**削除 (776件のjsonlデータで検証) |
URLフィルタ | トップレベルドメイン | 一致すればOK | 無効化 | llm-jp-corpusからja_valid_domains.txt はllm-jp を取得 | **2.0%**削除(CC(lang=ja判定済み)の9099 URLで検証) |
---|---|---|---|---|---|
URLフィルタ | ブロックリスト | マッチしたらNG | 有効 | **UT1 blocklistを使用.**件数は多い(450万)が、日本語サイトは少ないため、ja_valid_domains.txt で絞り込んで(80万)使用 | **0.5%**削除(CC(lang=ja判定済み)の9099 URLで検証) |
URLフィルタ | ブロックリスト(追加) | マッチしたらNG | 有効 | Swallowコーパスに習って,wikipedia.org,5ch.netを追加.独自で「-av , porn , -sex , xvideos」を追加 | **0.0%**削除(CC(lang=ja判定済み)の9099 URLで検証) |
# jsonl_dataで776件を渡して、有効な743件を返却
def urlfilter_for_jsonl_data(jsonl_data):
# 略
return filtered_jsonl_data
メモ
URLのトップレベルドメインを ja_valid_domains.txt で絞る
RefinedWeb_DomainBlocklist.txt ブロックリスト
NG表現リスト(追加ブロックリスト)にも対応しておく
htmlのlang=jaで絞る
FastTextによる日本語判定
検証に使ったデータ