URLフィルタリング

Goal

ブロックすべきURLリスト（有害コンテンツや他データセットと重複するもの）を決定し，フィルタリング処理を実装する
（参考）仁平氏のアイデア検証

実装内容

| URLフィルタ | トップレベルドメイン | 一致すればOK | 無効化 | ・ja_valid_domains.txt は、llm-jp から入手・一致しなくても使えそうなデータが多そうなため無効化している | **2.0%**削除(CC(lang=ja判定済み)の9099 URLで検証) | | --- | --- | --- | --- | --- | --- | | URLフィルタ | ブロックリスト | マッチしたらNG | 有効 | ・3/19(火)に仁平さんが作成した UT1 blocklist ・件数は多い(450万)が、日本語サイトは少ないため、ja_valid_domains.txt で絞り込んで(80万)使用 | **0.5%**削除(CC(lang=ja判定済み)の9099 URLで検証) | | URLフィルタ | ブロックリスト(追加) | マッチしたらNG | 有効 | ・Swallowに習って、wikipedia.org、5ch.net ・必要に応じて追加（-av , porn , -sex , xvideos） | **0.0%**削除(CC(lang=ja判定済み)の9099 URLで検証) | | 日本語判定 | lang=ja判定 | lang=jaのみOK | 未実装 | ・CommonCrawlからダウンロード時に判定済みのため未実装 | - | | 日本語判定 | FastText判定 | 日本語のみOK | 有効 | ・lang=jaであっても、textが他言語の場合はNG | **4.2%**削除 (776件のjsonlデータで検証) |

URLフィルタ	トップレベルドメイン	一致すればOK	無効化	llm-jp-corpusからja_valid_domains.txt はllm-jp を取得	2.0%削除(CC(lang=ja判定済み)の9099 URLで検証)
URLフィルタ	ブロックリスト	マッチしたらNG	有効	UT1 blocklistを使用．件数は多い(450万)が、日本語サイトは少ないため、ja_valid_domains.txt で絞り込んで(80万)使用	0.5%削除(CC(lang=ja判定済み)の9099 URLで検証)
URLフィルタ	ブロックリスト(追加)	マッチしたらNG	有効	Swallowコーパスに習って，wikipedia.org，5ch.netを追加．独自で「-av , porn , -sex , xvideos」を追加	0.0%削除(CC(lang=ja判定済み)の9099 URLで検証)

IF

# jsonl_dataで776件を渡して、有効な743件を返却
def urlfilter_for_jsonl_data(jsonl_data):
	# 略
	return filtered_jsonl_data

メモ

URLのトップレベルドメインを ja_valid_domains.txt で絞る

llm-jp-corpus/scripts/dict/ja_valid_domains.txt at 9815fc53b6be5a6de714fb2858f23a011358f05e · llm-jp/llm-jp-corpus
- NGとなったURLのうち、数十件を目視で確認する限り、NGでも普通に日本語のサイトだったため、無効化することにした
RefinedWeb_DomainBlocklist.txt ブロックリスト
- RefinedWeb_DomainBlocklist.txtは450万件うち、.jpは、5.6万件(1.2%) ただし、5.6万件の内訳はblogspot.jpばかりで、blogspot.jpを除いた.jpは、579件しかない
- ja_valid_domains.txt以外のドメインは削除して使用する(450万件→80万件)。削除により、800秒→150秒くらいになる(速度5倍)
NG表現リスト(追加ブロックリスト)にも対応しておく
- swallow を参考に、wikipediaと 5ch を登録済み。その他、除外サイトがあれば入れる必要がある。要検討。。。
- URLを部分一致でブロックするためのもので、htmlの中身を解析して、NG判定するものではない
~~htmlのlang=jaで絞る~~
- CommonCrawlから日本語データをダウンロードする処理に既に組み込み済みのため実装不要
FastTextによる日本語判定
- jsonlを受け取って、url項目をURLフィルタ後、text項目をFastTextで言語判定し、日本語のみを通している。
- NG判定されたサイト数十件を目視で確認する限り、確かに日本語サイトではなかったため有効そうなので、そのままこのフィルタは入れてある。
- 2番目の候補の言語・確率なども取得できるが、現在は、最も確率が高い言語が日本語であるかを判定にしている
  - https://yag-ays.github.io/project/fasttext_language_identification/
- 他チームでは学習からやってるところもある模様だが、効果を未把握。学習する場合には、アノテーションも必要になると思われる。
  - https://github.com/KanHatakeyama/JapaneseWarcParser/tree/0222warc/mc4s
検証に使ったデータ
- CC-MAIN-2024-10_ja_1 のURLが思いのほか少なかったので、追加でCommonCrawlからURLを収集(lang=jaのみ)→URL 9099件 ※処理時間150秒
- sample_data.jsonl→URL 776件 ※処理時間17秒

Goal

実装内容

IF

リソース