概要

'-av.',
'porn',
'-sex',
'xvideos',

タスク(やるべきこと)

Swallow, RefinedWebでのURLフィルタリングの取り組み

SwallowコーパスのURLフィルタリング(ブロック対象)の工夫は以下です.1番はRefined Web基準のUT1 blocklistを作成し実装済み.4番も既に実装済み.

1. UT1 blocklist10)に収録されている
2. 出会い系サイトのサービス名を一度でも含む
ページの割合が 0.001 を超える場合
3. NG 表現を含む割合が0.005を超える場合
4. *wikipedia.org
5. *.5ch.net

【参考2】RefinedWebのURLフィルタリングの工夫は以下です.

1. UT1 blocklist10)に収録されている
2. スコアリングで点数が閾値を超えたもの?
	- soft,hard,strictの3つのスコアリング
		- strict(最も厳格なもの(厳格な部分一致))では、サブ文字列内に禁止された単語と一致するURLを禁止します(不正なウェブサイトは類似の認識スキームを回避するために、アダルトキーワードを分割するかもしれません
		- hard(厳格な全単語一致)では、リスト内の単語と完全に一致するURLを禁止します。
		- ソフトな単語一致では、最低2つの一致が必要

culturaX_100k_ja.json

url_filtering.ipynb

RefinedWeb_DomainBlocklist.txt