概要
- CulturaX(-ja)について,CulturaXの論文中ではすでに「UT1 blocklist」によるURLフィルタリングが行われていると書いてあった.
- しかし,3/19(火)に仁平が作成した「UT1 blocklist」と,添付のサンプルコードで実験してみたところ,100,000件(URL付きの文章は79,442件)のうち,7件がブロックリストに該当するURLであった.
- また,UT1BlockListでは弾けていないadultなサイトの文章もそこそこ多いため,NG表現を工夫したほうが良いかもしれない.以下は仁平が確実に必要だと考えたNG表現リスト.
'-av.',
'porn',
'-sex',
'xvideos',
- また,wikipediaのURLを持つものに関しても,別途で提供データセットのwikipediaデータを使用する場合,重複する恐れがあるので削除したほうが良いかもしれない.
タスク(やるべきこと)
- NG表現でのフィルタリング
- 例1: HojiCharの辞書を参考に,NG表現を考える
- 例2: 作成したUT1 BlokList内で頻度の高いn-gramを禁止単語にする
- こちらは仁平がサンプルコードでも試したが,微妙かもしれない
- 例3: RefinedWebのようなスコアリング(soft, hard,strict)を行う
Swallow, RefinedWebでのURLフィルタリングの取り組み
SwallowコーパスのURLフィルタリング(ブロック対象)の工夫は以下です.1番はRefined Web基準のUT1 blocklistを作成し実装済み.4番も既に実装済み.
1. UT1 blocklist10)に収録されている
2. 出会い系サイトのサービス名を一度でも含む
ページの割合が 0.001 を超える場合
3. NG 表現を含む割合が0.005を超える場合
4. *wikipedia.org
5. *.5ch.net
【参考2】RefinedWebのURLフィルタリングの工夫は以下です.
1. UT1 blocklist10)に収録されている
2. スコアリングで点数が閾値を超えたもの?
- soft,hard,strictの3つのスコアリング
- strict(最も厳格なもの(厳格な部分一致))では、サブ文字列内に禁止された単語と一致するURLを禁止します(不正なウェブサイトは類似の認識スキームを回避するために、アダルトキーワードを分割するかもしれません
- hard(厳格な全単語一致)では、リスト内の単語と完全に一致するURLを禁止します。
- ソフトな単語一致では、最低2つの一致が必要
culturaX_100k_ja.json
url_filtering.ipynb
RefinedWeb_DomainBlocklist.txt