データセットにおける問題点の洗い出し

Goal

実際にデータセットの文章を目視で確認して，フィルタリングで取り除きたい文章や表現をリストアップする

(旧) CommonCrawlデータの問題点

概要
- hatakeyamaチームが取得したCommonCrawlのデータを旧CommonCrawlデータとします
- trafilaturaを使用せず，htnlからゴチャゴチャしてテキストを取得
  - 今ozakiチームで取得しているCommonCrawlの方がデータとして綺麗？
データサンプル (1つの例とこれらがたくさん入ったzipファイル)↓

segments_1707947473347.0_warc_CC-MAIN-20240220211055-20240221001055-00010_japanese.json

CC-MAIN-2024-10_ja_1.zip

問題点

(新) CommonCrawlデータの問題点

概要
- ozakiチームが取得している途中のCommonCrawlのデータを新CommonCrawlデータとします
- trafilaturaを使用
  - hatakeyamaチームのCommonCrawlよりもテキストが綺麗？
データサンプル (1つの例とこれらがたくさん入ったzipファイル)↓

segments_1707947473738.92_warc_CC-MAIN-20240222093910-20240222123910-00100_japanese.json

drive-download-20240328T010930Z-001.zip

問題点

(共通) CommonCrawlデータの問題点

概要
- 旧CommonCrawlのデータと，新CommonCrawlのデータの共通の問題点をこちらに列挙しましょう
問題点
- 単語の羅列
  - パンクズリスト
    - Disney Parks.info ＞トピックス＞ 6月11日
  - 単語の羅列は基本的に広告系が多い印象？
- 個人情報のマスクの必要
  - 名前
  - 電話番号
  - メールアドレス
  - 住所
  - 検討すべき事案
    - 歴史上，芸能などの名前は学習した方が良さそう
      - 何を持って「個人情報」とするか
- 広告データの削除
  - 製品の広告や販売情報（例: 製品価格，販売情報）が含まれている場合，これらは一般的な言語使用を反映していない可能性があり，言語モデルのトレーニングには適していない場合がある．
- ©︎コピーライトの削除
  - Copyright
  - ©︎
  - (C)
- 意味のない文字列や、無関係な情報が含まれている
  - (旧) nپ@“ٹچeژزپF‚ئ‚µ‚«پ—ڈh’
  - (新) è‚ة‚حڈؤ•¨ٹضŒW‚جژ{گف‚â“©Œ|‰ئ‚جچH–[‚ھ‚ ‚èپAڈؤ‚«•¨ƒtƒ@ƒ“‚ة‚حŒ©“¦‚¹‚ب‚¢ƒGƒٹƒA‚ة‚ب‚ء‚ؤ‚¢‚ـ‚·پBƒIƒٹƒWƒiƒ‹‚ب‰z‘Oڈؤ‚ھ
  - 除去方法の検討
    - 正規化
```
import re

# 不規則な文字列
text = "nپ@“ٹچeژزپF‚ئ‚µ‚«پ—ڈh’"

# アルファベットと数字のみを保持し、それ以外の文字を削除
filtered_text = re.sub(r'[^a-zA-Z0-9]', '', text)

print(filtered_text)  # 出力例: "neFh"
```
  - 正規化
    - Unicode プロパティ
```
import unicodedata

# 不規則な文字列
text = "nپ@“ٹچeژزپF‚ئ‚µ‚«پ—ڈh’"

# Unicode カテゴリーを使ってアルファベットのみを保持
filtered_text = ''.join(c for c in text if unicodedata.category(c).startswith('L'))

print(filtered_text)  # 出力例: "neFh"
```
- 文章中のURLが必要かどうか
  - 学習させることに意味ある？
    - URLを表示するタイミングとかは学べそうだが，今回のコンペで良いスコアを取るためには要らなそう（仁平）
- 新旧問わずに重複文ありそう
  - 旧
  - (新) ヒッグス粒子を探せ\n〜質量の起源にせまる〜\nヒッグス粒子を探せ\n〜質量の起源にせまる〜
- URLとテキストからは弾けなさそうなものに対しての「タイトルフィルタリング」
  
  {
  "record_id": 104007, "url": "
  
  https://yanneko.jp/workflow/
  
  ", "title": "大阪・神戸の高収入アルバイト風俗求人（ホテヘル・デリヘル・オナクラ）| やんちゃな子猫求人", "timestamp": "2024-02-22T11:50:54Z", "text": "FORM\n応募フォーム\nGROUP LINK\nグループ女性求人リンク\nSITEMAP\nサイトマップ\n> 大阪・神戸の高収入アルバイトやんちゃな子猫求人TOPページ\n> やんちゃな子猫とは\n> お給料のこと\n> 特典と待遇\n- > 嬉しい好待遇\n- > アリバイ対策\n- > マイナンバー制度のこと\n> その他\n- > プライバシーポリシー\n- > 会社概要\nやんちゃな子猫でのお仕事までの簡単ステップ説明です★面接は24時間365日！お店見学だけでも大歓迎！体験入店も即日歓迎、高収入をGET出来ます！\nFORM\nGROUP LINK\nSITEMAP" }

既存データセット（CulturaX ?）の問題点

概要

Goal

(旧) CommonCrawlデータの問題点

問題点

(新) CommonCrawlデータの問題点

問題点

(共通) CommonCrawlデータの問題点

既存データセット（CulturaX ?）の問題点

概要