segments_1707947473347.0_warc_CC-MAIN-20240220211055-20240221001055-00010_japanese.json
segments_1707947473738.92_warc_CC-MAIN-20240222093910-20240222123910-00100_japanese.json
drive-download-20240328T010930Z-001.zip
単語の羅列
個人情報のマスクの必要
広告データの削除
©︎コピーライトの削除
意味のない文字列や、無関係な情報が含まれている
(旧) nپ@“ٹچeژزپF‚ئ‚µ‚«پ—ڈh’
(新) è‚ة‚حڈؤ•¨ٹضŒW‚جژ{گف‚â“©Œ|‰ئ‚جچH–[‚ھ‚ ‚èپAڈؤ‚«•¨ƒtƒ@ƒ“‚ة‚حŒ©“¦‚¹‚ب‚¢ƒGƒٹƒA‚ة‚ب‚ء‚ؤ‚¢‚ـ‚·پBƒIƒٹƒWƒiƒ‹‚ب‰z‘Oڈؤ‚ھ
除去方法の検討
import re
# 不規則な文字列
text = "nپ@“ٹچeژزپF‚ئ‚µ‚«پ—ڈh’"
# アルファベットと数字のみを保持し、それ以外の文字を削除
filtered_text = re.sub(r'[^a-zA-Z0-9]', '', text)
print(filtered_text) # 出力例: "neFh"
正規化
import unicodedata
# 不規則な文字列
text = "nپ@“ٹچeژزپF‚ئ‚µ‚«پ—ڈh’"
# Unicode カテゴリーを使ってアルファベットのみを保持
filtered_text = ''.join(c for c in text if unicodedata.category(c).startswith('L'))
print(filtered_text) # 出力例: "neFh"
文章中のURLが必要かどうか
新旧問わずに重複文ありそう
URLとテキストからは弾けなさそうなものに対しての「タイトルフィルタリング」
{
"record_id": 104007, "url": "", "title": "大阪・神戸の高収入アルバイト風俗求人(ホテヘル・デリヘル・オナクラ)| やんちゃな子猫求人", "timestamp": "2024-02-22T11:50:54Z", "text": "FORM\n応募フォーム\nGROUP LINK\nグループ女性求人リンク\nSITEMAP\nサイトマップ\n> 大阪・神戸の高収入アルバイトやんちゃな子猫求人TOPページ\n> やんちゃな子猫とは\n> お給料のこと\n> 特典と待遇\n- > 嬉しい好待遇\n- > アリバイ対策\n- > マイナンバー制度のこと\n> その他\n- > プライバシーポリシー\n- > 会社概要\nやんちゃな子猫でのお仕事までの簡単ステップ説明です★面接は24時間365日!お店見学だけでも大歓迎!体験入店も即日歓迎、高収入をGET出来ます!\nFORM\nGROUP LINK\nSITEMAP" }