Goal
ルールベースのフィルタリング方法を決定し,実装する
フィルタリング①:削除する文章
有害(主にアダルト),短すぎて内容が無い文章
フィルタリング②:Rephrasingに回す文章
単語の羅列など,形式が不十分なもの
入力データのサンプル(新CommonCrawl, 776件)
sample_data.jsonl