📚 事前資料
📣 議題
-
URLフィルタリング
URLフィルタリング
-
ルールベースフィルタリング
-
ルールベースフィルタリング
-
重複排除
-
CommonCrawlからのデータ抽出
- 時間の見積もり間違えていてすみませんでした(土下座)
- 4日間で 900/9000くらいのペースで進んでいます
- 理想的にはフィルタリングが完成する前に終わらせたいので,協力できる方はお願いします!
-
以下のタスクの担当者を決めたい
日本語判定 ← URLフィルタリング班で実施済み
- Wiktionaryのキュレーション
- 古文などの古い文章や工事中の文章を除いて,使えそうなものを抽出する
- データ
📖 議事録
出席者
✅
✅Go kikuchi サブチームリーダー
✅Haruto Otsuka サブチームリーダー
✅Shunji Takeshita サブチームリーダー
✅Minami Someya アシスタントリーダー
仁平海地 アシスタントリーダー
✅kannokoutarou
✅古賀義章
✅SHIGEKI KAJIMA
✅TOSHINISHI
✅中村風馬
tomo_yuki
決定事項
- タスクを以下のように進めていく
- URLフィルタリング
- 調査・実装がひと段落したので、他のチームを手伝う。
- ルールベースフィルタリング
- 進捗管理しつつ、調査を継続する。
- 「データセットにおける問題点の洗い出し」がひと段落したら「フィルタリングルールの調査・検討」へ合流する。
- 重複削除
- 明日から実装を進める。
- 4種類のライブラリを割り振った担当者ごとに調査する。
- CommonCrawlからのデータ抽出
- 現状ペースだと40日くらいかかるので、協力可能な人を募集。
- Wikiデータのキュレーションを手作業で割り振りたい
- Otsukaさんが主に作業。締め切りはPhase1開始の数日前程度。
- プログラムの構成は、LLMjpのものを改変していく。
アクション