データの収束に向けて、データ管理スプレッドシートを更新しています。
Team-Hatakeyama-Phase2データ管理 - Google Sheets
予定している時点でとりあえず、書いてください
今更ですが管理番号を付与します。
/storage5/shared/p2_corpus/before_tokenize_jsonl/arithmetic_qa_by_rules_20240802
⇒/storage5/shared/p2_corpus/before_tokenize_jsonl/**A01_**arithmetic_qa_by_rules_20240802 [番号]_ をファイル名先頭につけてください
使用済みの /before_tokenize_jsonl の中身を移動
(最終投入用は、まだ移動しない)
大きく対応は2つ
削除:ダウンロードしただけのデータ
例)fin-web
/storage5/shared/p2_corpus/used_corpus_for_upload/corpus_to_be_deleted
に移動し、8/10のMTGで確認後削除(中間データは全て削除をお願いします) Huggingfaceにアップロード:新たなに生成したデータ、編集・クリーニングが特殊で公開価値のあるもの
例)合成データ、Chatボットアリーナ **** に移動お願いします。
西澤でHuggingfaceアップロードします(補助をお願いするかも。一旦の責任者)