はじめに
班の目標
指示データセット班の目標は大きく分けて以下の2つとなります。2つの目標を実現するためのタスクを検討しスケジュールを意識しながら消化していきましょう。
- 短期的な目標 : コンペに勝つための日本語指示データセットの作成
- 長期的な目標 : 今後全ての日本語LLM作成に利用可能な日本語指示データセットの作成
タスクまとめ (逐次追記されていきます。)
はじめに に書いた背景を踏まえ、短期目標と長期目標を達成するために以下を満たす必要があります。
-
ある程度の粒度でカテゴライズされつつ、高品質な日本語指示データセットの作成
- [x] タスクカテゴリの案出し Password : teamohuton
miroでタスクカテゴリの案を収集しています。何かあれば!!!誰でも!!!追記してください。
何を書いても構いません! タスク完了となっていても3/15までは案を受け付け続けます!
(林さんから再度アナウンス)
- [x] (締め切り 3/16) タスクカテゴリの案の整理
- [x] (締め切り 3/18) タスクカテゴリの共通確認
- [x] (締め切り 4/15) (やってくれる人募集!)スプレッドシート形式を確認の上、GAS, Python等を用いてdatasetsとして書き出しフローhttps://colab.research.google.com/drive/11rl9Wie22JVIB5bjj3W6bnygfWFlNijW?usp=sharing
- [ ] (5月初旬頃まで) カテゴライズされた指示データセット各10件程度ずつの作成
- [ ] (上記タスク後にアップロード) (やってくれる人募集中!!!) 収集されたデータの書き出しとHugging faceへdatasetsの形でアップロード
上記リンク先を参考に、スプレッドシートからデータの書き出し、HFへdatasetsをアップロードする。
-
自動収集可能な日本語指示データセットの探索
-
高品質な日本語指示データセットの収集環境整備
- [ ] 高品質な日本語指示データセットをプロジェクトメンバーおよび一般の方に作成可能とするためのフロー案の検討と告知
- [ ] (締め切り 未定) データ作成フロー資料の公開とアナウンス
(畠山さんの既存のものを整理し直して目につくようにする。)
- [ ] (締め切り 未定) プロジェクトメンバー用の快適なデータ作成環境の構築
- [ ] (締め切り 未定) 一般の方用の快適なデータ作成環境の構築
- [x] (3/6) geniac_04_datasetへmiro再告知 (林さん)
- [ ] (3月中に公開) 日本語指示データ収集Webページの公開 (p1atdevさんの可能な範囲で)
-
コンペ試験対策
- [x] 評価指標の確認
本内容はなるはやで達成チームメンバーに告知する。
特に事前学習班に共有し、事前学習データセットの検討資料とする。
- [x] 評価データクラスタリング手法のテスト実装(soneさん)
- [ ] 特定のプログラミング言語を抽出する手法開発 (今回不要説)
- 事前学習データセット班の進捗
- https://miro.com/app/board/uXjVNl-9nHc=/
高品質な日本語指示データセットのカテゴリ作成
評価指標の確認