はじめに

このサブチームでは, 日本語LLMの事前学習データセットを構築することを目指しています.

畠山チーム全体の方針として, メンバーに付与されるGCP環境での学習以外はチーム内外の

協力で進めるということがあります. そのため畠山チーム外でも参加はWelcomeです.

チームの打ち合わせやメンバーのリストなど諸々をこのページにまとめる予定ですので,

このページをお気に入り登録お願いいたします!

目的

取り組んでいく内容 (優先順位別)

現状, 以下からアクセスできるテーマ一覧リストをご確認ください 畠山Tサブチーム (notion.so)

次に好きなテーマを2つまで選択して, 以下のフォームでお伝えください.

事前学習データセットチーム テーマ分け (google.com)

現在の状況 (適宜更新!)

事前学習データセット 進捗

方針 (暫定)

例えばCommonCrawlには最高7300万程度の日本語テキストデータが

含まれるということが分かっており, 注力案件とわかる.

Document