このサブチームでは, 日本語LLMの事前学習データセットを構築することを目指しています.
畠山チーム全体の方針として, メンバーに付与されるGCP環境での学習以外はチーム内外の
協力で進めるということがあります. そのため畠山チーム外でも参加はWelcomeです.
チームの打ち合わせやメンバーのリストなど諸々をこのページにまとめる予定ですので,
このページをお気に入り登録お願いいたします!
現状, 以下からアクセスできるテーマ一覧リストをご確認ください 畠山Tサブチーム (notion.so)
次に好きなテーマを2つまで選択して, 以下のフォームでお伝えください.
事前学習データセットチーム テーマ分け (google.com)
例えばCommonCrawlには最高7300万程度の日本語テキストデータが
含まれるということが分かっており, 注力案件とわかる.