事前学習データセット班

はじめに

このサブチームでは, 日本語LLMの事前学習データセットを構築することを目指しています.

畠山チーム全体の方針として, メンバーに付与されるGCP環境での学習以外はチーム内外の

協力で進めるということがあります. そのため畠山チーム外でも参加はWelcomeです.

チームの打ち合わせやメンバーのリストなど諸々をこのページにまとめる予定ですので,

このページをお気に入り登録お願いいたします!

現状, 以下からアクセスできるテーマ一覧リストをご確認ください畠山Tサブチーム (notion.so)

次に好きなテーマを2つまで選択して, 以下のフォームでお伝えください.

例えばCommonCrawlには最高7300万程度の日本語テキストデータが

含まれるということが分かっており, 注力案件とわかる.