現在のDatasetsグループの動き (メンバー)

現在11人の方+CommonCrawl検討

メイン(日本語を多く含むデータセット) : mC4 : CommonCrawl :

メイン2(学術データセット) : PMCOR:

可能性があるデータセット :

英語 : SlimPajama

コーディング : The Stack

数学 : OpenMathInstruct-1-1.8m-ja

ーーーーーーーーーーーーー P2. 現在のメンバー

メイン(日本語を多く含むデータセット):

...

CommonCrawl : @Takahashiさん @Yuki Namiuchiさん

mC4 : @内藤匠海(team_hatakeyama, core member)さん @N_Yoshimotoさん, @Hitoshi Komurasakiさん @上林さん

メイン2(学術データセット) : PMCOR: @山田涼太 (team hatakeyama, member)さん @masaki okamuraさん @Kentaro Iwataさん

可能性があるデータセット :

英語 : SlimPajama

コーディング : The Stack

数学 : OpenMathInstruct-1-1.8m-ja