現在のDatasetsグループの動き (メンバー)
現在11人の方+CommonCrawl検討
メイン(日本語を多く含むデータセット) : mC4 : CommonCrawl :
メイン2(学術データセット) : PMCOR:
可能性があるデータセット :
英語 : SlimPajama
コーディング : The Stack
数学 : OpenMathInstruct-1-1.8m-ja
ーーーーーーーーーーーーー P2. 現在のメンバー
メイン(日本語を多く含むデータセット):
...
CommonCrawl : @Takahashiさん @Yuki Namiuchiさん
mC4 : @内藤匠海(team_hatakeyama, core member)さん @N_Yoshimotoさん, @Hitoshi Komurasakiさん @上林さん
メイン2(学術データセット) : PMCOR: @山田涼太 (team hatakeyama, member)さん @masaki okamuraさん @Kentaro Iwataさん
可能性があるデータセット :
英語 : SlimPajama
コーディング : The Stack
数学 : OpenMathInstruct-1-1.8m-ja