4/15の週 | Notion

チーム名: hatakeyama
日時 4/16

動画

https://zoom.us/rec/share/fQRAYltRF_bmoPy2W8N2AENw96wEdXHS04xjgLAK-fwr27gGplZqw81UhtrvTs8g.dqax6eADTv4r_cFH

パスコード： *.41J%nQ

開発テーマ・概要

当チームでは、上質な日本語データベースの構築と活用に焦点を当てた開発を行っています。具体的には、高品質な日本語テキストデータを大規模に収集・加工し、大規模言語モデルの学習に適したデータセットを作成することを目指しています。

データ収集においては、CommonCrawlをはじめとする大規模ウェブデータから日本語テキストを抽出し、ルールベースのフィルタリングに加え、人手によるアノテーションを行うことで、クリーンで高品質なデータを選別します。また、学術論文や書籍など、ウェブ以外の日本語データも積極的に取り入れ、多様性に富んだデータベースの構築を目指します。

収集したデータは、先進的な自然言語処理技術を駆使して加工・統合し、大規模言語モデルの学習に最適化します。具体的には、文書のクラスタリングや重複除去、カリキュラム学習に対応したデータの順序付けなどを行います。

さらに、構築したデータベースを用いて、最先端の大規模言語モデルを学習・評価し、日本語処理タスクにおける性能向上を図ります。

チーム全体の開発状況

日本語400GB、英語300GBまでクリーニング済み (dedup後)
モデル学習コードはほぼ完了。来週微調整して動かす予定
マルチGPUで2.7Bモデルを30B tokenで動かした。マルチノードでの動作も確認済み
計画はおおむね順調。多分大丈夫な見込み

開発のマイルストーン

データ準備
- [回答]dedup前で日本語800gbまでクリーニング済み
- [回答]英語も準備済み300gb
モデル学習コード準備
- [回答]ほぼ完了。来週微調整して動かすだけ
シングルGPUでの稼働確認、実績
- [回答]マルチgpuで2.7bmodelを30b tokenほど動かした