https://zoom.us/rec/share/1pK5LIkUORd1_Mydl51JX5cLhO7pQJY99WpyCD69qPLcOkoW0gE6raxkWm1FdP-h.sRUAU8eh1XVUEtkY
パスコード: EQnF#xw0
開発テーマ・概要
- 当チームでは、上質な日本語データベースの構築と活用に焦点を当てた開発を行っています。具体的には、高品質な日本語テキストデータを大規模に収集・加工し、大規模言語モデルの学習に適したデータセットを作成することを目指しています。
- データ収集においては、CommonCrawlをはじめとする大規模ウェブデータから日本語テキストを抽出し、ルールベースのフィルタリングに加え、人手によるアノテーションを行うことで、クリーンで高品質なデータを選別します。また、学術論文や書籍など、ウェブ以外の日本語データも積極的に取り入れ、多様性に富んだデータベースの構築を目指します。
- 収集したデータは、先進的な自然言語処理技術を駆使して加工・統合し、大規模言語モデルの学習に最適化します。具体的には、文書のクラスタリングや重複除去、カリキュラム学習に対応したデータの順序付けなどを行います。
- さらに、構築したデータベースを用いて、最先端の大規模言語モデルを学習・評価し、日本語処理タスクにおける性能向上を図ります。
チーム全体の開発状況
- 7-8b程度の事前学習が開始
- ファインチューニングデータセットのアノテーションが課題
開発のマイルストーン
- データ準備
- モデル学習コード準備
- シングルGPUでの稼働確認、実績
- マルチノードでの稼働確認、実績
- うまくいきそうか計画の確信度
直近1週間でやったこと
- コード: 7-8bモデルの事前学習の知見を集積。
- 学習率を下げたgpt2ベースのモデルであれば、少なくとも1日程度は、loss spikeやモデル崩壊なしに学習を進められることを見出した(5/1)