4/22の週 | Notion

チーム名: hatakeyama
日時 4/23

https://matsuokenllmcommunity.slack.com/files/U05Q0P6T9UH/F06VBS99D5M/video1239750529.mp4

開発テーマ・概要

当チームでは、上質な日本語データベースの構築と活用に焦点を当てた開発を行っています。具体的には、高品質な日本語テキストデータを大規模に収集・加工し、大規模言語モデルの学習に適したデータセットを作成することを目指しています。
データ収集においては、CommonCrawlをはじめとする大規模ウェブデータから日本語テキストを抽出し、ルールベースのフィルタリングに加え、人手によるアノテーションを行うことで、クリーンで高品質なデータを選別します。また、学術論文や書籍など、ウェブ以外の日本語データも積極的に取り入れ、多様性に富んだデータベースの構築を目指します。
収集したデータは、先進的な自然言語処理技術を駆使して加工・統合し、大規模言語モデルの学習に最適化します。具体的には、文書のクラスタリングや重複除去、カリキュラム学習に対応したデータの順序付けなどを行います。
さらに、構築したデータベースを用いて、最先端の大規模言語モデルを学習・評価し、日本語処理タスクにおける性能向上を図ります。

チーム全体の開発状況

何はともあれ本番環境での学習開始と高速化を最優先に活動中。状況は以下の通り。

本番環境での学習の状況

データ準備
- 200Bでtokenize済み
モデル学習コード準備
- 10bクラスのコードを整備
シングルGPUでの稼働確認、実績
- 済み
マルチノードでの稼働確認、実績
- 10bで動作確認済み
うまくいきそうか計画の確信度
- 4/23時点: シングルノードで200TFLOPs程度を確認済みだが､マルチノードにすると120TFLOPsしか出せていない
  - 経験上､A100でもこれくらいは出そう
  - transformer engine使わずに､500TFLOPSは行くらしい
  サイバーエージェントが手がける日本語LLM開発　MLエンジニアが語る「Weights & Biases」の活用
  - 200bの学習に2ヶ月ほど要してしまうことになるので､ボトルネックを確認して改善したい

サブチームからの情報共有

サブチーム1: 指示データセット