メモ

理解したこと、気になったことをメモ

preprocessing
- データチームと担当範囲の認識合わせが必要そう
train
- トークナイザの学習~事前学習~fine-tuningまで
- 今回の環境はGCP、今記載されているABCIやさくらインターネットの手順は使える？
- megatron-deepspeedのexampleスクリプトを実行するshファイルだけ？
  
  GitHub - microsoft/Megatron-DeepSpeed: Ongoing research training transformer language models at scale, including: BERT & GPT-2
- ↑を理解しないとどこまで手を加えられそうかわからないかも
- train_sentencepiece_tokenizer.py
  - デフォルトはunigram
  - ["unigram", "bpe", "word", "char"]を選択可能（bpeを使う場合、--model_type bpeを引数に指定する）
- 事前学習スクリプト
  - GPT-3系モデルのconfig設定（以下が選択可能）
    - Small 125M、 Medium 350M、Large 760M、 XL 1.3B、2.7B、6.7B、13B、175B
    - その他の設定（学習トークン数、学習率、logging、チェックポイント etc）
    - Megatron-DeepSpeedのpretrain_gpt.pyを実行
      - Class GPTModelを使用している
- ファインチューニングスクリプト
  - llm-jp-sft/train.pyを使用したSFT
  - データセット：timdettmers/openassistant-guanaco ←多言語（英語メイン）
posttraining
- データのダウンロードコード
eval
- scripts/run_eval.py　を実行
- leader boardはまだの模様(404)

実行時間の目途について

ColabでA100（←Phase0で提供予定）を引けたので試してみた結果

[before the start of training step] datetime: 2024-03-08 05:03:17
[2024-03-08 05:03:55,370] [INFO] [[logging.py:96](<http://logging.py:96/>):log_dist] [Rank 0] step=10, skipped=0, lr=[9.437183999999999e-07, 9.437183999999999e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
steps: 10 loss: 7.5265 iter time (s): 3.791 samples/sec: 67.534
iteration       10/ 1144409 | consumed samples:         2560 | consumed tokens:      5242880 | elapsed time per iteration (ms): 3808.0 | learning rate: 9.437E-07 | global batch size:   256 | lm loss: 7.668866E+00 | loss scale: 2048.0 | grad norm: 20.545 | num zeros: 0.0 | actual seqlen:  2048 | number of skipped iterations:   0 | number of nan iterations:   0 | samples per second: 67.226 | tokens per gpu per second (tgs): 137679.790 | TFLOPs: 102.32 |
[Rank 0] (after 10 iterations) memory (MB) | allocated: 2233.37841796875 | max allocated: 25985.74658203125 | reserved: 26938.0 | max reserved: 26938.0
[2024-03-08 05:04:32,746] [INFO] [[logging.py:96](<http://logging.py:96/>):log_dist] [Rank 0] step=20, skipped=0, lr=[1.9922943999999996e-06, 1.9922943999999996e-06], mom=[(0.9, 0.95), (0.9, 0.95)]
steps: 20 loss: 6.7812 iter time (s): 3.719 samples/sec: 68.829

デフォルトの設定（GPT-3 125M，RedPajamaのarXivデータ(28Bトークン)）で1176h（49日）かかる試算（3.7s/iteration × 1144409 iterations）
1Bトークン当たり42h
スケーリング則によると，100Mのモデルを学習するのに必要なトークン数は2B程度
2Bトークン学習させた場合，1GPUで4日程度かかりそう
arXivを学習させても日本語話せないので，どうせならmC4(ja)とか既存の日本語のデータセットを学習させた方がいいかも？
- データセットの指定はここなので，この辺をいじればできるはず…

気づいたこと：

PreprocessingのセクションでpreprocessしたデータをTrainingのセクションで使っているわけではなく、この２つのセクションは独立した例になっている。
Trainingでは、既に準備済みのarxivのデータでtrainingする。
sentencepiece, wandb, transformers, nltkをpip installする必要があった。
あとで、pip installを追加した版を共有しようかと思います。
なぜか事前学習が始まってもwandbにレポートが上がって来ていない。

１件バグで，以下のフィルタリング部分

!python -m preprocessing.filtering --input_dir=input --output_dir=output