※ v0.1の内容です(2024/03/04時点)

大規模言語モデルをフルスクラッチする練習 (環境構築ー事前学習まで)｜Kan Hatakeyama

メモ

理解したこと、気になったことをメモ

preprocessing
- データチームと担当範囲の認識合わせが必要そう
train
- トークナイザの学習~事前学習~fine-tuningまで
- 今回の環境はGCP、今記載されているABCIやさくらインターネットの手順は使える？
- megatron-deepspeedのexampleスクリプトを実行するshファイルだけ？
  
  GitHub - microsoft/Megatron-DeepSpeed: Ongoing research training transformer language models at scale, including: BERT & GPT-2
- ↑を理解しないとどこまで手を加えられそうかわからないかも
- train_sentencepiece_tokenizer.py
  - デフォルトはunigram
  - ["unigram", "bpe", "word", "char"]を選択可能（bpeを使う場合、--model_type bpeを引数に指定する）
- 事前学習スクリプト
  - GPT-3系モデルのconfig設定（以下が選択可能）
    - Small 125M、 Medium 350M、Large 760M、 XL 1.3B、2.7B、6.7B、13B、175B
    - その他の設定（学習トークン数、学習率、logging、チェックポイント etc）
    - Megatron-DeepSpeedのpretrain_gpt.pyを実行
- ファインチューニングスクリプト
  - llm-jp-sft/train.pyを使用したSFT
  - データセット：timdettmers/openassistant-guanaco ←多言語（英語メイン）
posttraining
- データのダウンロードコード
eval
- scripts/run_eval.py　を実行
- leader boardはまだの模様(404)