モデルアーキテクチャー開発に関係する方が、読むべき情報を共有いただけますと幸いです。
LlaMa2
https://scontent-itm1-1.xx.fbcdn.net/v/t39.2365-6/10000000_662098952474184_2584067087619170692_n.pdf?_nc_cat=105&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=uuSlvGIbKxcAX9YGqt4&_nc_ht=scontent-itm1-1.xx&oh=00_AfARiPhwdzX4n7a7rOTAfsGkUVNetB_GXQjT44UZO40ehQ&oe=65F6DA7F
LLMの学習部分のコードは?
llama2のアーキテクチャを変更してpre trainingしてみる
if001さんのZennの記事から、MoEについて
MoEの概要について
TIPS
大規模言語モデルの学習に必要な計算量試算
松尾研標準コードの確認&実行