モデルの学習・評価に関係する方が、読むべき情報を共有いただけますと幸いです。

大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part1:https://zenn.dev/turing_motors/articles/04c1328bf6095a

読むと良いかも

Common LLM settings:https://docs.google.com/spreadsheets/d/14vbBbuRMEHoqeuMHkTfw3uiZVmyXNuoSp8s-aHvfvZk/edit

DPO:

https://qiita.com/jovyan/items/6767c9fd944a636fdf88

MIX系

https://arxiv.org/abs/2403.07816

日本語モデルの特徴

700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました|ELYZA, Inc.