キャッチアップのためにやること

チーム体制 (最終更新 3/27)

チーム分け決定 (3/27更新)

※変更があればメモを残す

MTG (最終更新 3/27)

参加者に該当するMTGはなるべく参加をお願いします(参加できない場合は録画をご確認ください)

※ 参加者に該当していないMTGにも任意で参加できます

Slack channel (最終更新 4/2)

下記のchannelに参加してください

アナウンス(最終更新 4/8)

更新日 場所 概要
3/27 今後、毎週月・火・木の9:00~12:00は定期メンテナンス時間(インフラ環境の改善時間)とさせていただければと思います。
プロセスが強制シャットダウンとなりますので、上記時間帯はサーバにログインおよびご利用をお控え頂きますようご協力の程お願いいたします。
3/27 /home領域の使用率が100%に到達しております。
ディスク使用上限は10GB/人をルールとしております。
それ以上使われている方は削除、または/persistentshare/storage/にあるチームの領域に移動をお願いします。
もし自身の使用量がわからない方は、以下のコマンドで各ユーザーの使用量を吐き出しておりますので、ご確認ください。*随時追記中
cat /home/20240326_1734.txt
3/28 ・マルチGPUが月末またずに使用可能に(3ノード24GPU)
・NEDOからのGPUとサーバーの提供が4/15に始まります.しかしながら,松尾研の方で1週間ほど調整期間が用意されるようです.従って本番環境のスタートは4/22頃になりました.
それまでサーバーにすら入れないのか,や事前環境は22日まで使えるのかなどについては,後日アナウンスされます
3/31 https://matsuokenllmcommunity.slack.com/archives/C06GL3WP56Z/p1711866332975579 Phase0の後半戦として、マルチGPUでの事前学習検証の案内をしておりましたが、
既にプレ環境においてマルチGPUは使える状態となっておりますので、各チーム合計3ノードまででご利用をお願いします。
具体的な使い方が分からない方(チーム)は、ただいまマニュアルを用意しておりますので、もうしばらくお待ちください。
もう一点超重要なお知らせです。
現在皆様に提供しているプレ環境ですが、松尾研側で独自に用意した環境になっており、あらかじめ予算が組まれています。
皆様の近い方次第では、本番開始前に予算に達してしまい環境を停止になる恐れがございますので、
下記の2点についてご確認いただいた上で、必要以上の使い方はお控え頂き、最後まで利用できるようにご協力の程お願いいたします。
ストレージの利用容量が多くなるほど早く予算に達してしまいます。
こちらのサーバ利用ルールにおいて新しく30GB/名に設定させていただいたので、ご協力お願いします。加えて不要なデータは削除していただきますようお願いいたします。
GPUの利用時間が多くなればなるほど早く予算に達してしまいます。
不必要な学習は極力避けていただき、利用時以外はインスタンスの起動を停止指定いただきますようお願いします。
特にマルチGPUの場合、xGPU分の利用料がかかるため必要性を見定めた上でのご利用をお願いいたします。
各チームで利用できるGPUの数は合計3ノード分までになります。リーダー中心にチームごとで利用しているノード数を管理の上ご利用ください。
4/4 プレ環境の利用マニュアルについて内容を更新しました。
サーバ利用時のルールが変わりましたので、ご利用の皆様におかれましては再度一読していただくようお願いいたします。
またチーム内周知も合わせてお願いいたします。
https://docs.google.com/document/d/1kJiRqUFSm6pMFoIX4hqx1CxAIa5MBSwC9DndzB6pxqE/edit?pli=1#heading=h.cpq1nwhr0vjf
4/4 コンペルールの変更
4/6 hatakeyama-teamで作成したデータセットの共有

チームで作ってるデータセットを使いたい、という相談がありましたので、メモ書きを共有します。 ・向学のため、Huggingfaceなどで公開されてるデータセットの取得、処理、クリーニングなどは、各チームで自作検討された方が良いかと思います ・CommonCrawlなどを、新規に取得してます。これは、諸々の方々の頑張りはもちろんのこと、潤沢な金銭的リソースによって、幸いにも成立している部分が大きいこともあるので、プロジェクト内で、可能な範囲で共有したいと思います(後述) ・諸々の暫定レポはこちら https://huggingface.co/hatakeyama-llm-team ・一部のデータセットは、著作権の都合で、今のところ、privateにしてます。 →アクセストークンの付与 または、team hatakeyamaのHuggingfaceレポに、誰かを登録するのが手っ取り早い?ですかね、、 軽めのデータセット類 https://github.com/hatakeyama-llm-team/Dataset_for_BTM/tree/main/20integrate_texts/src ・CommonCrawl 5snapshot分などは処理サーバーからHuggingfaceへのアップロードが律速になっており、実は畠山もまだ、落とせてないです (Huggingfaceの1アカウントあたりの容量制限の目安が1tb程度までという制約も、軽く超えちゃいそうです) →Huggingfaceを経由せず、直接、データ転送する方法も検討中で、fixしてません https://matsuolab-geniac.notion.site/4-1-8363b45ccc864e49a3ad38e5f6c92132 このあたりは、スケジュール的に、チーム内でもわりとギリギリなので、交通整理&丁寧なマニュアルを作る余裕がないかもしれません、、 teamのdataset channelなどを読んでいただく、毎週火曜日18時のmeetingに出ていただく、などが良いかも?しれません | | 4/8 | ‣ | 開発メンバーの皆様 (10:27 内容更新しました。) 本件につきまして、下記を暫定ルールとして適用させていただきますので、ご確認と遵守のほどお願いいたします。 ルール制御:ノード指定(----nodelist)をしないでください。 システム制御:ユーザーのジョブのノード数を1に固定します(マルチノード禁止、ただしシングルノードマルチGPUは許可。後日マルチノードを再許可を検討します) システム制御:チームの同時実行ジョブ数上限を3に設定します sbatchの場合は6時間以内を厳守、srunの場合は3時間以内を推奨します | | 4/8 | ‣ | 【重要】 プレ環境のジョブ使用制限が厳しくなり、1チーム3ジョブまでになってしまいました https://matsuokenllmcommunity.slack.com/archives/C06GL3WP56Z/p1712536184712549?thread_ts=1712459614.567259&cid=C06GL3WP56Z 制限が守れるよう、誰が使っているか見える仕組みにしたいと思います ジョブを実行される方は、下記のnotionページに記載をお願いします https://www.notion.so/matsuolab-geniac/8904d988f2f54bada1c42c04fb77b958 リンクはこのchannelにブックマークしておきました! | | 4/9 | ‣ | コンペ、チームでのログの記録に関するwandbアカウントについてご連絡です ※※※※※プレ環境ではなく本番環境からご対応ください※※※※※ 各チームごとにwandbのteamアカウントを作成しました 経産省様にてGPUの使用などをモニタリングしますので、学習・推論スクリプトを回す際には必ずチームのwandbに記録をお願いします

  1. Team Hatakeyama: https://wandb.ai/weblab-geniac1
  2. Team Kumagai: https://wandb.ai/weblab-geniac2
  3. Team Sannai: https://wandb.ai/weblab-geniac3
  4. Team Nakamura: https://wandb.ai/weblab-geniac4
  5. Team Kawagoshi: https://wandb.ai/weblab-geniac5
  6. Team Ozaki: https://wandb.ai/weblab-geniac6
  7. Team Haijima: https://wandb.ai/weblab-geniac7 もし自分のチームを見れない方はチームリーダーに問い合わせてください(admin権限を渡しておりメンバーの追加権限があります)

コード例

your_project_name = 'pretrain' # 適当な名前でOK your_team_name = 'weblab-geniac1' # 自分のチーム名 wandb.init(project=your_project_name, entity=your_team_name)

学習コード

train_loss = awesome_sota_train()

記録

wandb.log({'train_loss': train_loss}) 詳細: https://docs.wandb.ai/ja/guides/track ログ記録についての問合せは、Slackの"GENIACコミュニティ"ワークスペースの"bcgとのやりとり_東京大学_開発チームリーダー"チャンネルでBCG様にご連絡ください。 コンペ用のwandbのteamを作成しました コンペはこちらのleaderboardに登録されたスコアを用いるので評価の際にはコンペ用のteamへログを飛ばしてください https://wandb.ai/weblab-geniac-leaderboard 学習を終え、コンペの評価スクリプトを動かす際のconfigをentity, projectを以下のように設定してください wandb: log: True entity: "weblab-geniac-leaderboard" project: "leaderboard" run_name: 'weblab-geniacN/awesome_model' 詳細: https://github.com/matsuolab/ucllm_nedo_prod/tree/main/eval (edited) | | 4/19 | ‣ | 間も無く本番になりますが準備のほどいかがでしょうか。 下記の通り、Phase1の予定をご連絡いたします。 Phase1 開始 4/22 12:00:00 プレ環境停止: 4/24 23:59:59 Phase1 終了 5/26 23:59:59 *4/22(月)12:00 JST以降、プレ環境のログインノードにはアクセスできる(=プレ環境の共有ディスクなどは参照できる)が、ジョブ実行はできなくなります。 プレ環境から本番環境へのデータ転送目的だけに利用してください。 よろしくお願いします。 (edited) | | 4/19 | ‣ | 【重要】 他チームとの話し合いにより 今週日本時間日曜の13時から22時まで間 プレ環境でジョブが実行できなくなります。 その時間にプレ環境のリソースを使って,MoE採用チームを代表してsannnaiチームでマルチノードでMoEの実験を行っていただきます.結果などは適宜フィードバック頂きます.コードレベルで頂けるかは現在相談中. 松尾研の予算との兼ね合いなので,何卒ご理解頂けるようお願いします. プレ環境は本番環境後も引っ越し用に少し使えますが,おそらくGPUリソースは使えないと思っておいたほうが良さそうです. |

チームでの議論(最終更新 4/6)