試験対策班の検討により, 評価データセットの観点から どの事前学習データセットを扱えばよいのかという 検討が集まってきたので, どのデータセットを検討して, どのデータを検討しないのかというのを検討する
以下のサイトから確認を行う. 進捗や 基本的な 指示データセット班の方針、前提知識などが記載されている.
[Todo] 1)随時内容を確認する
現状では, 試験対策の観点では以下のnotionに記載されている いくつかの質問タイプに該当するデータセットが事前学習に含まれ ているとうれしい. いったん基本的な日本語データセットを構築してから 質問タイプに漏れがないかを確認するようにする 評価指標の確認・試験対策 (notion.so)
[Todo]
1)いったん加工はしない日本語データセットを構築してから 複数人で漏れがないかを確認する ⇨クラスタリングするコードもあり, これを活用する 2)4月には, 質問タイプに対応するデータセットを用意しておく必要がある.
1)JMT-Benchとjp-evalどっちを比重を取るか? ⇨モデルを切り替える ⇨質問文でのperplexityで回答する ⇨運営に質問する ⇨分類器を作成する (19000件で作成)
2)jp-evalのようなデータを学習する? ⇨指示データの学習 3)Bertなどの単純な分類器
Zoom 録画URL
https://us06web.zoom.us/rec/share/ov_wPnigrxGTe1OEelkMu9kdvABCdQV29A9CxBAC3kYWiTugNXV3Iv8x8g1zCx0L.RbBvO2pQONZiJgOW
zoom もともとのURL