内容

試験対策班の検討により, 評価データセットの観点から どの事前学習データセットを扱えばよいのかという 検討が集まってきたので, どのデータセットを検討して, どのデータを検討しないのかというのを検討する

Topic

1)試験対策+指示データセット班の動きについて

以下のサイトから確認を行う. 進捗や 基本的な 指示データセット班の方針、前提知識などが記載されている.

畠山Tサブチーム (notion.so)

[Todo] 1)随時内容を確認する

2)試験対策班の観点からみるデータセットの要件

現状では, 試験対策の観点では以下のnotionに記載されている いくつかの質問タイプに該当するデータセットが事前学習に含まれ ているとうれしい. いったん基本的な日本語データセットを構築してから 質問タイプに漏れがないかを確認するようにする 評価指標の確認・試験対策 (notion.so)

[Todo]

1)いったん加工はしない日本語データセットを構築してから 複数人で漏れがないかを確認する ⇨クラスタリングするコードもあり, これを活用する 2)4月には, 質問タイプに対応するデータセットを用意しておく必要がある.

1)JMT-Benchとjp-evalどっちを比重を取るか? ⇨モデルを切り替える ⇨質問文でのperplexityで回答する ⇨運営に質問する ⇨分類器を作成する (19000件で作成)

2)jp-evalのようなデータを学習する? ⇨指示データの学習 3)Bertなどの単純な分類器


Zoom 録画URL

https://us06web.zoom.us/rec/share/ov_wPnigrxGTe1OEelkMu9kdvABCdQV29A9CxBAC3kYWiTugNXV3Iv8x8g1zCx0L.RbBvO2pQONZiJgOW

zoom もともとのURL