第7回「コーパス構築WG_進捗報告」
論文データ
有害文書フィルタリング
学術ドメイン(特許)
第8回「コーパス構築WG_進捗報告」
NDL WARP PDF/HTML
特許
特許対訳は有用ではないか
特許の日本語だけを抽出する→きれいな日本語データ
特許に関する資料
NLP2024「JaParaPat: 大規模日英特許対訳コーパス」
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P8-23.pdf
https://alaginrc.nict.go.jp/jpo-outline.html
https://lotus.kuee.kyoto-u.ac.jp/WAT/patent/
NLP2024「特許請求の範囲の自動書き換え生成モデルのための大規模データセットの構築」
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/A9-5.pdf
対訳
対訳データ→学習おいて有用ではないか(学習順序)
例えば、英語コーパス→日本語コーパスの順に学習を進めていくよりも、英語コーパス→対訳コーパス→日本語コーパスの順で学習させた方がいいのではないか
事前学習における学習順序
人間における言語習得と似ていないのか
人間が学習しやすい順序と似ていないのか
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P7-11.pdf
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P8-16.pdf
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P8-23.pdf
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/C10-2.pdf
NLP2024コーパス系の論文