NLP2024まとめ | Notion

言語処理学会第30回年次大会(NLP2024) プログラム

日本語 LLM 構築におけるコーパスクリーニングの網羅的評価

Uzushio: A Distributed Huge Corpus Processor for the LLM Era

継続事前学習による日本語に強い大規模言語モデルの構築

**Swallow コーパス: 日本語大規模ウェブコーパス**

大規模言語モデルの日本語能力の効率的な強化: 継続事前学習における語彙拡張と対訳コーパスの活用

ichikara-instruction LLM のための日本語インストラクションデータの作成

大規模言語モデル houou (鳳凰): 理研 ichikara-instruction データセットを用いた学習と評価

llm-jp-eval: 日本語大規模言語モデルの自動評価ツール

日本語TruthfulQAの構築