言語処理学会第30回年次大会(NLP2024) プログラム
日本語 LLM 構築におけるコーパスクリーニングの網羅的評価
Uzushio: A Distributed Huge Corpus Processor for the LLM Era
継続事前学習による日本語に強い大規模言語モデルの構築
**Swallow コーパス: 日本語大規模ウェブコーパス
**
大規模言語モデルの日本語能力の効率的な強化: 継続事前学習における語彙拡張と対訳コーパスの活用
ichikara-instruction LLM のための日本語インストラクションデータの作成
大規模言語モデル houou (鳳凰): 理研 ichikara-instruction データセットを用いた学習と評価
llm-jp-eval: 日本語大規模言語モデルの自動評価ツール
日本語TruthfulQAの構築