Skip to content

sbintuitions/nonexistent_japanese_rag_benchmark

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 

Repository files navigation

実在しないエンティティや出来事に関する合成文書を用いたRAGベンチマーク

TL;DR

本レポジトリは,NL研263で発表した論文「実在しないエンティティや出来事に関する合成文書を用いたRAGベンチマークの構築」で構築した日本語RAGベンチマークを公開するものです。

論文の趣旨であるデータ汚染 (contamination) 防止のため,平文ではなく,パスワード付きのZIPファイルで配布しております。

パスワードはこちらのGoogle Formをご記入いただくことで表示されます。 ご利用の前に,必ずご利用上の注意点をご確認ください。

概要

本リポジトリは,論文「実在しないエンティティや出来事に関する合成文書を用いたRAGベンチマークの構築」で提案された,検索拡張生成(RAG)の評価用ベンチマークデータセットです。

このベンチマークは,LLMによって生成された「実在しないエンティティや出来事」に関する合成文書と,それに対応する質問・正解(QA)ペア (アノテーションにより作成) で構成されています。

ベンチマークの目的(データ汚染の回避)

既存のRAGベンチマークの多くは,Wikipediaや新聞記事など公開データを使用しています。 しかし,これらのデータはLLMの事前学習コーパスに既に含まれている可能性が高い(データ汚染)ため,LLMが検索した文書に基づいて回答しているのか,単に内部知識で回答しているのかを正確に評価できません。 本ベンチマークは,LLMの学習データに含まれていない合成文書を使用することで,このデータ汚染の問題を回避し,RAGの「関連文書に基づく回答生成能力」をより正確に評価することを目的としています。

データセット構成

本ベンチマークは,RAGが応用される主要なシナリオを想定した,以下の4種類のデータセットで構成されています。

  1. Pseudo Wikipedia
    • 実在のWikipedia記事を模倣して合成された、架空のエンティティに関する紹介・解説文。
  2. Pseudo News
    • 「虚構新聞」の記事を模倣して合成された、架空の出来事を報じるニュース記事。
  3. Pseudo Product Review
    • レビューサイトの記事を模倣して合成された、実在しない商品の仕様や使用感の記述。
  4. Pseudo Company Rules
    • 架空の企業の社内規程や就業規則をモデルにした文書(勤務体系、報酬、福利厚生など)。

質問タイプ

各データセットには,RAGに求められる異なる能力を測定するため,以下のタイプの質問が含まれています。

  • Extracting
    • 正解が文書内にほぼそのまま記述されており,情報の抽出能力を測る質問。
  • Reasoning
    • 文書中の情報と,常識的または簡単な論理推論を組み合わせて回答を導く質問。
  • Computing
    • 文書中の数値や時間などを加工・計算して回答を導く質問。
  • Information Integrating
    • 文書内の複数箇所の情報を整理・要約して回答を導く質問。

データセット統計

次の4つのデータセットで構成されます。

  • Pseudo Wikipedia
  • Pseudo News
  • Pseudo Product Review
  • Pseudo Company Rules
Dataset #Doc #QA Extracting Reasoning Computing Information Integrating
Pseudo Wikipedia 50 166 96 36 21 21
Pseudo News 47 173 90 36 18 31
Pseudo Product Review 40 48 13 15 0 24
Pseudo Company Rules 24 175 119 45 2 11
Total 161 563 318 132 42 87

フォーマット

データセットごとに,データをjsonで保存しています。

Pseudo Wikipedia,Pseudo NewsとPseudo Company Rulesは以下のstructureです。

{
    <passage_id>: {
        "title": <title>,
        "passage": <passage>,
        "qas":
            [
                {
                    "qid": <question_id>,
                    "question": <question>,
                    "answers": [<answer1>, ...],  # 正解が2つ以上ある例も少数存在しています
                    "type": [<type1>, ...]  # 質問のタイプが2つ以上ある例も少数存在しています
                },
                ...
            ],
            ...  # 複数のQAがあります
    },
    ...
}

Pseudo Product Reviewでは,複数のpassageを参照する必要なquestionが存在していますので,次のstructureを用いています。

{
    "passages": {
        <passage_id>: {
            "title": <title>,
            "passage": <passage>,
            "relevant_qas": [<qid1>, <qid2>, ...]  # このpassageを参考する必要があるすべてのquestionのid
        },
        ...
    },
    "qas": {
        <qid>: {
            "question": <question>,
            "answer": <answer>,
            "relevant_passages": [<passage_id1>, <passage_id2>, ...],  # このquestionに答えるのに必要な情報源となるすべてのpassageのid
            "type": [<type1>, ...]
        },
        ...
    }
}

ライセンス

本ベンチマークは,クリエイティブ・コモンズ 表示 - 継承 4.0 国際 (CC BY-SA 4.0) ライセンス の下に提供されます。

ただし,本ベンチマークには OpenAI社 および Google社のモデルを用いて生成された合成文書が含まれます。 そのため,CC BY-SA 4.0 のライセンス条件に加え,OpenAIの利用規約 (例: OpenAI Services Agreement) にも従う必要があります。

ご利用上の注意点

本ベンチマークは,LLMの事前学習コーパスに含まれていない合成文書を用いることで,データ汚染の問題を回避し,RAGの性能を正確に評価することを目的としています。 この評価環境の信頼性を将来にわたって維持するため,ダウンロードされたデータセットのファイルや内容を,Webサイトや公開リポジトリ (HuggingFaceなど),SNS等へ再配布することはお控えいただけますよう,ご協力をお願いいたします。

Citation

@techreport{li2025construction,
  author = {李,聖哲 and 大萩,雅也 and 塚越,駿 and 福地,成彦 and 柴田,知秀 and 河原,大輔},
  issue = {29},
  month = {Mar},
  year = {2025},
  title = {実在しないエンティティや出来事に関する合成文書を用いたRAGベンチマークの構築},
  journal = {Vol.2025-NL-263,No.29,1-11}
}

@article{li2025construction,
  author = {Li, Shengzhe and Ohagi, Masaya and Tsukagoshi, Hayato and Fukuchi, Akihiko and Shibata, Tomohide and Kawahara, Daisuke},
  issue = {29},
  month = {Mar},
  year = {2025},
  title = {{Construction of a Japanese RAG Benchmark Using Synthetic Documents on Non-existent Entities and Events}},
  journal = {Vol.2025-NL-263,No.29,1-11}
  note = "in Japanese"
}

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published