本レポジトリは,NL研263で発表した論文「実在しないエンティティや出来事に関する合成文書を用いたRAGベンチマークの構築」で構築した日本語RAGベンチマークを公開するものです。
論文の趣旨であるデータ汚染 (contamination) 防止のため,平文ではなく,パスワード付きのZIPファイルで配布しております。
パスワードはこちらのGoogle Formをご記入いただくことで表示されます。 ご利用の前に,必ずご利用上の注意点をご確認ください。
本リポジトリは,論文「実在しないエンティティや出来事に関する合成文書を用いたRAGベンチマークの構築」で提案された,検索拡張生成(RAG)の評価用ベンチマークデータセットです。
このベンチマークは,LLMによって生成された「実在しないエンティティや出来事」に関する合成文書と,それに対応する質問・正解(QA)ペア (アノテーションにより作成) で構成されています。
既存のRAGベンチマークの多くは,Wikipediaや新聞記事など公開データを使用しています。 しかし,これらのデータはLLMの事前学習コーパスに既に含まれている可能性が高い(データ汚染)ため,LLMが検索した文書に基づいて回答しているのか,単に内部知識で回答しているのかを正確に評価できません。 本ベンチマークは,LLMの学習データに含まれていない合成文書を使用することで,このデータ汚染の問題を回避し,RAGの「関連文書に基づく回答生成能力」をより正確に評価することを目的としています。
本ベンチマークは,RAGが応用される主要なシナリオを想定した,以下の4種類のデータセットで構成されています。
- Pseudo Wikipedia
- 実在のWikipedia記事を模倣して合成された、架空のエンティティに関する紹介・解説文。
- Pseudo News
- 「虚構新聞」の記事を模倣して合成された、架空の出来事を報じるニュース記事。
- Pseudo Product Review
- レビューサイトの記事を模倣して合成された、実在しない商品の仕様や使用感の記述。
- Pseudo Company Rules
- 架空の企業の社内規程や就業規則をモデルにした文書(勤務体系、報酬、福利厚生など)。
各データセットには,RAGに求められる異なる能力を測定するため,以下のタイプの質問が含まれています。
- Extracting
- 正解が文書内にほぼそのまま記述されており,情報の抽出能力を測る質問。
- Reasoning
- 文書中の情報と,常識的または簡単な論理推論を組み合わせて回答を導く質問。
- Computing
- 文書中の数値や時間などを加工・計算して回答を導く質問。
- Information Integrating
- 文書内の複数箇所の情報を整理・要約して回答を導く質問。
次の4つのデータセットで構成されます。
- Pseudo Wikipedia
- Pseudo News
- Pseudo Product Review
- Pseudo Company Rules
| Dataset | #Doc | #QA | Extracting | Reasoning | Computing | Information Integrating |
|---|---|---|---|---|---|---|
| Pseudo Wikipedia | 50 | 166 | 96 | 36 | 21 | 21 |
| Pseudo News | 47 | 173 | 90 | 36 | 18 | 31 |
| Pseudo Product Review | 40 | 48 | 13 | 15 | 0 | 24 |
| Pseudo Company Rules | 24 | 175 | 119 | 45 | 2 | 11 |
| Total | 161 | 563 | 318 | 132 | 42 | 87 |
データセットごとに,データをjsonで保存しています。
Pseudo Wikipedia,Pseudo NewsとPseudo Company Rulesは以下のstructureです。
{
<passage_id>: {
"title": <title>,
"passage": <passage>,
"qas":
[
{
"qid": <question_id>,
"question": <question>,
"answers": [<answer1>, ...], # 正解が2つ以上ある例も少数存在しています
"type": [<type1>, ...] # 質問のタイプが2つ以上ある例も少数存在しています
},
...
],
... # 複数のQAがあります
},
...
}
Pseudo Product Reviewでは,複数のpassageを参照する必要なquestionが存在していますので,次のstructureを用いています。
{
"passages": {
<passage_id>: {
"title": <title>,
"passage": <passage>,
"relevant_qas": [<qid1>, <qid2>, ...] # このpassageを参考する必要があるすべてのquestionのid
},
...
},
"qas": {
<qid>: {
"question": <question>,
"answer": <answer>,
"relevant_passages": [<passage_id1>, <passage_id2>, ...], # このquestionに答えるのに必要な情報源となるすべてのpassageのid
"type": [<type1>, ...]
},
...
}
}
本ベンチマークは,クリエイティブ・コモンズ 表示 - 継承 4.0 国際 (CC BY-SA 4.0) ライセンス の下に提供されます。
ただし,本ベンチマークには OpenAI社 および Google社のモデルを用いて生成された合成文書が含まれます。 そのため,CC BY-SA 4.0 のライセンス条件に加え,OpenAIの利用規約 (例: OpenAI Services Agreement) にも従う必要があります。
本ベンチマークは,LLMの事前学習コーパスに含まれていない合成文書を用いることで,データ汚染の問題を回避し,RAGの性能を正確に評価することを目的としています。 この評価環境の信頼性を将来にわたって維持するため,ダウンロードされたデータセットのファイルや内容を,Webサイトや公開リポジトリ (HuggingFaceなど),SNS等へ再配布することはお控えいただけますよう,ご協力をお願いいたします。
@techreport{li2025construction,
author = {李,聖哲 and 大萩,雅也 and 塚越,駿 and 福地,成彦 and 柴田,知秀 and 河原,大輔},
issue = {29},
month = {Mar},
year = {2025},
title = {実在しないエンティティや出来事に関する合成文書を用いたRAGベンチマークの構築},
journal = {Vol.2025-NL-263,No.29,1-11}
}
@article{li2025construction,
author = {Li, Shengzhe and Ohagi, Masaya and Tsukagoshi, Hayato and Fukuchi, Akihiko and Shibata, Tomohide and Kawahara, Daisuke},
issue = {29},
month = {Mar},
year = {2025},
title = {{Construction of a Japanese RAG Benchmark Using Synthetic Documents on Non-existent Entities and Events}},
journal = {Vol.2025-NL-263,No.29,1-11}
note = "in Japanese"
}