GPT4o-Receipt: A Dataset and Human Study for AI-Generated Do

1. どんなもの？

GPT4o-Receiptデータセットの構築
GPT-4oで生成されたレシート画像と、既存の信頼できるデータセットからの本物のレシート画像をペアにした、合計1,235組のベンチマークデータセット。AI生成文書のフォレンジック研究を目的としている。
AI生成文書検出における人間とLLMの比較研究
5つの最先端マルチモーダルLLMと30人のクラウドソーシングによる人間アノテーターを用いて、AI生成レシートの検出能力を評価・比較した。

2. 先行研究と比べてどこがすごい？

AI生成文書フォレンジックに特化した大規模かつ最新のベンチマークデータセットの提供
GPT-4oのような最新の強力な生成モデルを用いたレシート画像データセットは新規性が高く、人間とLLMの両方で評価する包括的なフレームワークを提供することで、この分野の研究を大きく推進する。
人間とLLMの検出能力に関する「パラドックス」の発見と解明
人間はAIの視覚的アーティファクトの識別は得意だが、AI文書全体の検出はLLMより劣るという直感に反する結果を発見。その原因が、LLMは算術エラーを検出できるが人間は視覚的に認識できない点にあることを特定し、そのメカニズムを解明した。

3. 技術や手法の肝はどこ？

GPT4o-Receiptデータセットの設計
GPT-4oで生成されたレシートと、既存の信頼できるデータセットからの本物のレシートを1:1でペアリングすることで、直接的な比較と評価を可能にしている。
検出評価フレームワークの多角性
5つのSOTAマルチモーダルLLM（Claude Sonnet 4, Gemini 2.5 Flashなど）と、多様な背景を持つ30人の人間アノテーターによる多角的な評価を実施。視覚的識別能力とバイナリ検出能力の両方を測定した。
算術エラーを主要なフォレンジック信号として特定
LLMが算術エラーを検出できるのに対し、人間は視覚的にそれを認識できないというメカニズムを特定し、検出能力の差を説明する鍵とした。

4. どうやって有効だと検証した？

複数モデルと人間の比較評価
5つのSOTAマルチモーダルLLMと30人の人間アノテーターを用いて、GPT4o-Receiptデータセット上でAI生成レシートの検出性能を評価した。
検出性能指標の比較とパラドックスの提示
F1スコアなどのバイナリ検出指標に加え、視覚的識別ギャップも測定。人間は視覚的識別ギャップが最大であるにもかかわらず、バイナリ検出F1スコアがLLM（特にClaude Sonnet 4やGemini 2.5 Flash）より低いことを示した。
パラドックスのメカニズム解明
算術エラーがAI生成レシートの主要なフォレンジック信号であり、LLMはこれを容易に検出できるが、人間は視覚的に検出できないことを特定し、検出能力の差を裏付ける証拠とした。

5. 議論はある？

単純な精度指標の限界
5モデル評価で性能とキャリブレーションに大きな差が見られ、単純な精度指標だけでは検出器の選択に不十分であると指摘。より多角的な評価指標やフレームワークの必要性を示唆している。
人間の検出能力の限界とLLMの補完性
人間は視覚的なアーティファクトに気づきやすい一方で、数値的な正確性の検証は苦手という特性が浮き彫りになった。これは、AIと人間の協調によるフォレンジックシステムの可能性を示唆しており、それぞれの強みを活かす方法が議論の余地となる。

6. 次に読むべき論文は？

AI生成文書のフォレンジックに関する他のデータセットや検出手法の論文
特に、テキストベースのAI生成文書検出や、画像生成モデルのウォーターマーキング技術、ディープフェイク検出など、異なるモダリティや生成モデルに焦点を当てた研究。
マルチモーダルLLMの信頼性や幻覚（hallucination）に関する研究
LLMが算術エラーを検出できる一方で、他の種類の「幻覚」をどのように扱うか、その限界と改善策に関する論文。

Abstract (原文)

Can humans detect AI-generated financial documents better than machines? We present GPT4o-Receipt, a benchmark of 1,235 receipt images pairing GPT-4o-generated receipts with authentic ones from established datasets, evaluated by five state-of-the-art multimodal LLMs and a 30-annotator crowdsourced perceptual study. Our findings reveal a striking paradox: humans are better at seeing AI artifacts, yet worse at detecting AI documents. Human annotators exhibit the largest visual discrimination gap of any evaluator, yet their binary detection F1 falls well below Claude Sonnet 4 and below Gemini 2.5 Flash. This paradox resolves once the mechanism is understood: the dominant forensic signals in AI-generated receipts are arithmetic errors -- invisible to visual inspection but systematically verifiable by LLMs. Humans cannot perceive that a subtotal is incorrect; LLMs verify it in milliseconds. Beyond the human--LLM comparison, our five-model evaluation reveals dramatic performance disparities and calibration differences that render simple accuracy metrics insufficient for detector selection. GPT4o-Receipt, the evaluation framework, and all results are released publicly to support future research in AI document forensics.

GPT4o-Receipt: A Dataset and Human Study for AI-Generated Document Forensics💻 コードあり

Abstract (原文)