~図表を含む日本語業務文書の推論性能を評価し、AI開発基盤の高度化に貢献~
株式会社リコー(社長執行役員:大山 晃)は、図表を含む日本語ドキュメント理解におけるAIの推論(リーズニング)性能*1を評価するベンチマークツール「JDocQA Reasoning Benchmark」を開発し、本日より無償公開しました。
本件は、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が実施する、国内における生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)*2」基盤モデル開発第3期における取り組みの一環です。
【公開先】
https://huggingface.co/datasets/ricoh-ai/JDocQA-Reasoning
本ベンチマークは、図表を含む日本語業務文書に対して、単なる情報抽出にとどまらず、計算・比較・傾向分析など複数段階の推論能力を評価できる点が特徴です。リコーは本ベンチマークを無償公開することで、生成AIの実用化に向けた技術基盤の高度化に寄与します。
1.背景
生成AIの技術の進化やそれに伴う社会的な広がりにより、AIが複雑な情報を含む非構造化データをいかに正確に理解し、論理的に推論できるかが重要視されています。一方で、特に日本語ドキュメント特有の図表を含む情報を正確に解析・評価することは依然として難しい課題です。
リコーはGENIAC第3期において、図表を含む多様なドキュメントを高精度に読み取り推論できるマルチモーダル大規模言語モデルの基本モデル「Qwen3-VL-Ricoh-32B-20260227」、および「Qwen3-VL-Ricoh-8B-20260227」を開発しました。あわせて、その性能を適切に評価するための基盤整備として、本ベンチマークの開発に取り組みました。
2.「JDocQA Reasoning Benchmark」の特徴
(1) 図表理解と多段階推論に特化した独自QAを新規付与
視覚とテキストの両方の情報を活用する日本語の質問応答データセットであるJDocQA*3のテスト画像のうち、棒グラフ・折れ線グラフ・財務諸表・路線図など20種類以上の図表を含むサブセットを対象に、リコーが独自に一問一答形式のQAアノテーションを新規で付与しました。全1,287問で構成しています。QAは図表に含まれる内容に関する質問に限定し、以下の多様なタスクを設計することで、図表の読み取り能力と推論能力の多角的な評価が可能です。
- 抽出:図表やフローに示された情報をそのまま取り出す
- 計算:抽出値をもとに四則演算・比率・統計的集約などの数値処理を行う
- 比較:複数の値や要素を対比し関係性を明らかにする
- 補完:欠落データを既存要素から推定・再構成する
(2) オープンソースでの公開
本データセットは、評価コードをApache License 2.0*4、QAアノテーション部分をCC BY-SA 4.0*5で公開しており、商用・非商用を問わず幅広く利用できます。
3.今後の展望
リコーは、本ベンチマークの無償公開を通じて、生成AIの推論性能向上と実用化を支援し、企業におけるデータ活用の高度化に貢献してまいります。
今後も、企業理念の使命と目指す姿として掲げる「“はたらく”に歓びを」の実現に向けて、業務革新と付加価値創出に取り組んでまいります。
*1 リーズニング性能: LLMが単に情報を検索したりテキストを生成したりするだけでなく、複数のステップからなる論理的な思考プロセスを経て結論を導き出す性能。
*2 GENIAC(ジーニアック/Generative AI Accelerator Challenge):主に生成AIのコア技術である基盤モデルの開発に対する計算資源の提供や、データやAIの利活用に向けた実証調査の支援等を実施するプロジェクト。
*3 JDocQA: Onami, E., Kurita, S., Miyanishi, T., Watanabe, T. "JDocQA: Japanese Document Question Answering Dataset for Generative Language Models." arXiv:2403.19454, 2024. 著者所属:奈良先端科学技術大学院大学 / 理化学研究所 / 国際電気通信基礎技術研究所(ATR)
*4 Apache License 2.0: https://www.apache.org/licenses/LICENSE-2.0
*5 CC BY-SA 4.0: https://creativecommons.org/licenses/by-sa/4.0/deed.ja
■リコーのAI開発について
リコーは、1980年代にAI開発を開始し、2015年からは画像認識技術を活かした深層学習AIの開発を進め、外観検査や振動モニタリングなど、製造分野への適用を行ってきました。2021年からは自然言語処理技術を活用し、オフィス内の文書やコールセンターに寄せられた顧客の声(VOC)などを分析することで、業務効率化や顧客対応を支援する「仕事のAI」の提供を開始しました。
さらに、2022年からは大規模言語モデル(LLM)の研究・開発にもいち早く着手し、2023年3月にはリコー独自のLLMを発表。その後も、700億パラメータという大規模ながら、オンプレミス環境でも導入可能な日英中3言語対応のLLMを開発するなど、お客様のニーズに応じて提供可能なさまざまなAIの基盤開発を行っています。また、画像認識や自然言語処理に加え、音声認識AIの研究開発も推進し、音声対話機能を備えたAIエージェントの提供も開始しています。
■関連ニュース
リコー、「GENIAC」第3期においてリーズニング性能を備えたマルチモーダル大規模言語モデルを開発
https://jp.ricoh.com/release/2026/0330_1
リコー、マルチモーダルLLMの基本モデルと評価環境を無償公開
https://prtimes.jp/main/html/rd/p/000000167.000043114.html
■関連リンク
技術ページ:“はたらく”を支えるリコーの大規模言語モデル(LLM)
https://jp.ricoh.com/technology/ai/LLM
Hugging Face:「JDocQA Reasoning Benchmark」を公開
https://huggingface.co/datasets/ricoh-ai/JDocQA-Reasoning
※社名、製品名は、各社の商標または登録商標です。
| リコーグループについて |
リコーグループは、世界約200の国・地域で、AIをはじめとする先進テクノロジーと、長年培ってきたプリンティング領域の強みを基盤に、ワークプレイスにおける業務変革を支援するサービス・ソリューションを提供しています。また、商用・産業印刷事業や、インクジェット技術を応用した新たなソリューションの展開を通じて、お客様の価値創出を支えています(2026年3月期グループ連結売上高2兆6,083億円)。
“はたらく”に歓びを 創業以来90年にわたり、お客様の“はたらく”に寄り添ってきた私たちは、これからもリーディングカンパニーとして、“はたらく”の未来を想像し、ワークプレイスの変革を通じて、人ならではの創造力の発揮を支え、さらには持続可能な社会の実現に貢献してまいります。
詳しい情報は、こちらをご覧ください。https://jp.ricoh.com/