~ 日本式の複雑な図表を含む文書の読み取りをより高精度・省リソースで実現 ~
株式会社リコー(社長執行役員:大山 晃)は、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が実施する、国内における生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)*1」第3期において採択されました。これにより、2期連続での採択となります。
リコーは、本事業において、企業の知の結晶である様々な企業内ドキュメント群を、多段推論を行うことでより高精度に読み取ることができるリーズニング性能*2を持つマルチモーダルLLM(以下、リーズニングLMM)を開発します。画像トークン*3の圧縮技術で省リソース・低コストで運用可能なモデル開発と、モデルマージの技術などを活用した効率的な開発プロセスの確立を目指します。
LMMとは、テキスト・画像・音声・動画など複数の種類のデータを一度に処理できるAI技術のことです。スクリーンショットからのテキストの要約や、図を使った質問への適切な回答など、さまざまなタスクに優れており、幅広いデータ形式を効果的に処理する適応性に期待が集まっています。
リコーは2024年8月から実施されたGENIACの第2期において、LMMの基本モデルを開発完了し、7月29日に基本モデルおよび独自に開発したベンチマークツールを無償で公開することを発表しています。本事業では、より高精度かつ低コストで運用・開発できるリーズニングLMMの開発を目指します。 具体的には、多段推論によって文書画像の理解力向上を図りつつ、高性能化に伴って増大する顧客側の運用コストを画像トークン圧縮などで、開発側の開発コストをモデルマージ技術の適用などで、それぞれ低減を目指します。
*1 GENIAC(ジーニアック/Generative AI Accelerator Challenge)・・・主に生成AIのコア技術である基盤モデルの開発に対する計算資源の提供や、データやAIの利活用に向けた実証調査の支援等を実施するプロジェクト。
*2 リーズニング性能・・・LLMが単に情報を検索したりテキストを生成したりするだけでなく、複数のステップからなる論理的な思考プロセスを経て結論を導き出す性能。
*3 画像トークン・・・LMMはテキストや図表のデータをトークンと呼ばれる符号に変換してから処理します。画像トークンとはこのうち図表を符号に直したものを指します。
本事業における取り組み内容
日本企業の業務DXを促進するリーズニングLMMの開発。
- 複雑な図表を含む文書画像から情報を抽出、解析して統合的に判断する高いマルチモーダルリーズニング性能の獲得。
- 複雑な図表を含む文書画像のリーズニングタスクにおいて、現在商用利用可能な同等規模のオープンソースモデルの中で最高性能の達成。
- コストを抑制するための技術開発
⇒画像トークンの圧縮技術の開発などでメモリ使用量を抑制し、顧客側の運用コストを大きく削減。
⇒マルチモーダルモデルに対するモデルマージ技術などを活用し、開発側の学習コストを大きく削減。
紙文書をベースに業務を行っている企業も多い中、リコーは複合機やスキャナーなどの独自のエッジデバイスを活用して、高精度なデジタル化を支援しています。さらに、AIを活用した先進的な画像認識やOCR技術に強みを持つ独スタートアップ「natif.ai」をグループ企業に迎えるなど、技術力の強化も着実に進めてきました。加えて、LMMによるドキュメントの高度な利活用によって、文書処理に関わる一連の業務を効率化・自動化するプロセスオートメーションの実現にも取り組んでいます。
リコーは、ワークプレイスサービスプロバイダーとして、デジタルによる業務プロセスの最適化を通じ、単純作業を減らし生産性の向上を実現すると共に、AI・データの活用により新たな価値を提供し、お客様の創造力の発揮を支援します。
リコーのAI開発について
リコーは、1980年代にAI開発を始め、2015年からは画像認識技術を活かした深層学習AIの開発を進め、外観検査、振動モニタリングなどに適用してきました。2021年からは自然言語処理技術を活用し、オフィス内の文書やコールセンターに届いた顧客の声(VOC)などを分析して業務効率化や顧客対応に活かす「仕事のAI」の提供を開始しました。2022年からはいち早く、大規模言語モデル(LLM)の研究・開発に着目し、2023年3月にはリコー独自のLLMを発表し、その後も、700億パラメータの大規模でありながらオンプレミスでも導入可能なLLM(日英中3言語に対応)を開発するなど、お客様のご要望に応じて提供可能な様々なAIの基盤開発を行っています。また、画像認識、自然言語処理に加え、音声認識AIに関しても研究開発をすすめ、音声対話機能を持つAIエージェントのお客様への提供も開始しています。
■関連ニュース
リコー、GENIACでマルチモーダルLLMの基本モデルを開発完了
https://jp.ricoh.com/release/2025/0610_1
リコーと損保ジャパン、マルチモーダルLLMの共同開発を開始
https://jp.ricoh.com/release/2025/0321_1
リコー、経済産業省の国内生成AI開発力強化プロジェクト「GENIAC」に採択
https://jp.ricoh.com/release/2024/1017_1
■関連リンク
リコーのAI開発の最前線:企業のAI活用を広げる「マルチモーダルLLM」
https://jp.ricoh.com/news/stories/articles/multimodal-llm
*社名、製品名は、各社の商標または登録商標です。
| リコーグループについて |
リコーグループは、お客様のDXを支援し、そのビジネスを成功に導くデジタルサービス、印刷および画像ソリューションなどを世界約200の国と地域で提供しています(2025年3月期グループ連結売上高2兆5,278億円)。
“はたらく”に歓びを 創業以来85年以上にわたり、お客様の“はたらく”に寄り添ってきた私たちは、これからもリーディングカンパニーとして、“はたらく”の未来を想像し、ワークプレイスの変革を通じて、人ならではの創造力の発揮を支え、さらには持続可能な社会の実現に貢献してまいります。
詳しい情報は、こちらをご覧ください。
https://jp.ricoh.com/