AIセーフティに関するレッドチーミング手法ガイドを公開
2024年9月25日
AIセーフティ・インスティテュート
独立行政法人情報処理推進機構
AIセーフティ・インスティテュート
独立行政法人情報処理推進機構
AIセーフティに関するレッドチーミング手法ガイドを公開
~AIシステムに施したリスクへの対策を攻撃者の視点から評価するための手法を解説~
~AIシステムに施したリスクへの対策を攻撃者の視点から評価するための手法を解説~
AIセーフティ・インスティテュート(AISI、所長:村上明子)は、AIセーフティ評価手法の一つであるレッドチーミング手法を解説する「AIセーフティに関するレッドチーミング手法ガイド」を公開しました。AIシステムの開発・提供管理者が本書を参照することで、AIシステムにおける弱点や対策の不備を攻撃者の視点から評価するためのレッドチーミング手法の基本的な考慮事項を理解することができ、それらの堅牢化につなげることができます。
「AIセーフティに関するレッドチーミング手法ガイド」URL:https://www.ipa.go.jp/digital/ai/begoj90000004szb-att/ai_safety_rt_v1.00_ja.pdf
「概要説明資料」URL:https://www.ipa.go.jp/digital/ai/begoj90000004sxz-att/ai_safety_rt_summary_v1.00_ja.pdf
AIシステムの開発・提供・利用が進み、イノベーションの促進や社会課題の解決が期待されている一方で、AIシステムの悪用や誤用、不正確な出力による懸念などが生じています。AIセーフティ(注釈1)についての関心が国内外で高まりつつあり、AIセーフティ評価の一環として、特にレッドチーミング手法の検討が各国で進んできています。AISIでは本年9月に「AIセーフティに関する評価観点ガイド」としてAIセーフティ評価の全般的な考え方を公開しました。これに続き、レッドチーミングについても国内外における検討や先行事例を勘案し、国際整合性を考慮したうえで基本的な考慮事項をとりまとめた「AIセーフティに関するレッドチーミング手法ガイド」(以下「本書」)を本日公開しました。
本書は、AIシステムの開発者や提供者が、対象のAIシステムに施したリスクへの対策を、攻撃者の視点から評価するためのレッドチーミング手法に関する基本的な考慮事項を示したものです。レッドチーミングは「攻撃者がどのようにAIシステムを攻撃するかの観点で、AIセーフティへの対応体制及び対策の有効性を確認する評価手法」であり、AIセーフティ評価の手法の一つです。主な想定読者はAI開発者・AI提供者のうち、レッドチーミングの企画・実施に関与する者です。また、システムとしては大規模言語モデル(LLM)を構成要素とするAIシステム(LLMシステム)を対象として記載しています。本書の構成は次のとおりです。
■本書の構成(目次):
1. はじめに
2. レッドチーミングについて
3. LLMシステムへの代表的な攻撃手法
4. 実施体制と役割
5. 実施時期及び実施工程
6. 実施計画の策定と実施準備
7. 攻撃計画・実施
8. 結果のとりまとめと改善計画の策定
本書では、2章でレッドチーミングの種類を、前提知識の有無・程度や実施環境、攻撃の実施方法によって分類して示し、3章ではLLMシステムへの代表的な攻撃手法例として、攻撃者が悪意あるプロンプトをAIシステムに直接注入する攻撃である「直接プロンプトインジェクション」など8つの攻撃手法を例示しています。(図1)
4章と5章では実施体制と役割、実施時期について、多様な関係者(攻撃シナリオの実施によって影響を受けるシステムに関わる組織)が参画するのが望ましく、またAIシステムのリリース/運用開始前に加え、運用開始後も、必要に応じて随時実施することが望ましいとしています。
6章から8章で、レッドチーミングの工程をそれぞれ第1工程「実施計画の策定と実施準備」、第2工程「攻撃計画・実施」、第3工程「結果のとりまとめと改善計画の策定」に分けて説明しています。各工程で5つずつ実施事項を示し、「実施の決定とレッドチーム発足」から「改善後のフォローアップ」まで計15ステップについて詳述しています。
AISIは、AI開発者や提供者が攻撃者の目線で対象AIシステムにおける弱点や対策の不備を発見し、それらを修正・堅牢化するために、本書が活用されることを期待しています。
「AIセーフティに関するレッドチーミング手法ガイド」と概要説明資料は、以下のウェブサイトからダウンロード可能です。
「AIセーフティに関するレッドチーミング手法ガイド」URL:https://www.ipa.go.jp/digital/ai/begoj90000004szb-att/ai_safety_rt_v1.00_ja.pdf
「概要説明資料」URL:https://www.ipa.go.jp/digital/ai/begoj90000004sxz-att/ai_safety_rt_summary_v1.00_ja.pdf
注釈1) AIセーフティ:人間中心の考え方をもとに、AI活用に伴う社会的リスクを低減させるための安全性・公平性、個人情報の不適正な利用等を防止するためのプライバシー保護、AIシステムの脆弱性等や外部からの攻撃等のリスクに対応するためのセキュリティ確保、システムの検証可能性を確保し適切な情報提供を行うための透明性が保たれた状態のこと
■参考資料:
AIセーフティに関する評価観点ガイド:https://aisi.go.jp/2024/09/18/evaluation_perspectives/
総務省・経済産業省、「AI事業者ガイドライン(第1.0版)」
https://www.soumu.go.jp/main_content/000943079.pdf
https://www.meti.go.jp/press/2024/04/20240419004/20240419004-1.pdf