Cisco AI Defense

AI のセキュリティと安全性のタクソノミー(taxonomy)

定義、緩和策、標準の分類から、生成 AI に対する脅威の状況を把握できます。

AI リスクを軽減する包括的なアプローチ

シスコは、セキュリティと安全性のリスクを組み合わせて AI 脅威を初めて分類しました。 AI のセキュリティは、機密データとコンピューティングリソースを不正アクセスや攻撃から保護することを目的としています。一方、AI の安全性は、AI アプリケーションの設計者による、アプリケーションの意図しない結果によって生じる損害を防ぐことに関係しています。 どちらにも、財務、評判、法的な影響を及ぼしかねないビジネスリスクが存在します。 こうした脅威を緩和するには、AI アプリケーションのセキュリティに対する今までにない包括的なアプローチが必要です。

Cisco AI Defense は、自動化されたエンドツーエンドのソリューションにより、AI のセキュリティと安全性のリスクを解決します。AI モデルとアプリケーションの検証はモデルの脆弱性を検出して評価します。AI ランタイムプロテクションは、アプリケーションを安全に展開するために必要なガードレールを適用します。このタクソノミー(taxonomy)は、AI とサイバーセキュリティのコミュニティがセキュリティと安全性の包括的なリスクを認識できるようにするために開発されたもので、NIST、MITRE ATLAS、および OWASP Top 10 for LLM Applications と共同開発したさまざまな AI セキュリティ標準への対応、説明、例が含まれています。

AI のセキュリティと安全性のタクソノミー(taxonomy)

脅威脅威の説明脅威のサブカテゴリ脅威のサブカテゴリの説明リスクタイプOWASP LLM Top 10 との対応MITRE ATLAS との対応
プライバシー攻撃ML モデルまたはそのデータに含まれる機密情報を開示させることを目的とした攻撃のカテゴリ。機密情報の開示(PII、PCI、PHI)モデルが、個人に関する機密情報(たとえば、社会保障番号、クレジットカードの詳細、病歴)を不注意で、あるいは操作によって開示させること。プライバシーLLM02:2025 - 機密情報の公開AML.T0057 -
LLM データ漏えい

ML アプリケーションからの抽出

標的ネットワークからデータを流出させるために使用される手法。 ML アーティファクト(プライバシー攻撃のデータなど)またはその他の機密情報の抽出。

プライバシー

LLM02:2025 - 機密情報の公開AML.T0025:サイバー手法を介した抽出

IP の盗難

攻撃対象の組織に経済的損害または競争上の不利益をもたらす目的で、著作物、特許侵害、企業秘密、競争力のあるアイデア、保護されたソフトウェアなど、あらゆる形態の知的財産を窃盗または悪用すること。

プライバシー

LLM02:2025 - 機密情報の公開AML.T0048.004 - 外的な被害:ML 知的財産の窃取

モデルの盗難

所有権のある ML モデルの不正なコピーまたは抽出のこと。 これは、悪意のある内部関係者や外部の攻撃者によって実行される可能性がある。

プライバシー

LLM02:2025 - 機密情報の公開AML.T0048.004 - 外的な被害:ML 知的財産の窃取

メタプロンプトの抽出

LLM アプリケーションまたはモデルからシステムプロンプト(システム指示)を抽出することを目的とした攻撃。

プライバシー

LLM07:2025 - システムプロンプトの漏えいAML.T0056 -
LLM メタプロンプトの抽出
サプライチェーン攻撃ML のライフサイクル(開発から展開まで)で発生し得るセキュリティの脆弱性で、モデルの完全性、システムのセキュリティ、AI/ML モデルの信頼性が損なわれる可能性がある。

インフラストラクチャの侵害

ML 開発パイプラインとアプリケーションをホストするインフラストラクチャを侵害するもの。 攻撃者は、脆弱性を悪用して不正アクセスを取得し、システムまたはネットワークのさらなる侵害、またはモデルの完全性の侵害につながる可能性がある。

セキュリティ

LLM03:2025 - サプライチェーンAML.T0010 -
ML サプライチェーンの侵害

モデルの侵害

ML モデルが展開される前に改ざんしたり、悪意のあるコードを挿入したりすること。

セキュリティ

LLM03:2025 - サプライチェーンAML.T0010 -
ML サプライチェーンの侵害

トレーニング データ ポイズニング

ML モデルの完全性を損なうためにトレーニングデータを操作すること。 破損したトレーニングデータは、歪曲された結果や偏った結果、バックドアトリガーの挿入、ユーザーの信頼の喪失につながる可能性がある。

セキュリティ

LLM04:データとモデルのポイズニングAML:T0020 - トレーニングデータの汚染

標的型ポイズニング

標的を絞った方法で ML モデルの出力を操作することを目的としたデータ汚染。 攻撃者は、特定のデータポイントのラベルや機能を変更することで、標的のモデルに特定の入力を誤って分類させることができる。

セキュリティ

LLM04:データとモデルのポイズニングAML:T0020 - トレーニングデータの汚染
プロンプトインジェクション既存の命令を上書きしたり、モデルのアライメントやガードレールを迂回するような命令を(プロンプトを介して)提示することで、LLM の出力を変更または制御しようとする敵対的な攻撃。 プロンプトインジェクション手法とは、入力内容の意図を失わずに変換することである。プロンプトインジェクション既存の命令を上書きしたり、モデルのアライメントを迂回したり、モデルエンドポイントとの対話においてガードレールを破ったりする可能性のあるプロンプトインジェクションの試みを防ぐことを目的とするもの。セキュリティLLM01:2025 - プロンプトインジェクションAML.T0051 - LLM プロンプトインジェクション
間接的なプロンプトインジェクション攻撃者が、LLM の出力を変更または制御する目的で、データベース、文書、Web サイトから取得したコンテンツなど、LLM が消費する外部ソースを操作、汚染、制御すること。セキュリティLLM01:2025 - プロンプトインジェクションAML.T0051 - LLM プロンプト インジェクション、AML.T0051.001 - 間接的
安全でないツール設計安全でない設計や実装により、LLM に接続されたツールが悪用されること。SQL インジェクションLLM を騙して、接続されたデータベース上で実行される SQL クエリを生成させることで、不正なデータアクセスや不正操作につながる可能性があるプロンプト。セキュリティLLM05:2025 - 不適切な出力処理AML.T0053 - LLM プラグインの侵害
コマンドの実行LLM に、ホストシステムや接続されたツールで実行されるシステムコマンドやスクリプトを生成させることで、不正なアクションやシステム侵害につながる可能性があるプロンプト。セキュリティLLM05:2025 - 不適切な出力処理AML.T0053 - LLM プラグインの侵害
クロスサイト スクリプティング(XSS)LLM の出力が Web ページに直接レンダリングされる場合、ユーザーのブラウザで実行される可能性がある悪意のある JavaScript やその他のクライアント側コードを LLM に出力させる可能性のあるプロンプト。セキュリティLLM05:2025 - 不適切な出力処理該当なし
敵対的なコンテンツML モデルが誤って解釈するように設計されたコンテンツ。モデルの脆弱性不正アクセス、機密情報の抽出、サービス運用の中断を目的として悪用される可能性のあるモデル内の弱点や欠陥。セキュリティ該当なし該当なし
サービス拒否システムにリクエストを大量に送信したり、大量の応答を要求したり、脆弱性を悪用したりすることで、ML モデルまたはアプリケーションのパフォーマンスを低下させたり、ダウンさせたりするように設計された攻撃。モデルのサービス拒否システムにリクエストを大量に送信したり、大量の応答を要求したり、脆弱性を悪用したりすることで、ML モデルのパフォーマンスを低下させたり、ダウンさせたりするように設計された攻撃。セキュリティLLM10:2025 - 無制限な消費AML.T0029 - ML サービス拒否
アプリケーションのサービス拒否リクエストを大量に送信してアプリケーションやサービスに負荷をかけたり、ソフトウェアの脆弱性を悪用してサービスを停止させたりサービス品質を低下させたりすることで、意図したユーザーがアプリケーションやサービスを利用できないようにすることを目的とした攻撃。セキュリティLLM10:2025 - 無制限な消費該当なし
サイバーセキュリティとハッキングサイバーセキュリティ攻撃または意図的なシステム誤用を行うための役立つ情報を入手または提供すること。データ抽出コンピュータやネットワークからデータを不正に転送すること(窃盗やスパイ行為を目的とすることが多い)。セキュリティ該当なしAML.T0024 - ML 推論 API を介した抽出、AML.T0025 - サイバー手法を介した抽出
コード検出モデルエンドポイントとのやりとりにおいてソフトウェアコードの使用をできなくすることで、悪意のあるコードの実行、偶発的なデータの公開、安全でないコーディング手法などのリスクを軽減することを目的とするもの。セキュリティLLM05:2025 - 不適切な出力処理該当なし
安全でない出力処理ML モデルからの出力の適切な検証や保護が行われないこと。悪意ある情報や誤解を招く情報が伝播する可能性がある。セキュリティLLM05:2025 - 不適切な出力処理AML.T0053 - LLM プラグインの侵害
悪意のあるソフトウェアコンピュータシステムを中断または損傷させたり、不正アクセスを行わせたりするために特別に設計されたソフトウェア。セキュリティLLM01:2025 - プロンプトインジェクションAML.T0048.002 - 社会的被害
ソーシャルエンジニアリング偽装したコミュニケーションによって個人を騙し、機密情報を公開させる手法。セキュリティLLM01:2025 - プロンプトインジェクションAML.T0048.002 - 社会的被害
安全性の被害と有害性被害には、ユーザー固有の影響、社会的な影響、評判への影響、金銭的な影響など、さまざまなカテゴリが包含される。 モデルは、侮辱、ヘイトスピーチ、差別的な言葉、性的に露骨な素材など、有害なコンテンツを生成する可能性がある。 このような有害なコンテンツは、不快感を与えたり、害を及ぼしたりする可能性がある。ヘイトスピーチ民族、宗教、性的指向、または同様の理由に基づいて偏見を表現する攻撃的または脅迫的な言動、および特に民族、年齢、性別、または障害を理由として異なるカテゴリの人々に対する不当または偏見を抱かせる扱い。安全性LLM01:2025 - プロンプトインジェクションAML.T0048.001 - 外的な被害:評判の低下、AML.T0048.003 - 外的な被害:ユーザーへの損害
ハラスメント攻撃的な圧力または脅迫。安全性LLM01:2025 - プロンプトインジェクションAML.T0048.001 - 外的な被害:評判の低下、AML.T0048.003 - 外的な被害:ユーザーへの損害
冒涜的な表現冒涜的またはわいせつな言葉。安全性LLM01:2025 - プロンプトインジェクションAML.T0048.001 - 外的な被害:評判の低下、AML.T0048.003 - 外的な被害:ユーザーへの損害
性的描写と性的搾取有害な性的行動や搾取(性犯罪を含む)を常態化することにより、社会規範、公共の安全、著名人や公人、社会的福祉に悪影響を及ぼす、性的に露骨な素材を作成、配布、または宣伝するコンテンツ。安全性LLM01:2025 - プロンプトインジェクションAML.T0048.001 - 外的な被害:評判の低下
社会の分断と分極化極端な意見を促進したり、特定の集団を悪者扱いしたりすることで、社会内の分断を助長するコンテンツ。安全性LLM01:2025 - プロンプトインジェクションAML.T0048.001 - 外的な被害:評判の低下
自傷行為典型的には精神状態の現れとして、故意に自分自身を傷つけること。安全性LLM01:2025 - プロンプトインジェクションAML.T0048.003:外的な被害:ユーザーへの損害
偽情報誤解を招くことを目的とした虚偽の情報。安全性LLM01:2025 - プロンプトインジェクションAML.T0048.002 - 外的な被害:社会的被害
環境被害環境悪化につながる、または環境保護活動を妨げる行為や誤った情報。安全性LLM01:2025 - プロンプトインジェクションAML.T0048.002 - 外的な被害:社会的被害
暴力危険な行為を促進したり、身体的危害を与えたりするなど、公共の安全を脅かす可能性のあるコンテンツ。 これには、物理的な力の違法な行使やそうした力の行使による脅迫などの暴力犯罪や、一般的に危険な行為が含まれる。安全性LLM01:2025 - プロンプトインジェクションAML.T0048.002 - 外的な被害:社会的被害
非暴力犯罪犯罪とみなされる行為や活動だが、力や傷害を伴わないもので、集団やコミュニティの福祉を害する可能性のあるもの。安全性LLM01:2025 - プロンプトインジェクションAML.T0048.002 - 外的な被害:社会的被害
詐欺や欺瞞虚偽の約束(詐欺)や誤解を招く情報により、個人または組織を騙して金銭や資産を手放させたり、個人的な利益を得させたりすること。安全性LLM01:2025 - プロンプトインジェクションAML.T0048.001 - 外的な被害:評判の低下、AML.T0048.003 - 外的な被害:ユーザーへの損害
金銭的被害金銭的被害には、窃盗、放火、破壊行為、詐欺や偽造、または敵対者への資金提供の圧力により、富、財産、その他の金銭的資産を失うことが含まれる。安全性LLM01:2025 - プロンプトインジェクションAML.T0048.003 - 外的な被害:ユーザーへの損害、AML.T0048.000 - 外的な被害:金銭的被害
関連性損害には、ハルシネーション、誤った情報、意図しない結果、予期しない結果など、内容との関連性がないというリスクが含まれる可能性があり、 その結果、評判の低下やユーザーへの損害が発生したりすることがある。オフトピックモデルが、意図または期待された主題とは無関係で、リスクまたは有害な結果をもたらすコンテンツを生成する、または生成するように操作されること。関連性LLM09: 2025 - 誤情報AML.T0048.001 - 外的な被害:評判の低下、AML.T0048.003 - 外的な被害:ユーザーへの損害
コスト増大と目的変更攻撃者が、開発者が意図しない方法でモデルを使用し、標的組織のサービス運用コストを増大させること。関連性LLM10:2025 - 無制限な消費AML.T0034 - コスト増大
ハルシネーションもっともらしく表示されているが、正確でも真実でもない情報が生成されたテキストに含まれていること。 これには、正確でない詳細情報、既知の情報との不一致、まったく架空の詳細情報が含まれる可能性がある。関連性LLM09: 2025 - 誤情報AML.T0048.003:外的な被害:ユーザーへの損害

関連する AI トピック

Cisco AI Defense

エンドツーエンドの安全性およびセキュリティ保護により、AI の可能性を最大限に活用します。

AI アプリケーション セキュリティ

AI アプリケーションをセキュリティと安全性の脅威から保護するための新しいパラダイム。

RAG アプリケーションの保護

AI チームが LLM アプリケーションをデータで強化できるようにします。

基盤モデル

アプリケーションの中核となる基盤モデルがセキュアかつ安全であることを保証します。

AI セキュリティの参照アーキテクチャ

LLM 搭載アプリケーションを開発しているチームのための安全な設計パターンおよびプラクティスです。

AI チャットボットと AI エージェント

革新的なビジネスを実現する対話型 AI アシスタントを活用できます。

企業に最適な AI セキュリティ

環境全体の包括的な保護により、AI のセキュリティギャップに対処し、AI トランスフォーメーションの障壁を取り除きます。