ChillStack、ChatGPTなど用いたサービス開発に関するセキュリティコンサルティングを提供開始
AI×セキュリティ領域を専門とするChillStackは20日、大規模言語モデル(LLM:Large Language Models)を用いたサービス開発時のセキュリティに関するコンサルティングサービスを提供開始したと発表した。
今世界中でChatGPTをはじめとする大規模言語モデル(LLM:Large Language Models)が注目されており、LLMに関する様々なサービスが開発・発表されている。一方で、LLMを用いたサービス開発は既存のアプリケーションなどとは異なるセキュリティリスクが潜んでおり、システムの乗っ取りや機密情報の流出など様々な被害につながる恐れがある。
このような背景から、AI×セキュリティに特化したChillStackは、LLMを利用したサービス開発時のセキュリティリスクに関して、技術的な視点から支援するコンサルティングサービスの提供を開始した。
□LLMを用いたサービス開発パターン及びセキュリティリスク例
①学習データの汚染に関するリスク
ゼロベースでのモデル開発や事前学習モデルのチューニングなどをするには、大規模なデータを事前に用意する必要がある。その際、大規模なデータを手作業で一つずつ作成するのはほぼ不可能なため、許可されているWebサイトをクローリングするなどの方法により自動でデータを収集することがほとんど。その際、AIに対する攻撃手法である「Data Poisoning」に対して注意しなければならない。
Data Poisoningは、AIの学習データの中に悪意のあるデータを混ぜ込んでおくことで、開発者が意図しない挙動をさせたり、バックドアなどを仕込む攻撃。
自動で収集した大規模なデータセットを用いる際、一つひとつ詳細にデータをチェックすることは難しく、データセットの中に悪意のあるデータが混ざっていてもなかなか気づくことができずに開発が進んでしまう懸念がある。
この攻撃に対する対策として、何かしらの手段で不審なデータをデータセットから取り除くことが大切。例えばクローリングする対象を信頼できるWebサイトにすることや、データの中に不審なデータが混ざっていないかを統計的に検査することなどが挙げられる。データセットの規模や目的によって対策の難易度が高い場合もあり、その場合は専門家へ相談することを勧めるという。
②悪意のあるモデルによる任意コード実行のリスク
手元で動かせるLLMが次々と発表されていて、目的によっては自社システム内部に公開されているモデルを組み込み動作させることが現実的になりつつある。
モデルは様々な形式で配布されているが、使用上モデルの中に任意の実行コードを埋め込むことが可能なケースがあり、もしも配布されているモデル内に悪意のあるコードが埋め込まれていた場合、読み込みや推論などをトリガーに悪意のあるコードが実行されてしまう恐れがある。
このリスクを避けるためには、使用するモデルの開発元や発行元などを確認し、信頼できるかを確認する必要がある。また、外部からダウンロードしたモデルは原則サンドボックス環境で内容と動作を確認してから使用するなど、セキュリティ性の高い開発体制を築くことも有効。
③機密情報の漏えいリスク
開発だけにとどまらず、LLMを用いたサービスを利用する際に気をつけなければならないリスクの一例として、機密情報の漏えいリスクがある。
例えば外部のサービスをバックグラウンドで利用している場合、ケースによっては外部サービスへ送信した内容がモデルの学習に使われる可能性がある。
チャットサービスであれば、AIがチャットを通じて学習データ内にある機密情報を第三者へ伝達してしまう恐れがある。利用する外部サービスの利用規約をアップデート毎にきちんと確認することはもちろん、自社サービスの利用者が機密情報を送信しないよう制限をかけるなどのリスク対策を検討する必要がある。
LLMを用いたサービス開発時に注意すべきセキュリティリスクは、上記で紹介した3つ以外にも事前学習モデル汚染など様々なものが存在する。LLMに限らずAI・機械学習技術を用いたサービス開発では、通常のWebアプリなどとは異なるセキュリティリスクが潜んでいるため、各々のリスクを正しく理解し、対処することが必要。
ChillStackは日本で数少ないAIの品質に関する研究を行うエンジニア集団の会社。AIの安全を確保する技術の普及を目的とし、人材開発やトレーニングなども提供しており、本件についても専門家が初期的アドバイスを実施する。
今回のLLMに関するセキュリティコンサルティングでは、NDAを締結した上で顧客の状況をヒアリングし、注意すべきセキュリティリスクや必要な対策について技術的な側面を中心にサポートする。