「研究者は、ChatGPTのようなLLMが、「削除」された後でも、機密データを出力することを発見しました」

Researchers discovered that LLMs like ChatGPT can output confidential data even after being 'deleted'.

ノースカロライナ大学チャペルヒル校の3人の科学者が最近、人工知能(AI)の研究プレプリントを公開し、OpenAIのChatGPTやGoogleのBardなどの大規模言語モデル(LLM)から機密データを削除することがどれだけ難しいかを示しました。

研究論文によると、LLMから情報を「削除」する作業は可能ですが、情報が削除されたことを検証することも、実際に削除することと同じくらい難しいとされています。

これは、LLMのエンジニアリングとトレーニングの方法に関連しています。これらのモデルは、まずデータベースで事前トレーニング(GPTは事前トレーニングされたトランスフォーマーを表す)され、その後、一貫した出力を生成するために微調整されます。

モデルがトレーニングされた後、作成者は、たとえばデータベースに戻って特定のファイルを削除して関連する結果の出力を禁止することはできません。基本的に、モデルがトレーニングされる情報は、その重みとパラメータのどこかに存在し、出力を生成しない限り定義することができません。これがAIの「ブラックボックス」です。

LLMが大規模なデータセットでトレーニングされ、個人を特定できる情報、金融記録、その他の潜在的に有害な/望ましくない出力などの機密情報を出力する場合、問題が発生します。

関連記事: Microsoft、AIをサポートする原子力チームを結成予定:報告書

たとえば、LLMが機密の銀行情報でトレーニングされた場合、AIの作成者は通常、それらのファイルを見つけて削除する方法はありません。その代わり、AIの開発者は、特定の行動を抑制するためのハードコードされたプロンプトや人間のフィードバックによる強化学習などのガードレールを使用します。

RLHFパラダイムでは、人間の評価者がモデルに関与し、望ましい行動と望ましくない行動の両方を引き出すことを目的とします。モデルの出力が望ましい場合、その行動に調整するフィードバックを受け取ります。そして、出力が望ましくない行動を示す場合、将来の出力でそのような行動を制限するように設計されたフィードバックを受け取ります。

ここでは、モデルの重みから「削除」されたにもかかわらず、「スペイン」という単語は再構築されたプロンプトを使用してまだ呼び出すことができます。画像の出典:Patil、et. al.、2023年

しかし、ノースカロライナ大学の研究者は指摘していますが、この方法はモデルが示す可能性のあるすべての欠陥を人間が見つけることに依存しており、成功しても、情報をモデルから「削除」するわけではありません。

チームの研究論文によれば:

「RLHFのもう一つの欠点は、モデルが依然として機密情報を知っている可能性があることです。モデルがバイオウェポンの作り方を説明できるが、それに関する質問に回答しないなどの状況については、これがどれほど問題であるかについては議論が多いです。」

最終的に、ノースカロライナ大学の研究者は、Rank-One Model Editing(ROME)などの最新のモデル編集方法でも、「LLMから事実情報を完全に削除することはできず、ホワイトボックス攻撃では38%の時間、ブラックボックス攻撃では29%の時間、事実が抽出される可能性がある」と結論付けました。

チームが研究に使用したモデルはGPT-Jと呼ばれます。ChatGPTの基本モデルの1つであるGPT-3.5は1700億のパラメータで微調整されましたが、GPT-Jはたった60億のパラメータしか持っていません。

これはつまり、GPT-3.5などのLLMで望ましくないデータを見つけて排除する問題は、より小さなモデルでは比較にならないほど難しいということです。

研究者たちは、いくつかの「抽出攻撃」と呼ばれる意図的な試みに対してLLMを保護するための新しい防御方法を開発することに成功しました。これは、悪意のある第三者がモデルのガードレールを迂回するためにプロンプトを使用して機密情報を出力させようとするものです。

ただし、研究者たちは、「機密情報を削除する問題は、防御方法が常に新しい攻撃方法に追いつくことになるかもしれない」と書いています。

We will continue to update Kocoo; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

ブロックチェーン

「英国の犯罪法案により、警察がより迅速に暗号通貨を凍結し、汚染された資産を公的資金に振り向けることができるようになります」

「経済犯罪と企業の透明性に関する法案は、今年後半に法律化される予定であり、現地の警察が犯罪に関連する仮想通貨の凍結を...

ブロックチェーン

ルノ・エクスチェンジは、近日実施されるFCA規制により、一部の英国のクライアントの投資を一時停止する予定です

「ルノー(Luno)は、バリー・シルバートのデジタル・カレンシー・グループの所有する仮想通貨取引所であり、規制の変更によ...

市場

もうパニックはいらない?バイナンスの訴訟にもかかわらず、暗号通貨は回復力を見せるが、BNBは6ヶ月ぶりの安値を記録

パニックはもう終わり?バイナンス訴訟後、暗号通貨は弾力的だが、BNBは6か月ぶりの安値を記録

ブロックチェーン

「チャンサーは、ミームの取引量が低下する中でチャンスをつかむ」

「人気のあるミームコインの大部分が足元をすくわれる中、新しい分散型予測市場メイキングプラットフォームはCHANCERのプレセ...

市場

ビットコイン(BTC)および広範な仮想通貨市場は、Binanceに対するSECの訴訟に続いて大幅に下落しました

SECがBinanceに対する行動を起こした後、ビットコインと広範な暗号市場が急落しましたアルトコインは7〜8%の大幅な修正に直...

ブロックチェーン

Dapper Labsは51人を解雇し、NFT市場の長引く仮想通貨の冬を理由に挙げました

ダッパーラブスのCEOであるロハム・ガレゴズルは、日本時間の木曜日の朝、ツイートを通じて会社が51人の従業員を解雇したこと...