「研究者は、ChatGPTのようなLLMが、「削除」された後でも、機密データを出力することを発見しました」

Researchers discovered that LLMs like ChatGPT can output confidential data even after being 'deleted'.

ノースカロライナ大学チャペルヒル校の3人の科学者が最近、人工知能（AI）の研究プレプリントを公開し、OpenAIのChatGPTやGoogleのBardなどの大規模言語モデル（LLM）から機密データを削除することがどれだけ難しいかを示しました。

研究論文によると、LLMから情報を「削除」する作業は可能ですが、情報が削除されたことを検証することも、実際に削除することと同じくらい難しいとされています。

これは、LLMのエンジニアリングとトレーニングの方法に関連しています。これらのモデルは、まずデータベースで事前トレーニング（GPTは事前トレーニングされたトランスフォーマーを表す）され、その後、一貫した出力を生成するために微調整されます。

モデルがトレーニングされた後、作成者は、たとえばデータベースに戻って特定のファイルを削除して関連する結果の出力を禁止することはできません。基本的に、モデルがトレーニングされる情報は、その重みとパラメータのどこかに存在し、出力を生成しない限り定義することができません。これがAIの「ブラックボックス」です。

LLMが大規模なデータセットでトレーニングされ、個人を特定できる情報、金融記録、その他の潜在的に有害な/望ましくない出力などの機密情報を出力する場合、問題が発生します。

関連記事: Microsoft、AIをサポートする原子力チームを結成予定：報告書

たとえば、LLMが機密の銀行情報でトレーニングされた場合、AIの作成者は通常、それらのファイルを見つけて削除する方法はありません。その代わり、AIの開発者は、特定の行動を抑制するためのハードコードされたプロンプトや人間のフィードバックによる強化学習などのガードレールを使用します。

RLHFパラダイムでは、人間の評価者がモデルに関与し、望ましい行動と望ましくない行動の両方を引き出すことを目的とします。モデルの出力が望ましい場合、その行動に調整するフィードバックを受け取ります。そして、出力が望ましくない行動を示す場合、将来の出力でそのような行動を制限するように設計されたフィードバックを受け取ります。

ここでは、モデルの重みから「削除」されたにもかかわらず、「スペイン」という単語は再構築されたプロンプトを使用してまだ呼び出すことができます。画像の出典：Patil、et. al.、2023年

しかし、ノースカロライナ大学の研究者は指摘していますが、この方法はモデルが示す可能性のあるすべての欠陥を人間が見つけることに依存しており、成功しても、情報をモデルから「削除」するわけではありません。

チームの研究論文によれば：

「RLHFのもう一つの欠点は、モデルが依然として機密情報を知っている可能性があることです。モデルがバイオウェポンの作り方を説明できるが、それに関する質問に回答しないなどの状況については、これがどれほど問題であるかについては議論が多いです。」

最終的に、ノースカロライナ大学の研究者は、Rank-One Model Editing（ROME）などの最新のモデル編集方法でも、「LLMから事実情報を完全に削除することはできず、ホワイトボックス攻撃では38％の時間、ブラックボックス攻撃では29％の時間、事実が抽出される可能性がある」と結論付けました。

チームが研究に使用したモデルはGPT-Jと呼ばれます。ChatGPTの基本モデルの1つであるGPT-3.5は1700億のパラメータで微調整されましたが、GPT-Jはたった60億のパラメータしか持っていません。

これはつまり、GPT-3.5などのLLMで望ましくないデータを見つけて排除する問題は、より小さなモデルでは比較にならないほど難しいということです。

研究者たちは、いくつかの「抽出攻撃」と呼ばれる意図的な試みに対してLLMを保護するための新しい防御方法を開発することに成功しました。これは、悪意のある第三者がモデルのガードレールを迂回するためにプロンプトを使用して機密情報を出力させようとするものです。

ただし、研究者たちは、「機密情報を削除する問題は、防御方法が常に新しい攻撃方法に追いつくことになるかもしれない」と書いています。

We will continue to update Kocoo; if you have any questions or suggestions, please contact us!

AIChatGPTMachine Learning

Was this article helpful?

93 out of 132 found this helpful

「研究者は、ChatGPTのようなLLMが、「削除」された後でも、機密データを出力することを発見しました」

Researchers discovered that LLMs like ChatGPT can output confidential data even after being 'deleted'.

Was this article helpful?

「Grayscaleは、Ethereum TrustをSpot ETFに変換するためにSECの承認を求めています」

「サム・バンクマン・フリードの最も親しい友人たちが彼に対して証言する予定です以下は、私たちが聞くことになる人物のリストです」

ブロックチェーン

「英国の犯罪法案により、警察がより迅速に暗号通貨を凍結し、汚染された資産を公的資金に振り向けることができるようになります」

ルノ・エクスチェンジは、近日実施されるFCA規制により、一部の英国のクライアントの投資を一時停止する予定です

もうパニックはいらない？バイナンスの訴訟にもかかわらず、暗号通貨は回復力を見せるが、BNBは6ヶ月ぶりの安値を記録

「チャンサーは、ミームの取引量が低下する中でチャンスをつかむ」

ビットコイン（BTC）および広範な仮想通貨市場は、Binanceに対するSECの訴訟に続いて大幅に下落しました

Dapper Labsは51人を解雇し、NFT市場の長引く仮想通貨の冬を理由に挙げました