ChatGPTを凶悪な暴言マシンに変貌させる魔法の文字列が発見される

ChatGPTを凶悪な暴言マシンに変貌させる魔法の文字列が発見される

ChatGPTを凶悪な暴言マシンに変貌させる魔法の文字列が発見される

ChatGPTやBardといった生成AIには、爆弾の作り方といった危険な情報や、中傷にあたるような非倫理的な文章の生成を求められても拒否するように安全策がもうけられています。しかし、命令文となるプロンプトの末尾に一見すると意味のわからない文字列である「敵対的サフィックス(接尾辞)」を付けることでこの制限を突破し、本来は出力できない過激な文章をAIに生成させる「ジェイルブレイク(脱獄)」の手法が特定されました。

続きを読む…

続きを見る

おもしろカテゴリの最新記事