GPTやLlamaなどの大規模言語モデルはファインチューニングで簡単に脱獄可能だという研究結果

GPTやLlamaなどの大規模言語モデルはファインチューニングで簡単に脱獄可能だという研究結果

GPTやLlamaなどの大規模言語モデルはファインチューニングで簡単に脱獄可能だという研究結果

大規模言語モデルには、有害なコンテンツを出力しないようなセーフガードが設けられています。プリンストン大学、バージニア工科大学、IBMリサーチ、スタンフォード大学の研究チームがOpenAIのGPT-3.5 TurboとMetaのLlama-2-7b-Chat大規模言語モデルを検証した結果、小規模なファインチューニングでセーフガードを外すことができたと報告しています。

続きを読む…

続きを見る

おもしろカテゴリの最新記事