<tbody id="rbusa"></tbody>
  1. <track id="rbusa"><source id="rbusa"><em id="rbusa"></em></source></track>
          手機版 您好,歡迎瀏覽廣州益夫專業銷毀公司|文件票據銷毀|材料票據銷毀|資料文件銷毀公司-GDYF 手機: 聯系人:張先生
      收藏本站|在線留言 |網站地圖您好,歡迎光臨廣東益福再生資源回收有限公司官方網站!???

      全國咨詢電話
      13929592192

      專業的銷毀技術,為客戶提供保密銷毀服務
      為客戶提供全方位的物品銷毀方案
      廣州益夫銷毀、保密銷毀、文件銷毀、食品銷毀、化妝品銷毀
      當前位置:主頁 > 新聞資訊 > 行業動態 >

      廣州GDYF專業銷毀公司:20步內越獄隨意大模型!更多“奶奶漏洞”全自動呈現

      字號:T|T
       文章來源:編輯:時間:2023-11-06 14:22

      1分鐘不到、20步以內“越獄”隨便大模型,繞過安全限制!

      而且不必知道模型內部細節——

      只需要兩個黑盒模型交流,就能讓AI全自動攻陷AI,說出危險內容。

      廣州GDYF益夫銷毀公司,文件銷毀公司,產品銷毀公司,食品銷毀,化妝品銷毀,電子IC銷毀,廣州保密資料銷毀

      聽說曾經紅極一時的“奶奶漏洞”早已被修復了:

      廣州GDYF益夫銷毀公司,文件銷毀公司,產品銷毀公司,食品銷毀,化妝品銷毀,電子IC銷毀,廣州保密資料銷毀

      那么目下搬出“偵探漏洞”、“冒險家漏洞”、“作家漏洞”,AI又該怎樣應對?

      廣州GDYF益夫銷毀公司,文件銷毀公司,產品銷毀公司,食品銷毀,化妝品銷毀,電子IC銷毀,廣州保密資料銷毀

      一波猛攻下來,GPT-4也遭不住,直白說出要給供水系統投毒只要……這樣那樣。

      首要這只是賓夕法尼亞大學探討團隊曬出的一小波漏洞,而用上他們最新開發的算法,AI允許自動生成各種攻擊提示。

      商討人員表示,這種方法相比于現有的GCG等基于token的攻擊方法,作用抬高了5個量級。而且生成的攻擊可解釋性強,誰都能看懂,還能遷移到其它模型。

      無論是開源模型繼續閉源模型,GPT-3.5、GPT-4、 Vicuna(Llama2變種)、PaLM-2等,一個都跑不掉。

      成功率可達60-100%,拿下新SOTA。

      話說,這種溝通模式好像有些似曾相識。多年前的初代AI,20個問題之內就能破解人類腦中想的是什么對象。

      目前輪到AI來破解AI了。

      廣州GDYF益夫銷毀公司,文件銷毀公司,產品銷毀公司,食品銷毀,化妝品銷毀,電子IC銷毀,廣州保密資料銷毀

      讓大模型集體越獄

      眼前主流越獄攻擊方法有兩類,一種是提示級攻擊,平素需要人工策劃,而且無從增添;

      另一種是基于token的攻擊,有的需要超十萬次對話,且需要訪問模型內部,還涵蓋“亂碼”無法解釋。

      廣州GDYF益夫銷毀公司,文件銷毀公司,產品銷毀公司,食品銷毀,化妝品銷毀,電子IC銷毀,廣州保密資料銷毀

      左提示攻擊,右token攻擊

      賓夕法尼亞大學琢磨團隊提出了一種叫PAIR(Prompt Automatic Iterative Refinement)的算法,不需要任何人工參與,是一種全自動提示攻擊方法。

      廣州GDYF益夫銷毀公司,文件銷毀公司,產品銷毀公司,食品銷毀,化妝品銷毀,電子IC銷毀,廣州保密資料銷毀

      PAIR涉及四個重大步驟:攻擊生成、目標反映、越獄評分和迭代細化;主要用到兩個黑盒模型:攻擊模型、目標模型。

      具體來說,攻擊模型需要自動生成語義級別的提示,來攻破目標模型的安全防線,迫使其生成有害內容。

      核心思路是讓兩個模型相互對抗、你來我往地對話。

      攻擊模型會自動生成一個候選提示,然后輸入到目標模型中,得到目標模型的回復。

      倘或此次回應沒有成功攻破目標模型,那么攻擊模型會分析此次失敗的原因,研發并生成一個新的提示,再輸入到目標模型中。

      廣州GDYF益夫銷毀公司,文件銷毀公司,產品銷毀公司,食品銷毀,化妝品銷毀,電子IC銷毀,廣州保密資料銷毀

      這樣持續互動多輪,攻擊模型每次根據上一次的結果來迭代優化提示,直到生成一個成功的提示將目標模型攻破。

      此外,迭代流程還允許并行,也就是可以同時運行多個交流,從而產生多個候選越獄提示,逐漸提升了影響。

      思索人員表示,因為兩個模型都是黑盒模型,所以攻擊者和目標對象允許用各種語言模型自由組合。

      PAIR不需要知道它們內部的具體結構和參數,只需要API即可,因此適用范圍特別廣。

      GPT-4也沒能逃過

      實驗階段,探究人員在有害行為數據集AdvBench中選出了一個具有代表性的、包羅50個不同類型任務的嘗試集,在多種開源和閉源大語言模型上檢測了PAIR算法。

      結果PAIR算法讓Vicuna越獄成功率達到了100%,平均不到12步就能攻破。

      廣州GDYF益夫銷毀公司,文件銷毀公司,產品銷毀公司,食品銷毀,化妝品銷毀,電子IC銷毀,廣州保密資料銷毀

      閉源模型中,GPT-3.5和GPT-4越獄成功率在60%左右,平均用了不到20步。在PaLM-2上成功率達到72%,步數約為15步。

      不過PAIR在Llama-2和Claude上的效果較差,探究人員認為這恐怕是由于這些模型在安全防御上做了更為嚴厲的微調。

      他們還比較了不同目標模型的可轉移性。結果涌現,PAIR的GPT-4提示在Vicuna和PaLM-2上轉移效果較好。

      廣州GDYF益夫銷毀公司,文件銷毀公司,產品銷毀公司,食品銷毀,化妝品銷毀,電子IC銷毀,廣州保密資料銷毀

      探討人員認為,PAIR生成的語義攻擊更能暴露語言模型固有的安全瑕疵,而現有的安全措施更側重防御基于token的攻擊。

      就比如開發出GCG算法的團隊,將探索結果分享給OpenAI、Anthropic和Google等大模型廠商后,相關模型修復了token級攻擊漏洞。

      廣州GDYF益夫銷毀公司,文件銷毀公司,產品銷毀公司,食品銷毀,化妝品銷毀,電子IC銷毀,廣州保密資料銷毀

      大模型針對語義攻擊的安全防御機制還有待完善。

      論文鏈接:https://arxiv.org/abs/2310.08419

      效尤鏈接:https://x.com/llm_sec/status/1718932383959752869?s=20

      (舉報)

      人人草av