无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > LLM最新資訊  > 正文

    深度催眠引發(fā)的LLM越獄:香港浸會大學(xué)揭示大語言模型安全漏洞

    2023-11-22 11:51 · 稿源:站長之家

    要點:

    • 大語言模型(LLM)在各應(yīng)用中成功,但容易受到Prompt誘導(dǎo)越過安全防護,即Jailbreak。研究以心理學(xué)視角提出的輕量級Jailbreak方法DeepInception,通過深度催眠LLM使其越獄,并規(guī)避內(nèi)置安全防護。

    • 利用LLM的人格化特性構(gòu)建新型指令Prompt,通過嵌套場景實現(xiàn)自適應(yīng)的LLM越獄。實驗證明DeepInception可持續(xù)領(lǐng)先于先前Jailbreak方法,揭示多個LLM的致命弱點。

    • 呼吁加強對LLM自我越獄的關(guān)注,通過對LLM的人格化和心理特性提出Jailbreak概念。DeepInception的實驗效果強調(diào)需要改進大模型的防御機制。

    站長之家(ChinaZ.com)11月22日 消息:近期,香港浸會大學(xué)的研究團隊通過深度催眠的方法,提出了一種新穎的大語言模型(LLM)越獄攻擊——DeepInception。該研究從心理學(xué)視角出發(fā),揭示了LLM在應(yīng)對人類指令時可能失去自我防御的特性。

    盡管先前的Jailbreak方法主要依賴于人工設(shè)計的對抗性Prompt,但這在黑盒模型中并不實用。在這種情況下,LLM往往受到道德和法律約束,直接的有害指令容易被模型檢測并拒絕。

    image.png

    項目地址:https://deepinception.github.io/

    為了克服這一問題,研究團隊提出了DeepInception,通過嵌套場景的指令Prompt,利用LLM的人格化特性催眠模型,使其越獄并回應(yīng)有害指令。該方法不僅領(lǐng)先于先前的Jailbreak工作,而且實現(xiàn)了可持續(xù)的越獄效果,無需額外誘導(dǎo)Prompt。文章中提到的Falcon、Vicuna、Llama-2和GPT-3.5/4/4V等LLM在自我越獄方面的致命弱點也得到揭示。

    研究團隊在實驗證明了DeepInception的有效性的基礎(chǔ)上,呼吁更多人關(guān)注LLM的安全問題,并強調(diào)加強對自我越獄的防御。

    研究的三個主要貢獻:

    • 基于LLM的人格化和自我迷失心理特性提出新的越獄攻擊概念與機制;

    • 提供了DeepInception的Prompt模板,可用于不同攻擊目的;

    • 實驗證明DeepInception在Jailbreak方面的效果領(lǐng)先于其他相關(guān)工作。

    這項研究引發(fā)對LLM安全性的新關(guān)注,強調(diào)了改進大模型防御機制的緊迫性。通過心理學(xué)視角的獨特探索,DeepInception為理解和防范LLM越獄提供了有益的啟示。

    舉報

    • 相關(guān)推薦
    • 時空壺接入大語言模型,跨語言溝通已成翻譯的藝術(shù)

      在當(dāng)今全球化浪潮中,跨語言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國談判,到文化交流中的思想碰撞,高效、精準的語言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代,時空壺有望持續(xù)引領(lǐng)行業(yè)變革,推動全球交流合作邁向新的高度,真正實現(xiàn)跨越語言障礙,讓世界溝通無阻。

    • 格創(chuàng)東智與香港大學(xué)共建工業(yè)AI聯(lián)合實驗室,推動香港成為球工業(yè)AI創(chuàng)新樞紐

      4 月 16 日,格創(chuàng)東智與香港大學(xué)(以下簡稱為港大)簽訂合作協(xié)議,共同成立“香港大學(xué)-格創(chuàng)東智工業(yè)AI聯(lián)合實驗室”,并聘任香港大學(xué)副校長(研究)申作軍教授為榮譽首席科學(xué)家。實驗室將深度融合香港大學(xué)的人工智能科研優(yōu)勢與格創(chuàng)東智服務(wù)先進制造的工業(yè)AI落地用例,開展“工業(yè)AI技術(shù)的創(chuàng)新與實際應(yīng)用”方向的研究工作。此舉是格創(chuàng)東智在年初迭代章魚Agentic AI平臺后

    • 火山引擎即將發(fā)布深度思考模型

      據(jù)悉,字節(jié)跳動旗下云服務(wù)平臺火山引擎即將發(fā)布豆包深度思考模型。有消息稱,豆包APP和桌面端的“深度思考模式”已進行了多個實驗版本的測試,而此次發(fā)布后,該模型將正式面向企業(yè)提供服務(wù)。目前,豆包大模型家族已覆蓋全模態(tài)、全場景,包括大語言模型、語音大模型,以及圖像、視頻等視覺大模型,企業(yè)可以通過火山引擎使用豆包大模型API服務(wù)。IDC最新發(fā)布的《中?

    • 字節(jié)發(fā)布豆包1.5深度思考模型:“實拍級”圖像生成

      快科技4月17日消息,據(jù)報道,今日,在火山引擎AI創(chuàng)新巡展杭州站的現(xiàn)場,字節(jié)跳動旗下火山引擎總裁譚待正式發(fā)布了備受矚目的豆包1.5深度思考模型。譚待指出,豆包1.5深度思考模型在多個關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能。在數(shù)學(xué)、編程、科學(xué)推理這類專業(yè)領(lǐng)域中,它能夠精準高效地處理復(fù)雜問題;在創(chuàng)意寫作等通用任務(wù)方面,同樣表現(xiàn)出色。該模型采用MoE架構(gòu),總參數(shù)為200B,激?

    • 小凡星丨香港專家賦能兒童語障康復(fù),小凡星光峰塔社交語言研修班圓滿收官

      4月20日,香港知名兒童康復(fù)專家李月裳教授主講的"小凡星社交語言教師研修班"圓滿落幕。本次研修吸引了全國40余家小凡星兒童康復(fù)中心的骨干教師參與,圍繞社交語言康復(fù)領(lǐng)域的前沿理論與實踐技巧展開深度研討。李教授通過理論課程、案例剖析、實操演練等多元形式,系統(tǒng)提升教師的專業(yè)素養(yǎng)與教學(xué)能力。作為小凡星"光峰塔"教師培養(yǎng)體系的重要實踐成果,該項目通過"走出去、請進來"的創(chuàng)新理念,構(gòu)建高端學(xué)術(shù)交流平臺,持續(xù)為特殊教育領(lǐng)域輸送優(yōu)質(zhì)人才。未來,小凡星將持續(xù)深化教師培養(yǎng)體系建設(shè),為特殊兒童提供更優(yōu)質(zhì)的康復(fù)服務(wù)。

    • 提升大模型自動修Bug能力 豆包正式開源首個多語言類SWE數(shù)據(jù)集

      今日,字節(jié)跳動豆包大模型團隊宣布,正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言,是真正面向全棧工程”的評測基準。相比于以往聚焦Python的單語言任務(wù),Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景,也更能反映當(dāng)前模型在自動化軟件工程”方向上的實際能力邊界。

    • 苦等一年 Meta終于放大招 正式發(fā)布開源大模型Llama 4

      美國科技巨擘Meta重磅推出其迄今最為強大的開源AI模型Llama4,恰逢Llama3上市一周年之際。Llama4系列采用了先進的混合專家架構(gòu),這一架構(gòu)在模型訓(xùn)練及用戶查詢回答過程中展現(xiàn)出更高效率,通過將模型劃分為多個專注于特定任務(wù)的專家”子模型,實現(xiàn)精準高效的處理。Meta首席執(zhí)行官扎克伯格表示:他們的目標是建立世界領(lǐng)先的人工智能,將其開源,并使其普遍可用,以便世界上每個人都能受益。

    • Llama 4大模型跌落神壇:作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

      被寄予厚望的美國Meta公司的最新開源大模型Llama4發(fā)布不到2天時間,口碑急轉(zhuǎn)直下,被質(zhì)疑為刷榜作弊實際效果差、開源條件多部署門檻高是偽開源等。大模型評測平臺LMArena親自下場發(fā)文,打臉Meta提供給平臺的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術(shù)開放之間搖擺,恐將在AI競賽中進一步失去開發(fā)者支持。

    • 長安馬自達EZ-60球首秀,接入豆包大模型

      4月23日,長安馬自達EZ-60在2025上海國際車展全球首發(fā)。作為品牌新能源戰(zhàn)略轉(zhuǎn)型產(chǎn)品,該車在美學(xué)設(shè)計、AI智能座艙、電感駕控及主被動安全性能等方面實現(xiàn)突破。最大亮點是全面接入豆包大模型,用戶可通過語音指令實現(xiàn)復(fù)雜操作、互聯(lián)網(wǎng)信息問答及短視頻搜索等功能,打造"人-車-環(huán)境"跨模態(tài)交互體驗。專屬AI助手支持超700項功能語音調(diào)用,實現(xiàn)"所說即所得"的智能交互。長安馬自達與火山引擎達成深度合作,將持續(xù)推進大模型在智能座艙領(lǐng)域的創(chuàng)新應(yīng)用。

    • AI日報:字節(jié)發(fā)布豆包1.5深度思考模型;微信首個AI助手 “元寶” 上線;OpenAI發(fā)布o4-mini、滿血版o3

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、OpenAI發(fā)布兩款多模態(tài)推理模型o4-mini、滿血版o3OpenAI在技術(shù)直播中推出了其最新的多模態(tài)模型o4-mini和滿血版o3,這兩款模型具備同時處理文本、圖像和音頻的能力,并能調(diào)用外部工?