FT商學院

Anthropic在「越獄」技術上取得進展,可以阻止AI模型產生有害結果

包括微軟和Meta在內的領先科技集團也投資於類似的安全系統。

人工智慧新創公司Anthropic展示了一種新技術,能夠防止用戶從其模型中獲取有害內容。包括微軟(Microsoft)和Meta在內的領先科技集團正在競相尋找應對尖端技術帶來危險的方法。

在週一發佈的一篇論文中,總部位於舊金山的新創公司介紹了一種名爲「憲法分類器」(constitutional classifiers)的新系統。該模型充當大型語言模型之上的保護層,例如驅動Anthropic公司Claude聊天機器人的模型,能夠監控輸入和輸出中的有害內容。

Anthropic正在洽談以600億美元的估值籌集20億美元的資金,而此時行業對「越獄」的擔憂日益增加——即試圖操控AI模型生成非法或危險資訊,例如生成製造化學武器的指令。

您已閱讀25%(314字),剩餘75%(966字)包含更多重要資訊,訂閱以繼續探索完整內容,並享受更多專屬服務。
版權聲明:本文版權歸FT中文網所有,未經允許任何單位或個人不得轉載,複製或以任何其他方式使用本文全部或部分,侵權必究。
設置字型大小×
最小
較小
默認
較大
最大
分享×