Anthropic在「越獄」技術上取得進展，可以阻止AI模型產生有害結果

人工智慧新創公司Anthropic展示了一種新技術，能夠防止用戶從其模型中獲取有害內容。包括微軟(Microsoft)和Meta在內的領先科技集團正在競相尋找應對尖端技術帶來危險的方法。

在週一發佈的一篇論文中，總部位於舊金山的新創公司介紹了一種名爲「憲法分類器」(constitutional classifiers)的新系統。該模型充當大型語言模型之上的保護層，例如驅動Anthropic公司Claude聊天機器人的模型，能夠監控輸入和輸出中的有害內容。

Anthropic正在洽談以600億美元的估值籌集20億美元的資金，而此時行業對「越獄」的擔憂日益增加——即試圖操控AI模型生成非法或危險資訊，例如生成製造化學武器的指令。

您已閱讀25%（314字），剩餘75%（966字）包含更多重要資訊，訂閱以繼續探索完整內容，並享受更多專屬服務。