人工智慧新創公司Anthropic展示了一種新技術,能夠防止用戶從其模型中獲取有害內容。包括微軟(Microsoft)和Meta在內的領先科技集團正在競相尋找應對尖端技術帶來危險的方法。
在週一發佈的一篇論文中,總部位於舊金山的新創公司介紹了一種名爲「憲法分類器」(constitutional classifiers)的新系統。該模型充當大型語言模型之上的保護層,例如驅動Anthropic公司Claude聊天機器人的模型,能夠監控輸入和輸出中的有害內容。
Anthropic正在洽談以600億美元的估值籌集20億美元的資金,而此時行業對「越獄」的擔憂日益增加——即試圖操控AI模型生成非法或危險資訊,例如生成製造化學武器的指令。
您已閱讀25%(314字),剩餘75%(966字)包含更多重要資訊,訂閱以繼續探索完整內容,並享受更多專屬服務。