用合成數據打造「數字天堂」

在一個以數據爲王的演算法驅動的世界裏，一個失誤可能導致一場大混亂。Netflix在2009年發佈由訂戶撰寫的匿名電影評論時發現了這一點。通過將那些簡短評論與另一個網站上的評論進行交叉比對，數據偵探發現他們可以識別個人訂戶和他們在看的內容。一名同性戀客戶起訴該公司侵犯私隱；Netflix與其達成了和解。

這一事件仍被尋求在不暴露提供資訊的個人的情況下從數據中篩選有用資訊的學者們引用。在匿名化處理失敗的地方，合成數據可能會成功。

顧名思義，合成數據是人工生成的。它通常是通過加噪演算法，將真實世界的數據彙集起來構建一個新的數據集而產生的。由此產生的數據集捕獲原始資訊的統計特徵，而不是變成一件暴露資訊來源的複製品。它的有用性取決於一個被稱爲差分私隱的原則：任何挖掘合成數據的人，都可以像他們從真實數據中那樣，得出同樣的統計推斷，但無法識別貢獻資訊的個人。