2023-03-14

保障個人私隱、數據更多樣化、成本低！「人工合成數據」成發展潛力無限新興產業

#智慧城巿 #大數據 #人工合成數據 #合成數據 #個人數據 #保護私隱政策 #個人私隱條例 #銀行 #醫療 #無人駕駛 #科技 #私隱

　　科網巨擘一直掌握消費者的個人數據，並以此作為業務的核心價值之一，從而賺取金錢。另有隱蔽的數據經紀（data broker）在你不知情或未經授權下竊取你的數據，包括照片、工作職位或行業、公開活動（如演講、論文、視頻、社交媒體賬戶），以及電子郵件和電話號碼，用以換取高價收益。為保障個人私隱，愈來愈多地方收緊保護私隱政策，故此，不會違反個人私隱條例的人工合成數據（Synthetic Data）便應運而生。

圖片來源：Freepik

　　有別於真實數據未必可反映真實狀況，如不同種族、國籍比例，合成版本則可減少偏差。而且，合成數據可就罕見情況提供更多樣的數據，彌補難以從現實獲得這些資訊的問題。有人估計它的成本僅為真實數據的1%，自然吸引企業應用。

　　合成數據可以是文本、媒體（片段、圖像、聲音）和列表。根據真實資料的含量，大致分為三類：一）真假各半，二）模擬真實並加以改動，三）完全虛構。因為靈活性強，應用的層面也日趨廣泛。時至今日，從銀行、醫藥到無人駕駛等多個行業也有使用合成數據。

　　據報美國運通兩年前已開始測試以深偽技術（Deepfake）片段和虛假數據如信用卡交易，提升AI演算法辨識詐騙行為的能力。摩根大通除了用合成數據來反洗黑錢外，也以此開發創新產品和服務，尤其真實的歷史數據未必可滿足各項產品之需要，合成數據則能大派用場。

　　在醫療領域上，瑞士藥廠羅氏（Roche）與初創合作，在臨床研究中使用合成醫學數據，代替患者數據，以提高分析能力。德國的夏里特醫學院醫學人工智能實驗室（CLAIM）研究中風，指每個患者的大腦結構都有其獨特之處，匿名化圖像意義不大，因此致力開發合成數據。

　　過去兩年來，Alphabet旗下的自動駕駛公司Waymo團隊一直以合成數據，生成逼真的駕駛數據集，包括繁忙的城市街道、高速多車的道路和混亂的停車場，或者通過調節迎面而至的車輛速度，來衡量Waymo的反應。

　　不過，有業內人士指出，合成數據較適合用於相對直接的問題，如欺詐檢測或信用評分，一旦遇上複雜多變的情況，它就應付不來。如人臉識別，當戴口罩成為常態時，便難以發揮功效。同時，在需要精準真實的數據作規劃時，合成數據也可能礙事。美國每年一度向1%的人口發出社區調查（ACS），以研究該國在教育、健康、收入、人口統計和地區之間的關係，當局打算把實際數據換成合成版本，便被批評難以為貧困小區分配本來有限的資源。

　　人工智能（AI）的智慧來自海量數據，如何有效運用數據，並不失保障私隱的原則，有賴不同行業和初創共同努力去尋找可行方案。今天，合成數據是個新興產業，我相信日後它定能在各行各業大放異彩。

《經濟通》所刊的署名及／或不署名文章，相關內容屬作者個人意見，並不代表《經濟通》立場，《經濟通》所扮演的角色是提供一個自由言論平台。

【你點睇？】立法會年底換屆，民主思路湯家驊指，市民不滿意本屆議員只懂追捧中央言論、不熟悉所審議法例等，你是否認同？► 立即投票