【名家專欄】您的人工智能覺醒了嗎?
【大紀元2021年09月16日訊】(英文大紀元專欄作家Mark Stamp撰文/信宇編譯)就核心而言,人工智能(artificial intelligence,簡稱AI)就是統計性歧視;也就是說,人工智能算法從統計信息中提取決策見解。與普通的統計性歧視技術相比,人工智能算法能夠通過一個涉及數據訓練的過程來「學習」。
人工智能成功的關鍵就是,算法能夠從訓練數據中歸納,而不是簡單地記憶信息。
人類對人工智能的探索並不新鮮,因為有關人工神經元的初始工作可以追溯至20世紀40年代,而50年代開發的一些基本模型至今仍在使用。然而,人工智能在各個領域的推廣應用是一個最近不斷興起的發展趨勢,而這個趨勢在未來數年裡可能會成倍暴漲。
既然人工智能擁有如此悠久的歷史,為什麼它最近才突然爆紅呢?在此冒昧借用美國歌手安德里亞‧特魯(Andrea True)曾經發行的音樂專輯名稱來回答,答案就是「更多、更多、更多」(more, more, more)。具體而言,就是我們擁有更多的計算能力和更多的數據,因而我們能夠建立具有更多人工神經元層的模型。這種「深度學習」方法已經產生了更強大和更高效的模型,這在以往是不可想像的。
關於人工智能存在偏見的說法在今天相當普遍。有鑒於此,學術界和工業界正在興起一場運動,通過建立包含各種公平概念的人工智能系統,以根除某些類型的偏見。然而,在我看來,這種努力可能會阻礙人工智能在許多應用領域的發展,而最糟糕的結果就是,此舉可能會把人工智能淪為一門偽科學。
「廢料進,廢品出。」這句古訓當然也適用於人工智能。如果用於訓練人工智能模型的數據存在偏見,那麼由此產生的模型將會忠實地再現這種偏見。
與用於訓練的數據相比,人工智能算法不存在固有的偏見;因為無論訓練數據如何,它都追求相同的學習策略。因此,似乎顯而易見的是,指控人工智能存在偏見,其實旨在獲得更好的數據以提升人工智能模型。
然而事實並非如此。當前針對人工智能公平性的研究主要集中於構建模型,無論訓練數據如何,都不會產生特定的結果。此舉可能導致未來對訓練數據進行修改,或對人工智能訓練算法的內部運作進行修補。
無論出現何種情形,目的都是防止最終模型產生某些不良結果,無論數據可能呈現模型何種信息。
假設我們收集了面向海量個體的各種統計數據(如身高、體重、鞋碼,等等)組成的數據庫。此外,再假設我們希望確保這個模型不會歧視高個子人群。那麼我們可以輕易地忽略數據庫中的身高信息,從而阻止整個人工智能模型直接使用身高作為辨別特徵。
然而,鞋子大小和體重可能會間接表明身高,導致身高仍然是人工智能決策過程中的一個因素。因此,簡單地從訓練數據中剔除一個特徵,這樣的粗暴行為可能不足以防止特定的偏見滲入受訓的人工智能模型。
另一種方法是修改訓練過程本身,這也是任何人工智能算法的核心所在。根據特定人工智能技術的具體情況,有多種方法可以用於修改訓練算法,以使模型不會根據訓練樣本中的受試者身高進行身分歧視。
無論是修改數據還是更改算法,我們都人為地限制了人工智能模型的可用信息。更改算法可能還是更直接、更有效的方法。
今天主導人工智能的深度學習算法以不透明著稱於世;也就是說,人們很難理解模型是如何做出決策的。通過從根本上改變這些模型以消除所謂的不良結果,我們打開了操縱的潘多拉魔盒,這些操縱將有意或無意地代入設計者的種種偏見。
統計性歧視是人工智能的核心,人工智能模型仍然會根據訓練數據的某些信息進行自然歧視。而且,由於這些模型具有不透明性,事後要找出代入偏見的來源往往是幾乎不可能的。
基於這樣的公平原則,不難想像旨在檢測諸如「假新聞」或「仇恨言論」等模糊概念的人工智能模型,其構建方式難免會偏向政治光譜的某一方。這樣的模型將為其(帶有偏見的)結果添加一層科學體面的外衣,而且很難發現任何內在偏見的來源和程度。
儘管其研究目的可能精神可嘉,研究問題也確實有趣,然而人工智能的公平性問題大大增加了搬弄是非的可能性。最終,這些類型的操縱將威脅和損害外界對人工智能的信任。
已故紐約參議員丹尼爾‧帕特里克‧莫尼漢(Daniel Patrick Moynihan)曾說過一句名言:「每個人都有權發表自己的意見,但沒有權利發表自己的事實。」
包括「公平」在內的人工智能模型帶來了將事實和意見糾纏在一起的前景,這可能會使兩者幾乎無法分開。在這種情況下,人工智能開發者的意見可能會被提升為客觀「科學」的「事實」,至少那些贊同開發者觀點的人會對此推波助瀾。
與之相對,那些不同意開發者意見的人士就有理由相信,人工智能可能被操縱,只是為了產生一個預先設定的結果。
原文:刊登於英文《大紀元時報》。
作者簡介:
馬克‧斯坦普(Mark Stamp)是加州聖何塞州立大學(San Jose State University)的計算機科學教授。他的教學和研究領域主要集中於信息安全和機器學習等方面。他在涉及信息安全和機器學習等領域的各種主題上發表了超過125篇研究性論文,並撰寫了一系列備受好評的教科書,如《信息安全:原則與實踐》(Information Security: Principles and Practices,由Wiley出版)和《機器學習與信息安全應用入門》(Introduction to Machine Learning with Applications in Information Security,由Chapman and Hall/CRC出版)等。
本文僅代表作者觀點,並不一定反映《大紀元時報》立場。
責任編輯:高靜#