威廉·吉布森(William Gibson)寫于 2010 年的小說《零歷史(Zero History)》中有這樣一個場景:一個角色穿著迄今為止「最丑陋的 T-shirt」展開了危險的突襲,T-shirt 可使其對閉路電視(CCTV)隱身。在尼爾·斯蒂芬森(Neal Stephenson)的小說《雪崩(Snow Crash)》中,一個位圖圖像被用來傳遞可擾亂黑客大腦頻率的病毒,借助計算機增強的視覺神經(jīng)以腐蝕目標者的心智。諸如此類的故事形成了一種循環(huán)往復的科幻比喻:一張普通的圖像具有摧毀計算機的能力。
不管怎樣,這個概念并非完全虛構(gòu)。去年,研究者僅僅帶上花式眼鏡(patterned glasses),一個商用面部識別系統(tǒng)就做出了錯誤識別?;ㄊ窖坨R就是在鏡框上貼上迷幻色彩的貼紙,花式的扭曲和曲線在人看來是隨機的,但計算機卻要在帶有花式眼鏡的人臉上分辨出五官,而且這些人臉的輪廓很相似?;ㄊ窖坨R不會像吉布森「最丑陋的 T-shirt」那般將其從閉環(huán)電視中抹去,但是它可使人工智能錯認為你是教皇,或者其他人。
帶有花式眼鏡的研究者以及人臉識別系統(tǒng)的對應(yīng)識別結(jié)果。
這些類型的襲擊包含在被稱為「對抗機器學習(adversarial machine learning)」(之所以如此稱呼是由于對手之類的存在,在該情況中,對手是黑客)大量網(wǎng)絡(luò)安全類別中。在這一領(lǐng)域,「最丑陋的 T-shirt」以及腐蝕大腦的位圖的科幻比喻表現(xiàn)為「對抗性圖像」或者「愚弄式圖像」,但是對抗性襲擊具有形式,如音頻甚至是文本。2010 年早期,大量的團隊各自獨立發(fā)現(xiàn)了這一現(xiàn)象的存在,他們通常把可對數(shù)據(jù)進行分類的機器學習系統(tǒng)「分類器」作為目標,比如谷歌圖片中的算法可為你的照片打上食物、假期和寵物等標簽。
對于人而言,愚弄式圖像就像是一個隨機的扎染圖案或者突發(fā)的電視噪點;但是對圖像分類器而言,它卻可以自信的說出:「看,那是一只長臂猿」或者「一個如此亮眼的紅色摩托車」。就像花邊眼鏡使人臉識別系統(tǒng)發(fā)生了錯誤識別,分類器處理了混亂到人類永遠無法識別的圖像視覺特征。
這些圖案可以各種方式繞過人工智能系統(tǒng),并對未來的安全系統(tǒng)、工業(yè)機器人和自動駕駛汽車等需要人工智能識別物體的領(lǐng)域有重大意義。2015 年有關(guān)愚弄式圖像論文的聯(lián)合作者 Jeff Clune 告訴 The Verge:「想象一下你身處軍隊,正在使用一個自動鎖定目標的武器系統(tǒng),你絕不希望敵人把一張對抗性圖像放在了醫(yī)院的樓頂,系統(tǒng)鎖定并攻擊了醫(yī)院;或者你正在使用同一個系統(tǒng)追蹤敵人,你也絕不喜歡被愚弄式圖像騙了,[并] 開始用你的無人機緊盯著錯誤的目標車輛?!?/p>
愚弄式圖像以及人工智能識別的對應(yīng)結(jié)果。
這些情節(jié)是假設(shè)的,但卻非常具有可行性,如果繼續(xù)沿著當前的人工智能路徑發(fā)展。Clune 說:「沒錯,這是一個研究社區(qū)需要共同面對的大問題?!狗烙鶎剐怨舻奶魬?zhàn)有兩方面:我們不僅不確定如何有效地反擊現(xiàn)有攻擊,而且更多高效的攻擊變體在持續(xù)增長。Clune 及其聯(lián)合作者 Jason Yosinski 和 Anh Nguyen 描述的愚弄式圖像容易被人類發(fā)現(xiàn),它們就像是視覺幻覺或者早期的網(wǎng)絡(luò)藝術(shù),滿是斑駁的色彩與圖案重疊,但是有更為微妙的方法運用它們。
攝動可像 Instagram 濾鏡一般被用于圖像
有一類被研究者稱為「攝動(perturbation)」的對抗性圖像幾乎對人眼不可見,它作為照片表面上的像素漣漪(ripple of pixels)而存在,并可像 Instagram 濾鏡一般被用于圖像。這些攝動發(fā)現(xiàn)于 2013 年,在 2014 年一篇名為「解釋和利用對抗性實例(Explaining and Harnessing Adversarial Examples)(鏈接:)」的論文中,研究者演示了攝動的靈活性。攝動有能力愚弄一整套不同的分類器,即使沒有被訓練來攻擊的分類器。一項名為「通用對抗性攝動(Universal Adversarial Perturbations)(鏈接:)」改進研究通過成功地在大量不同的神經(jīng)網(wǎng)絡(luò)上測試攝動,使得這一特征明確起來,上個月引起了眾多研究者們的關(guān)注。
左邊是原始圖像,中間是攝動,右邊被攝動的圖像。
使用愚弄式圖像黑進人工智能系統(tǒng)有其局限性:第一,需要花費更多時間制作加擾的圖像,使得人工智能系統(tǒng)認為其看到的是一張?zhí)厥獾膱D像而不是產(chǎn)生了隨機錯誤。第二,為了在起初生成攝動,你經(jīng)常——但不總是——需要獲取你要操控的系統(tǒng)的內(nèi)部代碼。第三,攻擊并不是一貫高效。就像論文「通用對抗性攝動」所述,在一個網(wǎng)絡(luò)中成功率為 90% 的攝動也許在另外一個網(wǎng)絡(luò)之中只有 50-60% 的成功率。(也就是說,如果一個存在問題的分類器正在指引一輛自動駕駛半式卡車,甚至 50% 的錯誤率都是災難性的。)
為了更好地防御愚弄式圖像,工程師開始了「對抗性訓練」。這需要為分類器輸入對抗性圖像,從而讓分類器可以學習識別并忽略它們,就像保鏢通過臉面照片識別酒吧禁止入內(nèi)之人。不幸的是,正如賓夕法尼亞州立大學畢業(yè)生 Nicolas Papernot(關(guān)于對抗性攻擊他寫了大量論文)所解釋的,在「計算密集型策略」面前,即使這種訓練也很脆弱(即,向系統(tǒng)輸入足夠的圖像,它最終仍會出錯)。
被攝動的圖像,以及對應(yīng)的人工智能識別的結(jié)果。
更困難的是,這類攻擊奏效或失敗的原因并不清晰。一種解釋是對抗性圖像利用一種被稱為「決策邊界」的特征,其在很多人工智能系統(tǒng)中都存在。這些邊界是不可見的規(guī)則,它們調(diào)控了系統(tǒng)如何判別,如,獅子和豹子之間的不同。一個很簡單的只區(qū)分這兩類動物的人工智能項目將最終創(chuàng)造出一個意境地圖。想像在一個 X-Y 平面內(nèi):右上角分布著所有該人工智能系統(tǒng)見過的豹子,而左下角分布著獅子。將這兩個部分分開的直線——獅子變成豹子,豹子變成獅子的邊界——稱作決策邊界。
Clune 說道,對于分類來說,決策邊界方法的難題是它太絕對,太武斷?!改銓ι窠?jīng)網(wǎng)絡(luò)所做的所有事情僅僅是訓練它們在各類數(shù)據(jù)間畫線,而不是對它們建模以識別出它們代表了豹子還是獅子?!瓜襁@樣的系統(tǒng)可以通過一個確定的、用各種方式操作。為了愚弄獅子-豹子分析器,你可以拍一張獅子的照片并把它的特征推到奇特的極端,但仍然讓它變現(xiàn)為正常的獅子:給它如同挖掘裝備的,和校車一般大小的爪子,以及如同燃燒的太陽一般的長鬃毛。對人類來說,這是無法識別的,但對一個檢查決策邊界的人工智能系統(tǒng)來說,這只是一只極端的獅子罷了。
據(jù)我們所知,對抗性圖像從未在真實世界形成過危害。但谷歌大腦的研究科學家,聯(lián)合著述了《解釋和利用對抗性實例》的 Ian Goodfellow 認為這種潛在的威脅從未被忽視?!秆芯可鐓^(qū),尤其是谷歌,正在嚴肅地對待這個問題,」Goodfellow 說道?!覆⑶椅覀冋χ铝τ诎l(fā)展更好的防御措施。」大量組織,如伊隆·馬斯克創(chuàng)立的 OpenAI,目前正在進行或發(fā)起關(guān)于對抗性攻擊的研究。目前的結(jié)論是暫時沒有新技術(shù),但關(guān)于這些攻擊在真實世界中能造成多大威脅,研究者們并未達成共識。例如,已存在大量攻擊自動駕駛汽車的方法,它們并不依賴于計算復雜的攝動。
Papernot 認為,廣泛存在于人工智能系統(tǒng)中的不足并不令人驚訝——分類器被訓練成「擁有好的平均表現(xiàn),而并不總是針對最壞情況的表現(xiàn)——這是典型的從安全角度出發(fā)的觀點?!挂簿褪钦f,比起它的平均表現(xiàn),研究者較少擔心系統(tǒng)發(fā)生災難性的錯誤?!敢环N處理棘手的決策邊界的方法,」Clune 說道,「是使得影像分類器知曉它們無法分類什么目標,而不是試圖將數(shù)據(jù)擬合進某一類。」
與此同時,對抗性攻擊也激發(fā)了更深層與概念化的思考。相同的愚弄式圖像可以擾亂谷歌、Mobileye 或 Facebook 獨立開發(fā)的人工智能系統(tǒng)的「心智」,整體上揭示了當代人工智能特有的不足。
「仿佛所有這些不同的網(wǎng)絡(luò)圍坐一起,互相訴說為什么這些愚蠢的人類認識不到這個噪點圖里實際上是一個海星,」Clune 說道?!改窍喈斢腥で疑衩?所有這些網(wǎng)絡(luò)都同意這些瘋狂和非自然的影像實際上屬于同類。那種程度的收斂真讓人驚訝?!?/p>
對 Clune 的同事 Jason Yosinski 來說,在愚弄式圖像上的研究表明人工智能和自然界創(chuàng)造的智能之間存在令人驚訝的共同點。他注意到人工智能及它們的決策邊界所犯的同類錯誤也存在于動物世界中,在這里動物們被「超常刺激」所愚弄。
這些刺激是自然界現(xiàn)象的人工版,慫恿動物違背它們的天性。這一行為首先于二十世紀五十年代被發(fā)現(xiàn),當時研究者們用它使得鳥類忽視它們自己的蛋而更偏愛顏色更鮮艷的贗品,或者使得紅肚棘魚將垃圾當作競爭對手而進行爭斗。只要有大的紅肚繪在垃圾上面,魚就將與其爭斗。一些人曾認為人類成癮行為,如快餐和色情文學,也是超常刺激的例子。鑒于此,人們可以認為人工智能犯的錯誤是自然而然的。但遺憾的是,我們需要人工智能有能力避免這些錯誤,表現(xiàn)得更好。
原文:
【本文是51CTO專欄機構(gòu)機器之心的原創(chuàng)譯文,微信公眾號“機器之心( id: almosthuman2014)”】
戳這里,看該作者更多好文
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!