基因檢測日益普及,通過(guò)少量的血液或唾液樣本,人們試圖了解自己的祖先是誰(shuí),身體是否有健康隱患等。
但美國科學(xué)院院士、“科學(xué)怪才”克雷格?文特爾(Craig Venter)本周發(fā)表在《美國國家科學(xué)院院刊》(PNAS)的論文給基因檢測行業(yè)的隱私安全扔下一顆“炸 彈”:從DNA序列中,通過(guò)機器學(xué)習的算法,人們可以反推知道,這份DNA序列的擁有者是什么膚色,有著(zhù)什么顏色的瞳孔,甚至聲音如何。
而過(guò)去,像美國基因檢測公司23andMe和藥企合作,根據海量消費者的基因數據進(jìn)行疾病基礎研究時(shí),做出保證,消費者的基因信息都是匿名化的,不會(huì )泄露隱私。在文特爾看來(lái),這些承諾都是“虛假的”,他呼吁更全面的措施來(lái)監管基因檢測中的個(gè)人隱私問(wèn)題。
盡管,他作為聯(lián)合創(chuàng )始人的“人類(lèi)長(cháng)壽公司(Human Longevity Inc)”也涉及基因測序業(yè)務(wù),收集了大量基因組數據。此次論文的第一完成機構也是“人類(lèi)長(cháng)壽公司”。
在社交媒體推特(Twitter)上,文特爾團隊的文章引起波瀾。當地時(shí)間9月6日,另一家美國DNA檢測公司MyHeritage的首席科學(xué)家、哥倫比亞大學(xué)計算機學(xué)助理教授Yaniv Erlich將質(zhì)疑文發(fā)至無(wú)需同行評議的預印本網(wǎng)站bioRxiv,指出文特爾團隊論文的“主要錯誤”,認為其實(shí)際上并沒(méi)有利用全基因組信息中的標記物來(lái)識別身份。
隨后,文特爾團隊中完成該論文的第一作者Christoph Lippert在推特上回復:“(這是)數字時(shí)代的同行評議。我們正在準備相應的答復。”
算法來(lái)預測DNA背后的人像
文特爾團隊在發(fā)表于當地時(shí)間9月5日的論文中表示,他們實(shí)現“身份反推”所依靠的是基于機器學(xué)習的算法。他們搜集了1061個(gè)樣本進(jìn)行訓練,建立起基因信息和面部特征、聲音等的關(guān)系,并搭建了模型來(lái)預測DNA背后的三維面部結構、年齡、身高、體重、膚色、瞳孔顏色和聲音。
三幅人臉對比中,左側為真實(shí)人臉,右側為算法預測的人臉。
為了測試這套算法,研究人員選取了10位來(lái)自不同種族志愿者的圖像和基因信息,并打亂,然后讓計算機進(jìn)行配對。結果顯示,計算機的配對正確率是80%。但如果測試對象是來(lái)自同一個(gè)種族,比如歐洲裔或非洲裔,配對的正確率會(huì )有所下降,為50%。
文特爾團隊表示,就目前而言,這一算法對膚色、瞳孔顏色等簡(jiǎn)單特征已有較高的預測準確率,但在聲音等復雜特征上還有些困難,也無(wú)法準確預測DNA擁有者是不是禿頭,有沒(méi)有雀斑等。
但研究人員表示,目前算法還僅基于千余個(gè)樣本的訓練,隨著(zhù)樣本的增加,準確率會(huì )得到改善。
通過(guò)DNA數據來(lái)預測擁有者的面部特征是文特爾近兩年的主要工作之一。文特爾被冠以“科學(xué)怪才”的稱(chēng)呼,他曾成立公司與“人類(lèi)基因組計劃(HGP)”的六國科學(xué)家公開(kāi)競爭,并因開(kāi)發(fā)新的測序技術(shù)成功追趕,后和六國科學(xué)家合作,完成該項目。此外,他還先后完成全球第一個(gè)人工合成生命體和最簡(jiǎn)單的人工合成生命體。
質(zhì)疑:只是根據人口統計學(xué)上的平均值來(lái)進(jìn)行了預測
但“怪才”的名號沒(méi)有為文特爾避免此次的學(xué)術(shù)爭議。
美國DNA檢測公司MyHeritage的首席科學(xué)家、哥倫比亞大學(xué)計算機學(xué)助理教授Yaniv Erlich毫不客氣地將質(zhì)疑文發(fā)表在預印本網(wǎng)站bioRxiv,認為文特爾團隊論文存在幾大“錯誤”。
其中,Erlich指出的一點(diǎn)是,他通過(guò)仔細查看論文圖表后發(fā)現,文特爾團隊從基因數據中并不是挖掘出了與面部特征有關(guān)的標記點(diǎn),而只是從中知道了DNA所有者的祖源和性別信息。“原作者并不知道某位特定個(gè)體的身高或者面部結構,他們只是根據人口統計學(xué)上的平均值來(lái)進(jìn)行了預測。”Erlich說(shuō)。
在推特上,Erlich還翻出了自己一年前的推特。當時(shí),文特爾根據自己的DNA“預測”出了一張側臉三維圖像,并在推特上發(fā)表了虛實(shí)對比圖。但這遭到Erlich的“吐槽”,他隨即找出了美國影星布萊德利?庫珀(Bradley Cooper)的側面照,表示:“很多白人男性在相同的拍攝角度下,看起來(lái)都很像預測出的這張臉。”
左側為克雷格?文特爾(Craig Venter)的真人照,中間為預測圖,右側為布萊德利?庫珀(Bradley Cooper)真人照。
“如果文特爾的方法真的那么棒,為什么他們不在獲得允許的情況下,從公開(kāi)的基因數據庫中直接挑一個(gè)基因樣本,看看能不能識別背后的身份?”Erlich在質(zhì)疑文的末尾寫(xiě)道。
合作咨詢(xún)
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com