網易郵箱的使用者已經可以用人臉而不是密碼來驗證登錄。安卓 4.0 實現了人臉識別。谷歌接連收購兩家做人臉識別的公司。Intel 剛剛發佈以機器視覺為核心的感知計算軟體發展工具組。巨頭的動作表明人臉的應用開始主流起來。你一不小心可能就 out 了。
通過電腦的處理來把一張臉跟一個名字、一個身份對應起來。說起來就這麼簡單。但這是一項重大的仿生學上的技術突破。這背後的市場價值現在還難以估量。
相信各位也會問一個我已經問過的初級問題:指紋不也能識別身份嗎?何必要用人臉。從事這一行的王道江已經面對合作夥伴和投資者們回答過無數次:人臉要比指紋識別更優越。
第一,指紋需要接觸。而人臉不需要。很多小姑娘嫌髒而不願把手指按到那個無數人按過的指紋採集器上,確實,細菌會因此傳染,所以在醫院裡會被禁止。何況在極端的情況下是無法採集指紋的,比如有汗,煤礦工人的黑手,農民因為長年勞作指紋消失。
第二,指紋收集是個枯燥的事。但人臉收集是個有趣味的互動,就像照鏡子。當你在公司門口對著一個人臉識別螢幕對著自己微笑,卡擦,門開了,同時揚聲器裡傳出來一個清新的嗓音:看到你的微笑了,某某某。
第三,人臉的識別精確度已經發展到跟指紋類似:十萬分之一的重複概率。但被覆制和竊取的風險卻小很多。在中關村花 20 塊錢就可以做一個指紋膜,拿著它就可以幫同事代打卡或者開保險櫃。而人臉膜現在還不存在。
這些優越性直接衍生出實際應用。比如在駕校,學員報名但不上課,後來就成了馬路殺手。現在有了解決方案,在駕駛位前方的攝像頭即時採集人臉,確保這個學員在這一段時間內一直呆在這個位置,而老師要在副駕的位置上。一旦換人就後臺鳴笛。用指紋可解決不了這個問題。
如果你僅認為人臉是新一種的身份驗證好方法。那就大大低估了它的價值。我們正處於一個新時代的入口。
人有 70% 的能量是被大腦消耗的,大腦 90% 的能量是用來處理視覺資訊,而大部分的視覺資訊來自人臉。這個世界上最變化多端、最陰晴不定、最讓人魂牽夢繞、最難以捉摸的就是一張張人臉。它耗費了我們最主要的能量。你說搞定它會有多大價值?
『不可能的任務 4』有一個場景。我朝著一個人走去,他的眼鏡裡立刻識別出我的身份並且顯示「這個人可能殺你」,但他從口袋裡拿出手機之前我已經掏槍把他斃了。每次看見 Google Glass 就會想起這個場景。我堅信谷歌收購兩家人臉識別公司可不僅是為了圖片搜索,更為 Google Glass。
再換個角度理解這個新時代。人臉識別只是一個表像,背後是基於視頻的影像處理技術。這是下一代人機交互的制高點。
iPhone 和 iPad 帶來了什麼?就是在與電腦交互的方式上,用觸摸淘汰掉鍵盤敲字。第一次轉換。
那接下來會發生什麼?Siri 帶來的提示是語音。鍵盤敲字需要十根指頭,但觸摸只需要一根,但語音連一根都不需要。第二次轉換。語音的識別已經相當成熟。這裡介紹一個有趣應用 Shazam。它靠一個簡單功能就有了 2.5 億使用者。當你聽到一首歌卻不知道它的名字,讓 Shazam「聽一會兒」,幾秒後它就會返回這首歌的名字以及類似的歌曲。
但語音還是單調,活生生的人需要動作。於是有了 Kinect,對人體動作的精確識別。但 Kinect 只能識別肢體動作,這確實沒什麼含金量,於是人臉出來了。能識別你笑、你哭、你鬱悶、你釋懷。你轉一下眼球就知道你想翻到下一頁,你一閉眼一側臉就知道你是想關掉電視。第三次轉換。
人臉識別是目前能想到的最傻瓜化、最能釋放自由的人機對話模式。進一步瞭解它需要從三個角度入手:更多的實際應用案例,商業模式,以及為什麼人臉識別在今天而不是其它時間成熟。
海闊天空,光怪陸離
人臉是身份的標誌,一切與此相關的場合都可以派上用場。
從前一段震動全國的深圳跑車撞人案說起。當時深圳警方為查清楚嫌疑人,調出了事發當天相關街道和酒吧的總長度幾百個小時的錄影,再由很多民警挨個流覽這些視頻,以找出作案的嫌疑人到底是誰。但若採用人臉識別,電腦幾分鐘之內就能找到答案。
中國二三線城市的醫保卡濫用相當普遍。老丈人得病,拿好女婿的醫保卡去就醫開藥。在中國這樣一個人情社會裡靠人把關是不靠譜的。如果把人臉資訊寫入醫保卡,只有跟當時的人臉匹配成功醫保卡才能使用,能加大作弊的成本。
在工地和礦井這些危險施工現場。在出入口和電梯等位置做人臉識別就能清楚知道誰在什麼位置,如果下班時間某人還沒有從工地或者某個危險地段出來或那就能自動報警,某人可能在某個位置出事了。這就是 IBM「智慧的地球」的一個子專案,智慧工地。飛瑞斯為 IBM 提供識別資料。
最極致的情況是,登機辦票再也不用身份證了。昂首挺胸對著攝像頭笑一笑就行。甚至還能用來防止兩人在辦票後互換登機牌,員警在追蹤有組織犯罪時常遇到這種情況。解法是在機艙口放一個攝像頭,而不必再派一個人站在那裡檢票了。
說到犯罪,如果在 ATM 取款機內置一個人臉識別攝像頭,只有當取錢的人跟該銀行卡匹配成功才吐錢,那就算把銀行卡和密碼都偷到手也沒招。
在海關,檢查走私的方法目前還是靠員警肉眼觀察出關的人,選擇可疑的加以抽查。如果裝一個攝像頭,就會立刻把有走私案底的人截獲出來。據說深圳福田海關用這個方法抓出的走私占總截獲量的 70%。
上面都屬於安保防護的成本支出,要說服機構或者政府部門採納並不容易。下面來幾個有直接商業收益的例子。
人臉識別和其背後的智慧視頻分析對於零售業的整個鏈條都有助益。
從開店開始,得選址,要客流量大的地段。以前是找個人守在一個地方數人頭,現在放個攝像頭就行,一個都少不了。開店之後得分析進店率,路過的人多但進店的不一定多。店門口裝個攝像頭,精准計算進店率。進店人多但買東西的人不一定多,還要轉換率。在收銀台裝個攝像頭,一切搞定。屈臣氏在部分連鎖店已經用起這一套。
再來點有含金量的活兒。
轉換率為什麼不高?能幫你找原因。一個人從進門開始是如何行走的,在哪裡逗留時間長哪裡短,行走路徑如何,這個關係到店面的佈局,品類和陳列是否合理。
飛瑞斯給歐洲一家書店做過案例。書店陳設的本意是要顧客在店裡轉一個圈然後回到出發點附近的交銀台,把所有類型的書在這條軌跡上都曝光出來。但飛瑞斯依據人臉對每一個跟蹤後的軌跡圖顯示,大部分人都在交銀台附近的區域打轉並沒有進入到書店深處。接下來書店做了調整包括把門口跟深處的書籍類型調換,之後,進店客流大部分都會按照書店本意把一大圈走完,逗留時間和業績隨之提升。
服務還可由面到點。一家門店的大部分利潤是從小部分重要客戶那裡賺到的。但這些重要客戶卻未必是持有 VIP 卡的人。持卡的人未必常來,常來的人未必持卡。
人臉識別又派上用場。一個人一進門,攝像頭傳回圖像瞬間匹配此人之前的消費記錄,服務員會在他落座之前就迎上前去說:程先生您又來了,還是做靠窗的位置吧,像上次那樣要一壺水果茶?買單時再說:您一個月光顧本店四次,我們給你八折優惠。
這並非臆想。有家大銀行已經開始使用此類服務。
做 Kinect 還是 PrimeSense?
也許你已經看到了問題,人臉識別和智慧視覺的應用遍佈多領域,但作為一家掌握核心技術的公司是否要同時進入這些領域?以零售業為例,店鋪需要的資訊是如何改進我的店鋪陳設的具體建議,單純的使用者行走軌跡是不能直接拿來用的。
簡言之,一家技術公司如何對眾多行業給出具體方案。VC 們拋給飛瑞斯的問題就是:你有價值,但你的邊界在哪裡。你所在的是一個全新世界。
不過單純從初衷出發,也許所有掌握人臉識別核心技術的公司都想成為這個領域的 PrimeSense。
微軟遊戲機 Kinect 利用對人體姿勢的識別創造了有趣的運動體驗。但為 Kinect 注入識別能力的是以色列公司 PrimeSense,Kinect 這是為這個能力找到了用武之地並且製造出了消費者能玩起來的設備。
PrimeSense 提供高精准度但同時低成本的 3D 動作識別技術,這些技術都體現在一塊晶片上。微軟、華碩這些產品製造商直接採購晶片。
看一看如下這五個方面,你就會明白為什麼這個產業算是平地起風雲。
第一,識別技術。
以 2000 年為界人臉識別有了質的突破。之前 20 年裡識別人臉都依賴于人的五官之間的相互距離這一類參數。但在 2000 年之後開始對臉上紋理做識別,這一下子把精確度從 60% 拉上 90%,到 2010 年左右一直提到 95%。FBI 正在研究下一代人臉識別,在馬路上對遠距離的識別精准度也會到 90%,將直接用於反恐。
第二,攝像技術。
你也許會問,如何能做到對臉上紋理做識別呢?原因之一是民用數位相機的圖元從 2000 年左右的 10 萬拉高到 2005 年的幾百萬,到現在是上千萬。一個 30 萬圖元的相機能識別 1 米內的人臉,500 萬圖元能識別 10 米。這樣十字路口的攝像頭對路過的人基本都搞定。
第三,計算能力。
圖元越高、資料越多,要求的 CPU 處理能力要強。摩爾定律至今有效。2010 年多核處理器開始普及到智慧手機中,為快速運算海量資料準備了物質條件。還有人說,人臉識別的需求將引發晶片公司下一次大爆發。
第四,嵌入式晶片。
只有嵌入式晶片才能説明識別技術迅速普及到各種終端上。以 2001 年為分界線,之前嵌入式晶片只能做簡單的控制命令,之後可以處理邏輯。但 2001 年時相當昂貴。到今天成本一路下降到 5 美金左右,才可大規模民用。
上面四點加到一起,讓一套人臉識別設備從 10 年前的幾萬塊下降到現在的幾百塊。
第五,攝像頭普及。
工具有了,剩下還需要原料。也就是有足夠多的攝像頭隨時隨地把人臉拍下來。中國一線城市在 2004 年啟動了平安城市工程,要在主要街道抓拍車牌等視頻資訊,後來北京等城市逐漸增加了抓拍人臉的需求,以及相應的增加了錄影、存儲和監控設置。現在深圳市有 25 萬個攝像頭,核心地段每平米就有 1 個。
到此為止,萬事俱備。
對於未來的世界的描述:我們可以不再依據臉來識別人的身份,而可以依據步態。你走路的樣子就能暴露你是誰,攝像頭就算離你有 100 米遠也能精確判斷。你微小的一點表情,也許你對面的人都沒覺察,但電腦已經知道你不高興了。說不定用不了幾年,Google Glass 上就會這樣的提示。
酷吧。
(節選)
☆數位夢想☆ 由 Redwolf 製作以 創用CC 姓名標示-相同方式分享 3.0 台灣 授權條款 釋出
沒有留言:
張貼留言
1、本留言處歡迎多加留言交流,但不歡迎垃圾留言及廣告留言
2、留言時可以使用部份 HTML 標記
3、對於教學文章介紹或軟體使用有問題歡迎提出,若站長沒回應表示不清楚該問題的解決方案
4、留言時請勿留下電子郵件,以免因搜尋引擎爬文而造成您的困擾,且站長不會寄相關郵件給您,僅會在留言區提供解決方案
5.站長保留不當刪除留言的權力,若造成不便尚請見諒