打開谷歌(微博)翻譯APP,將手機鏡頭對準你看不懂的外語,然后屏幕上便自動顯示翻譯結果。
谷歌翻譯實時顯示
收到朋友發來的email,在查看郵件的時候,Gmail已經為你準備好了可能需要回復的內容。
無論是谷歌翻譯還是Gmail,它們已被推出多時,均非新鮮產品,但在用戶看不見的地方,谷歌已經并正在繼續對它們進行“升級”。上述翻譯及Gmail提供的改進,便得益于此。
“升級”源于谷歌AIfirst戰略的執行和落地,2016年,谷歌CEOSundarPichai宣布谷歌戰略從MobileFirst(移動先行)轉向AIFirst(人工智能先行),在對人工智能技術進行多年投入后,現在,谷歌正在通過深度學習、機器學習等技術,讓旗下的產品變得更加智能。
升級旗下產品只是谷歌期望通過AI實現的目標之一。11月28日,在日本東京舉行的Google亞太地區媒體開放日上,Google資深研究員、GoogleBrain負責人JeffDean表示,谷歌在人工智能領域的愿景,是通過三種途徑讓每個人都從中受益:使得Google產品更加實用、幫助企業和開發者創新,以及為研究人員提供工具,從而解決人類面對的各項重大挑戰。
從谷歌展示的一系列產品及案例可以看出,谷歌正在為了實現上述目標而努力。
谷歌的新魔法
AI究竟讓產品變得怎樣實用?實際體驗是回答這個問題的最好方式。
在今年Google亞太地區媒體開放日現場,谷歌準備了不同產品的展示,包括各類圖像產品、Googleassistant、Googletranslate以及一系列運用了機器學習等AI技術的小應用。
以圖像應用為例,現實生活中,人們經常會遇到需要將紙質版圖片或文件轉為電子版的場景,通常情況下用戶需要借助專業掃描設備才能得到理想的電子版,因為如果使用手機拍照,會出現反光、畸變等問題。
針對這一需求,谷歌推出一個名為“照片掃描儀”的APP,用戶按照指引對紙質版物品拍攝五張不同角度的照片,該APP會對拍攝的圖片進行計算和合成,最終輸出一個與用專業設備掃描效果類同的電子版。
照片掃描儀只是谷歌在借助AI技術改進應用體驗方面的一個案例,除了圖像應用外,語音、文字等相關產品也有不同程度的體驗改進。
不止是軟件方面,在讓AI技術落地上,谷歌還在嘗試將AI、軟件、硬件結合起來。
作為谷歌落地語音交互產品的重要硬件,GoogleHome如今可以提供非常多樣的服務,比如它能夠識別不同用戶的聲音,并給予不同的反饋。例如,A與B都養了寵物狗,當A對GoogleHome說想看寵物照片的時候,GoogleHome可以識別出A的聲音,并將A的寵物照片調出;而當B提出同樣要求的時候,GoogleHome調出的是B的寵物照片。
這一功能為GoogleHome的語音配對功能(VoiceMatch),它之所以能夠實現,源于在機器學習的幫助下,語音助手能夠識別不同的語音。據介紹,語音配對目前支持最多六個用戶連接到同一臺GoogleHome,GoogleHome是目前市場上首個具備此功能的智能音箱。
機器學習還被運用到醫療領域,通過與印度和美國的醫生合作,谷歌創建了一個包含12.8萬張眼底掃描圖片的數據集,來用于訓練一個檢測糖尿病性視網膜病變的深度神經網絡。
經過訓練,模型識別眼底掃描圖的專業準確度甚至超過了專業醫生的平均水平,而這可以幫助醫生提高診斷效率,使患者盡早得到治療。
同時,通過TensorFlow、云機器學習API(CloudMachineLearningAPIs)以及張量處理器(TensorProcessingUnit,TPU)電腦芯片,谷歌將AI能力向更多開發者開放出來。食品企業得以借此提高食物檢查效率,生物學家得以更加高效的了解鳥類的習性并提升保護的效果。
而無論是優化現有產品、開放AI能力以及解決人類的共同問題,實現上述目標的基本前提是持之以恒的投入AI方面的研究,并取得進展。在谷歌的AI戰略中,機器學習是重中之重。
改變這樣發生
機器學習是計算機科學的一種形式,認為編寫能使計算機自主學習如何變得智能的程序,要比直接編寫智能程序要更為簡單。通俗的來講,機器學習的目的是讓機器自身變得智能。
JeffDean介紹,機器學習是谷歌在人工智能領域的工作重心,谷歌開展機器學習的研究已經很長時間,但目前機器學習仍處于發展初期。如今,機器學習對分類、預測、理解和生成這四個關鍵方面很有幫助。而這些功能幾乎已經被應用于谷歌所有的產品中。
無論是GoolgePhotos、GoogleTranslate、GoogleLens,還是Gmail、Inbox、GoogleMaps,亦或者GoogleAssistant、YouTube,機器學習技術的加入,讓它們可以提供更好的體驗。
新款Pixel手機具備了人像模式,這一模式拍攝人像時可以柔和虛化背景,傳統技術條件下,這需要一個多鏡頭的專業相機才能實現,但機器學習和計算攝影技術的結合,使得Pixel手機依靠每側各有一個鏡頭便實現了同樣的效果。
未使用人像模式(Portraitmode)的照片(左)和使用人像模式(Portraitmode)的照片(右)
根據谷歌搜索項目總監LinneHa的介紹,深度神經網絡技術大大提高了語音搜索中語音識別的準確性,這使得用戶在嘈雜的環境中也可以與手機自由對話。在機器學習的幫助下,自然語言處理系統能夠更好地理解你想說的話。在利用機器學習實現文本向語音轉換的實驗項目ProjectUnison的幫助下,通過轉換引擎,手機可以用語料并不豐富的語種,如孟加拉語,高棉語和爪哇語。
實際成果已經證明,機器學習與具體應用結合可以取得非常好的效果,但JeffDean仍舊提示目前機器學習存在的兩大挑戰,首先是機器學習模型的觸達性;二是機器學習模型的包容性。
為了解決第一個問題,谷歌將在明年在互聯網上提供免費的機器學習課程,為了解決第二個問題,谷歌啟動了People+AIResearch(PAIR)計劃,并與與GeenaDavis研究所合作建立了GD-IQ(一種利用機器學習檢測電影中性別偏見的工具)。
上述措施對解決機器學習面臨的挑戰提供了幫助,但于谷歌而言,在AIfrist的戰略指引下,其面臨的挑戰不止于此。
從行業競爭的角度而言,越來越多公司推出了機器學習開源平臺,谷歌要如何應對競爭,保持對開發者的吸引力?而從國家間的競爭來看,谷歌還面臨著美國政府是否愿意投入和支持AI產業發展的影響。
面對行業競爭,JeffDean表示,“TensorFlow在不斷的發展,不斷地增加新的功能。它們可能針對不同的人群,有的針對研究者,有的更多傾向于移動平臺。所以這樣的競爭是好的。TensorFLOW的開源軟件是有很靈活的Apache2.0許可機制。”
而面對國家間的競爭,谷歌選擇了建立本土團隊提升AI發展速度的做法。JeffDean表示,谷歌正在中國組建AI團隊,團隊主要分布于北京和上海兩個城市。
這一做法顯然是從新人才的角度出發——“我們想關注下一代有更好計算能力的人,解決實際的問題,有意思的問題。我們并不擔心競爭對手,我們關心的是我們自己的研究。”
從研究到應用,再到開放,Google在AIfirst戰略的指引下,已經形成了比較完成的拼圖,盡管人工智能的發展讓部分公眾對其安全性產生擔憂,但在一直投身于這個行業的JeffDean看來,機器學習可以幫助人類解決更復雜的問題,“我們現在應該著眼于解決眼前的問題”,而這也將影響著谷歌未來發展AI的路。