新聞中心
人物動(dòng)態(tài) | 王小川:人工智能技術(shù)有不足 阿法狗現在仍贏(yíng)不了輸的那一局
搜狗公司CEO王小川今日在奇點(diǎn)大會(huì )上發(fā)表演講,他圍繞“人工智能”談到了最近的思考和感受,并認為目前國內對人工智能的發(fā)展有所高估,應該有一些理性的反思。不過(guò)王小川也結合搜狗的探索,談到了他認為的人工智能的未來(lái)發(fā)展和應用方向。
王小川稱(chēng),自己近期去美國硅谷和AlphaGo的開(kāi)發(fā)團隊有了交流,但對方告訴他,在3個(gè)月以后,不斷進(jìn)化的AlphaGo還是贏(yíng)不了輸給李世石的那一局比賽。
“AlphaGo就像一場(chǎng)啟蒙運動(dòng),所有的公司所有的投資把眼光都看向了人工智能,在全球范圍內的投資異常地活躍,中國也一樣。那在這個(gè)時(shí)候我更多想談到,我們得小心什么地方是陷阱,什么地方是真的人工智能的未來(lái)?”王小川說(shuō)。
這位搜狗CEO認為,目前情況來(lái)看,人工智能的陷阱主要有兩個(gè),一是技術(shù)上存在缺陷,無(wú)論是自動(dòng)駕駛還是語(yǔ)音識別,都存在技術(shù)上的缺陷,需要去完善;二是對于很多人工智能創(chuàng )業(yè)團隊來(lái)講,會(huì )存在“帶著(zhù)技術(shù)找市場(chǎng)”的問(wèn)題,但在這個(gè)過(guò)程中還沒(méi)找到市場(chǎng)就出局了,或者找到市場(chǎng)后,技術(shù)已經(jīng)落后。
王小川認為合理的解決方式是帶著(zhù)技術(shù)應用到現有的產(chǎn)品中,不斷通過(guò)人工智能技術(shù)提升產(chǎn)品體驗,并且在原有市場(chǎng)的基礎上實(shí)現更大的價(jià)值。王小川還透露說(shuō),這也是目前搜狗在搜索、輸入法等領(lǐng)域的發(fā)展思路和方向。
“其實(shí)有朋友跟我談搜索的時(shí)候說(shuō)王小川你今天挺高調的,不停談人工智能,你們要轉型做人工智能了么?我說(shuō)不是,搜索本身就是一種人工智能,而且是有幸福感的人工智能,因為它能讓每個(gè)人變的更加地強大?!蓖跣〈ń忉尩?。
值得一提的是,王小川全程演講中,同步使用了“實(shí)時(shí)語(yǔ)音識別”,他每講的一句話(huà)都會(huì )實(shí)時(shí)被識別成文字投射到主屏幕上,而最后演講完,演講全文速記也實(shí)時(shí)完成。王小川稱(chēng)語(yǔ)音識別現在還不完美,需要繼續解決“噪音”和“多人說(shuō)話(huà)識別”的問(wèn)題,但他也樂(lè )觀(guān)表示,會(huì )一步步被技術(shù)和產(chǎn)品解決。
在今日演講會(huì )前,新浪科技在早餐中和王小川偶遇,他告訴新浪科技:“人工智能太火了,我要往回拉一拉,拿點(diǎn)實(shí)際的產(chǎn)品出來(lái)?!?李根)
以下為搜狗CEO王小川實(shí)時(shí)演講速記全文:
大家好,我本人是人工智能的鼓吹者。在大家談互聯(lián)網(wǎng)的時(shí)候,我們就開(kāi)始談產(chǎn)品;大家談產(chǎn)品的時(shí)候,我們就開(kāi)始談技術(shù);大家開(kāi)始談技術(shù)的時(shí)候;我們已經(jīng)開(kāi)始談人工智能。那今天大家都在談人工智能,我要談一些什么東西呢?
感謝李志飛,其實(shí)他的演講我非常喜歡,我很感謝他把我想講的東西都已經(jīng)講完了,很多理解是一樣的。李志飛在最后說(shuō),今天沒(méi)有給大家帶來(lái)一個(gè)演示,搜狗帶來(lái)了,請看大屏幕!我們預料到了今天網(wǎng)絡(luò )可能有故障,所以我們把服務(wù)器搬到了現場(chǎng)!
那么我們在談人工智能的時(shí)候,我會(huì )談一些反思,因為今天大家可能過(guò)多高估了人工智能的未來(lái)。在今年上半年,我是鼓吹AlphaGo這樣一場(chǎng)跨世紀的比賽,4:1的比分。那么之后就像一場(chǎng)啟蒙運動(dòng),所有的公司所有的投資把眼光都看向了人工智能,在全球范圍內的投資異常地活躍,中國也一樣。那在這個(gè)時(shí)候我更多想談到,我們得小心什么地方是陷阱,什么地方是真的人工智能的未來(lái)?
就在前一個(gè)月,我去谷歌跟AlphaGo的工程師做了深度的溝通。有件事情我得告訴大家,AlphaGo并沒(méi)有停止研發(fā),還繼續在往前進(jìn)步。但是我跟他們聊的時(shí)候,談到到今天為止,跟李世乭下棋的第四局,機器還是贏(yíng)不了。我是非常驚訝的,已經(jīng)過(guò)了3個(gè)月的時(shí)間,所以我跟他們說(shuō),有什么樣的算法可以改進(jìn)贏(yíng)得第四局的比賽?谷歌的工程師跟我苦笑,他說(shuō)你講的方法我們都試過(guò)了。
回到我們深度學(xué)習。今天大家知道有一個(gè)巨大的危險,因為傳統做人工智能的專(zhuān)家就在預言,深度學(xué)習有一些缺點(diǎn),穩定性不夠,在一些需要可靠性的場(chǎng)景里面,沒(méi)有完整的數學(xué)的計算和證明。所以這種情況里面即便是99的正確性,也可能會(huì )帶來(lái)不確定,比如在無(wú)人駕駛,這1的不確定性,就可能帶來(lái)汽車(chē)的失速,而且不知道怎么修正。所以我們今天會(huì )知道,深度學(xué)習我們認為可以做很多的事情,但是到現在我們人類(lèi)的技術(shù)掌握還是比較淺的。
那么我也談到在語(yǔ)音識別這樣的一個(gè)話(huà)題,今天語(yǔ)音識別已經(jīng)到了比較高的準確度,已經(jīng)接近實(shí)用,但是其實(shí)還是很多的限制。比如說(shuō)我們需要安靜的環(huán)境,當有噪音的時(shí)候同時(shí)有兩個(gè)人說(shuō)話(huà)機器就搞不定了,我們的辦法是,比如說(shuō)在汽車(chē)環(huán)境里面,預先錄制發(fā)動(dòng)機引擎的聲音,或者是噪音加到識別里面去,就把沒(méi)有見(jiàn)過(guò)的環(huán)境變成機器能夠見(jiàn)過(guò)的環(huán)境,就能夠做識別。
但是我跟工程師聊,那其它的環(huán)境,如果有兩個(gè)人說(shuō)話(huà)怎么辦?總有一個(gè)人的聲音是聽(tīng)不到的?我們的解決方案是用麥克風(fēng)舉證,有一種麥克風(fēng)可以定向識別,如果兩個(gè)人不同的位置不同的聲音,聲音的音源可以分離開(kāi)。人是這樣嗎?人是靠?jì)芍欢涠曇魡?如果只有一只耳朵,或者兩個(gè)人在同一個(gè)方向說(shuō)話(huà)會(huì )怎么樣?人是能識別的對吧?機器就做不到了。所以我在這張圖里面跟大家演示,我也問(wèn)了搞神經(jīng)科學(xué)的人,他們說(shuō)人跟機器有本質(zhì)的區別,如果兩個(gè)人說(shuō)話(huà)的時(shí)候位置不一樣,人可以分離開(kāi),如果位置一樣,一個(gè)人聲音大,一個(gè)人聲音小也能分開(kāi)。如果兩個(gè)人的聲音一樣大,一個(gè)是男聲,一個(gè)女聲也可以分開(kāi),如果都是男聲,但一個(gè)人說(shuō)中文,一個(gè)人說(shuō)英文也能分開(kāi)。所以人是在一個(gè)環(huán)境當中,只要能夠找到一線(xiàn)機會(huì ),把兩個(gè)聲音的不同找到一個(gè)特征,就能動(dòng)態(tài)地去分離。但對不起,今天在全球范圍內,我們號稱(chēng)在語(yǔ)音識別有重大的各種各樣的突破,還是解決不了這樣的問(wèn)題,所以我們知道今天的計算機離人還有巨大的距離。
那么除了這樣的一個(gè)技術(shù)本身的瓶頸以外,我們在創(chuàng )業(yè)當中有很多領(lǐng)先的技術(shù)公司還會(huì )面臨什么樣的瓶頸?很危險的一種可能性就是有技術(shù),帶著(zhù)這種技術(shù)找市場(chǎng)。比如說(shuō)我們做了人臉識別,就開(kāi)始想象人臉識別怎么去使用?就去找市場(chǎng)的方向,但是很有可能在這個(gè)過(guò)程當中沒(méi)有找到,我們公司就死掉了。也有一種可能性是在找市場(chǎng)的過(guò)程當中,我們花了很多力氣組建我們的銷(xiāo)售團隊,我們嘗試跟各個(gè)領(lǐng)域結合,但是這個(gè)時(shí)候忘記了技術(shù)的源頭,因為技術(shù)是不斷地迭代更新,如果不能跟高效、前沿的技術(shù)保持同步,可能我們偶爾找到一點(diǎn)市場(chǎng),但是我們的技術(shù)已經(jīng)落后。
今天在中國的人工智能領(lǐng)域里面,做語(yǔ)音識別、圖象處理的公司有好多已經(jīng)掉到這樣的陷阱里面去了。所以這個(gè)創(chuàng )業(yè)的道路,我跟投資人講沒(méi)有那么容易,技術(shù)本身不那么靠譜,即便技術(shù)靠譜可能沒(méi)有市場(chǎng),即便有了市場(chǎng)可能我的技術(shù)已經(jīng)丟掉了。
還有一種我們的做法,已經(jīng)有廣大的市場(chǎng),搜狗的輸入法、搜索已經(jīng)有千萬(wàn)的用戶(hù)使用,這樣的情況下,我們找技術(shù)的時(shí)候就會(huì )更加踏實(shí)。所以我在這里畫(huà)了一個(gè)簡(jiǎn)單的樹(shù),就是市場(chǎng)技術(shù)跟產(chǎn)品之間的關(guān)系:樹(shù)根是技術(shù),樹(shù)干是產(chǎn)品,真正開(kāi)花結果是最后的市場(chǎng)。所以有一些情況里面,是當我們有根的時(shí)候要努力發(fā)芽長(cháng)樹(shù)干,等它能開(kāi)花結果,中間的困難是非常多的。而還有很大的困難是,如果我們有了這樣一些果實(shí),我們有了市場(chǎng)的時(shí)候,或者我們認為我們有市場(chǎng)的時(shí)候,把根基丟了。
人工智能跟高校、跟學(xué)術(shù)界的聯(lián)絡(luò )非常多,國內需要的做法,不是從國外學(xué)成歸來(lái)之后我們做技術(shù),也忘記了這樣一個(gè)研發(fā)的進(jìn)展就去找市場(chǎng),而是不斷地跟技術(shù)的前沿保持同步。比如李志飛一定有他的工程師團隊讀論文,甚至在這個(gè)里面寫(xiě)自己的論文,把前沿跟上。人工智能創(chuàng )業(yè)不像有互聯(lián)網(wǎng)的創(chuàng )業(yè)一樣,而是不斷地把技術(shù)更迭起來(lái)。
那么這個(gè)里面也提到一個(gè)命題的作文,我們怎么討論技術(shù)跟幸福之間的關(guān)系?我做了一張簡(jiǎn)圖,左邊是我們提的一些技術(shù),包括語(yǔ)音識別、人臉識別、人機交互、服務(wù)機器人等等。大家覺(jué)得這個(gè)詞跟幸福有關(guān)系嗎?在座大多數的人本身不是搞技術(shù)的,因為大家敬仰技術(shù),崇拜技術(shù),所以我們會(huì )過(guò)度地在技術(shù)里面想象它無(wú)限的光環(huán),其實(shí)跟幸福沒(méi)有關(guān)系,其實(shí)是因為我們的不理解,恐懼和向往帶來(lái)一種誤解??从疫?,右邊這些聽(tīng)起來(lái)我就覺(jué)得比較酷了,自動(dòng)駕駛、能聽(tīng)懂我說(shuō)話(huà)、診斷疾病、一鍵送咖啡。聽(tīng)著(zhù)怎么樣?是不是有幸福感?左下角的詞大家看到了嗎?活捉皮卡丘,大家知道我要說(shuō)什么嗎?最近非?;鸬奶摂M現實(shí)的游戲,不是在像左邊一樣講虛擬現實(shí),而是講帶來(lái)了一個(gè)把活生生的卡通形象放在我們面前,這是我們看到的幸福。
所以對比左右兩個(gè)圖,無(wú)論創(chuàng )業(yè)者,還是媒體人,還是投資人,我們應該看到當我們的技術(shù)能夠讓我們有幸福的時(shí)候,那它更有可能成為一個(gè)技術(shù)變成一個(gè)產(chǎn)品,變成一個(gè)市場(chǎng)成功的應用。跟大家講講我們對于搜狗技術(shù)跟幸福之間聯(lián)系的理解。其實(shí)有朋友跟我談搜索的時(shí)候說(shuō)王小川你今天挺高調的,不停談人工智能,你們要轉型做人工智能了么?我說(shuō)不是,搜索本身就是一種人工智能,而且是有幸福感的人工智能,因為它能讓每個(gè)人變的更加地強大。
有時(shí)候我跟一個(gè)90后走在一塊,我發(fā)現他很厲害,他無(wú)所畏懼,因為他知道擁有了搜索之后,他能解決所有的問(wèn)題。上面一搜索就有答案,所以今天的這些年輕人利用技術(shù),利用搜索變的更加地強大,擁有了更大的幸福感。
那么再多補一句,為什么說(shuō)搜索就是一種AI呢?先看一個(gè)簡(jiǎn)圖,搜索第一部分是讓用戶(hù)先要去做一個(gè)關(guān)健詞的搜索,然后給它提供10條鏈接,這是搜索今天產(chǎn)品運行的基本方式。但是這個(gè)關(guān)健詞是我們最好的輸入模式嗎?今天大家已經(jīng)很習慣了,我回顧1999年到2000年,搜索剛剛出現的時(shí)候我觀(guān)察過(guò),那個(gè)時(shí)候大家更愿意敲整句話(huà),但發(fā)現機器不能識別,所以大家被訓練使用這樣的關(guān)健詞。這個(gè)就像計算機使用鼠標一樣,大家都會(huì )很習慣用鼠標,但是今天我們發(fā)現喬布斯告訴我們,更好的方式是用手指直接在屏幕上戳,所以關(guān)健詞的輸入相對于自然語(yǔ)言的輸入就像鼠標和用手指自然表達一樣,是需要繼續提升的。因此搜索引擎往下的進(jìn)展方向就是把讓人去想一個(gè)關(guān)健詞,變成讓人去表達一個(gè)完整的句子,機器找出中間的含義。同樣的10條鏈接也不是我們最想用的方式,而是應該通過(guò)用戶(hù)的問(wèn)句直接給出答案或者是命令,機器做執行。
因此今天搜索的進(jìn)化對搜索引擎公司是一個(gè)漸進(jìn)的過(guò)程,就像谷歌,他已經(jīng)提到自己從一個(gè)移動(dòng)互聯(lián)網(wǎng)公司變成一個(gè)人工智能公司,那為什么他沒(méi)有做到這個(gè)東西呢?聽(tīng)著(zhù)很好聽(tīng)對吧?是因為今天全人類(lèi)的技術(shù),距離做到讓機器去理解人,能變成一個(gè)句子給出答案還是有距離的,只是我們在這條道路上一直走。人工智能引入不是顛覆性的市場(chǎng),而是原有的需求漸進(jìn)的改進(jìn),對谷歌,對我們一樣,包括對百度也是這樣的邏輯。
所以我們提到搜索公司本身就在做人工智能,如果大家看搜狗覺(jué)得不過(guò)癮可以看谷歌,他已經(jīng)代表了人工智能在今天運用的最高峰。因此在現在的應用里面類(lèi)似于Siri還有其他的交互功能是我們的夢(mèng)想,我們判斷這樣的未來(lái)是屬于搜索公司的。好,給大家看一個(gè)我剛剛提到的美妙的動(dòng)畫(huà)。這個(gè)片子我相信大家都看過(guò),其實(shí)是代表未來(lái)人工智能在我心中的方向,搜索公司未來(lái)走的方向也是向這里發(fā)展的。
我們談到語(yǔ)音輸入,今天是被大家吐槽特別嚴重的領(lǐng)域,也是我們發(fā)展的一個(gè)重要環(huán)節。大家知道訊飛,但可能不知道搜狗是中文語(yǔ)音識別用戶(hù)量最大的應用,我們一天有1.4億次的語(yǔ)音識別量,準確率超過(guò)97,搜狗輸入法的用戶(hù),剛剛提到做語(yǔ)音識別是不夠的,我們還會(huì )在上面做什么呢?給大家看一段視頻。我們怎么把97繼續提升?
OK,最后大家剛剛已經(jīng)看到,我的演講已經(jīng)被翻譯成了文字,所以應該是可以給大家一個(gè)二維碼做下載的。