首頁(yè)|必讀|視頻|專訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 新聞報(bào)道 >> 正文

微軟亞洲研究院芮勇:人工智能發(fā)展中的5個(gè)AI是關(guān)鍵

2016年4月29日 13:03  CCTIME飛象網(wǎng)  

飛象網(wǎng)訊(李陶陶/文)4月29日消息,2016 GMIC全球移動(dòng)互聯(lián)網(wǎng)大會(huì)正在進(jìn)行,飛象網(wǎng)作為直播媒體,全程為您直播。現(xiàn)在演講的是常務(wù)副院長(zhǎng),微軟亞洲研究院芮勇,他演講的題目是《那5個(gè)AI》。

以下是演講內(nèi)容:

 各位人工智能的朋友們大家下午好!

非常高興今天有機(jī)會(huì)來到GMIC未來峰會(huì),跟大家聊一個(gè)很有意思的話題,就是那5個(gè)AI,哪5個(gè)AI呢?第一個(gè)AI大家一下就能想到,叫人工智能。今年是2016年,在以前沒有詞叫人工智能,在1956年的時(shí)候有一個(gè)研討會(huì)才造成了人工智能。

在屏幕上看的這幾位都是人工智能的先驅(qū)。這是第一個(gè)AI,但是我今天要講5個(gè)AI。

第二個(gè)AI是什么?第二個(gè)AI要考大家英文學(xué)的水平怎么樣,就是說聚合的,聚眾的一種智能,什么意思呢?就是把我們?nèi)祟惖暮芏嘈袨榈拇髷?shù)據(jù)加以整理,加以挖掘,然后用它來訓(xùn)練我們的計(jì)算機(jī),我們的電腦,使得這些計(jì)算機(jī)變得智能,叫做聚合的智能。

第三個(gè)AI叫自適應(yīng)的AI,自適應(yīng)的智能。我們希望這個(gè)智能不要我作為一個(gè)用戶總想著它應(yīng)該在什么情況下去做,它應(yīng)該根據(jù)當(dāng)前的環(huán)境自身的去調(diào)整怎么來服務(wù)用戶,這是第三個(gè)AI,叫自適應(yīng)的智能。

第四個(gè)AI是什么呢?叫做隱形的智能。

我來自微軟,所以我就用微軟的幾個(gè)例子跟大家分享。

第一個(gè)聚合的智能。我們都知道我們?nèi)祟愂怯兄悄艿,我們(nèi)祟愑幸曈X、聽覺、觸覺等等,我們也希望讓計(jì)算機(jī)能夠感知我們的環(huán)境,能像我們?nèi)祟愐粯涌梢匀タ吹,可以去聽到,可以去理解?/P>

在去年微軟發(fā)布了一個(gè)項(xiàng)目叫做微軟認(rèn)知服務(wù),就是在云上的一個(gè)智能的API。它想達(dá)到什么目的呢?就是希望如果我們第三方的開發(fā)人員調(diào)用這些API的話可以使得你們的應(yīng)用,你們的APP可以像人一樣理解這個(gè)事情,不用花20年、30年的時(shí)間開發(fā)視覺的感知,很方便的能拿到這樣的效果。

智能包括計(jì)算機(jī)視覺、語音、語言、知識(shí)和搜索。我講了半天認(rèn)知服務(wù),大家還不太清楚認(rèn)知服務(wù)是什么,我給大家看這張幻燈片的時(shí)間就想起來了,去年有一款紅遍中國(guó)大江南北的應(yīng)用叫做How-Old.net,我想很多人上傳過照片看過你自己是什么歲數(shù)。這款應(yīng)用是很有意思,我們下面的,有人把奧巴馬一家相片上傳進(jìn)去,奧巴馬家庭里最高興的是他的太太,36歲,比先生要年輕很多?坑疫叺膱D片是微軟公司在剛成立的時(shí)候拍的一張,今天微軟公司有11萬員工分布在全球各個(gè)國(guó)家,但是當(dāng)時(shí)剛成立的時(shí)候只有11名員工,這款應(yīng)用不叫做年齡的估計(jì),而是顏齡的估計(jì),你看上像是多大了。除了對(duì)人臉的分析以外,知道他在那里,長(zhǎng)什么樣,什么性別,什么年齡,我們還想知道一個(gè)人的喜怒哀樂是什么樣的,我們上傳一幅圖片知道這個(gè)人是高興還是生氣,還是憤怒,還是無奈,這種表情也做進(jìn)了我們智能的API。

比人臉更有意思的一件事情就是圖片。其實(shí)我們一直有這么一個(gè)愿景,我們希望計(jì)算機(jī)通過它的視頻攝象頭可以看到外面的世界,也可以去理解方面的世界,我們做的第一步就是要把這些圖片進(jìn)行分類。在座的如果有在計(jì)算機(jī)視覺領(lǐng)域做過研發(fā)的朋友可能知道計(jì)算機(jī)視覺有一個(gè)全球的比賽,叫做ImageNet,是什么呢?是有1000類不同的物體,總共有120萬張圖片可以用它進(jìn)行訓(xùn)練你的不同算法,在測(cè)試的時(shí)候還有10萬張圖片是計(jì)算機(jī)從來沒看倒過的,你把10萬張圖片讓計(jì)算機(jī)看,它需要告訴你這張沒有見到過的圖片是1000類物體中的哪一類,這是全球的比賽。全球很多的頂尖的學(xué)府、高等院校和大公司的實(shí)驗(yàn)室都在參加這個(gè)比賽,這個(gè)比賽在深度學(xué)習(xí),沒有被引入計(jì)算機(jī)之前,2012年之前錯(cuò)誤率是20%左右,我給計(jì)算機(jī)一張沒有見過的圖片,它分成1000累的某一類,2012年深度被引入之后錯(cuò)誤率是10%左右,之后錯(cuò)誤率一直下降,準(zhǔn)確率一直上升,到2014年的時(shí)候斯坦福一個(gè)在讀的博士生就說是計(jì)算機(jī)不同的算法在PK,我們?nèi)嗽谶@里能識(shí)別多少?看似簡(jiǎn)單,其實(shí)并不簡(jiǎn)單的問題。我如果告訴你,在這1000類物體中間,有67種不同的狗,我相信我們就知道這個(gè)問題有多難了,我對(duì)狗大概只能認(rèn)出四五種,1000類中有67種不同的狗,在座的能認(rèn)出幾類?所以斯坦福的博士把自己關(guān)在小屋里學(xué)了之后參加比賽,錯(cuò)誤率是5.1%,比任何一位都要好,60多種不同的狗和不同的植物。我們微軟去年開發(fā)了深度學(xué)習(xí)的看法,把錯(cuò)誤率降到了3.57,超過的人類的水平。

深度學(xué)習(xí)說白了是很深的人工神經(jīng)元網(wǎng)絡(luò),在20年以前,還記得那時(shí)候的隱含層只有一層,因?yàn)闆]有足夠的計(jì)算能力,當(dāng)時(shí)只是一臺(tái)386,沒有足夠多的訓(xùn)練樣本,沒有好的算法,今天的深度學(xué)習(xí)在2012年的時(shí)候已經(jīng)到達(dá)了8層,看似很深還有比它更深的。

2014年的時(shí)候我們研究人員做出了19層的,在去年的時(shí)候微軟亞洲研究院同時(shí)把它做到了152層,達(dá)到了人類歷史上迄今沒有達(dá)到過的這么深的一個(gè)層次,它其實(shí)是模擬我們?nèi)祟惿窠?jīng)元的連接,發(fā)現(xiàn)一些原來沒有辦法發(fā)現(xiàn)的東西,不是給你一臺(tái)更大的計(jì)算機(jī)做得更深,算法上一定要有很重要的突破。比如說殘差式的學(xué)習(xí)方式,是新的算法突破,使得我們做出了152層,達(dá)到了比人類分類更準(zhǔn)確的準(zhǔn)確率,在比賽中間取得了第一名。

比圖片分類更難的事情是物體的檢測(cè)。圖片分類是什么意思呢?我給計(jì)算機(jī)看一張它沒有見過的圖片,它需要告訴我這張圖片里面是什么物體,比如說是一只狗,物體檢測(cè)就更難了,不僅要告訴我圖片里面有一只狗,還要告訴這只狗在什么地方,還要用框把它框出來,我在這里顯示的有很多物品,人、茶杯、桌子,還有邊上露了一個(gè)腿仍然能檢測(cè)出來這是一個(gè)人。

從圖片的分類到物體的檢測(cè),更難的任務(wù)是什么呢?是在每一個(gè)像素級(jí)別都能告訴這是人還是狗。

(視頻播放)精確到像素級(jí),幾乎和我們?nèi)丝吹酵饷娴氖澜缫粯拥臏?zhǔn)確。

大家看到這個(gè)沒有什么難的,圖像的分類,物體的檢測(cè),這根本不難,但是計(jì)算機(jī)只能看到兩個(gè)事,一個(gè)0,一個(gè)1,這是非常難的事情,這是第二個(gè)AI,聚眾的智能,把人類的大數(shù)據(jù)挖掘,使得它能夠識(shí)別很多東西

第三個(gè)AI是自適應(yīng)的AI。

我想舉兩個(gè)例子,在座的肯定有很多人用手機(jī)自拍,特別是一些美女,我相信你們每天都會(huì)自拍,你非常想要一款很好的自拍應(yīng)用,為什么要用一款很好的自拍應(yīng)用呢?希望你不要太去操心,希望這款應(yīng)用能夠自己適應(yīng)你,你如果在很黑暗的房間他知道把光線調(diào)亮,如果后面有很亮的窗戶他想辦法讓窗戶變暗,臉變量,如果女士拍照最好美顏的程度高一點(diǎn),不要有皺紋,如果是男士希望不要有這個(gè)用戶,但如果你是用戶你不用去操心,這款應(yīng)用自己操心,他知道你在什么環(huán)境下做拍攝,他知道你是男士還是女士,知道你的膚色是白的還是黑的,是深的還是淺的,如果是這樣的能達(dá)到自適應(yīng)的。

這是一段簡(jiǎn)短的視頻演示,這款用戶不用操心,因?yàn)檫@款應(yīng)用很智能的幫你操心過了。這是一個(gè)應(yīng)用來演示自適應(yīng)的智能。

第二個(gè)例子我想跟大家聊一下自適應(yīng)的智能。

在六十年代的時(shí)候美國(guó)有一部電影很有意思,叫《星際迷航》,這些星際的探索者們座著飛船不停的穿梭,大家想在同一個(gè)地球上有不同的語言,不同的星球上更有不同的語言,我們有沒有辦法和說不同語言的人能夠?qū)崟r(shí)的交流,當(dāng)時(shí)有一個(gè)他們?cè)谙胂笾械臇|西,叫宇宙翻譯器,你拿了這個(gè)東西和別人聊,不管這個(gè)人說什么都可以和它實(shí)時(shí)的交互。我們做研發(fā)的人就是想把夢(mèng)想變成現(xiàn)實(shí)的人,過去二十年當(dāng)中微軟的同事花了很多精力開發(fā)這么一種軟件,在2012年的時(shí)候我們?cè)趦?nèi)部的技術(shù)節(jié)進(jìn)行了演示,2012年我們進(jìn)行了發(fā)布,2015年這款宇宙翻譯器就做成了。

它能做什么樣呢?我想給大家分享一段視頻,這個(gè)視頻是美國(guó)的背包客在中國(guó)拍了很多照片,走了3.5萬英里的路,但是他不會(huì)說中文,希望能和中國(guó)人進(jìn)行溝通。(播放視頻)一個(gè)不會(huì)說中文的人可以實(shí)時(shí)的和會(huì)說中文的人進(jìn)行交流,其實(shí)如果要達(dá)到這樣的效果至少有四個(gè)很重要的技術(shù)需要做到。第一點(diǎn),湯姆他說的英文的音頻信號(hào)要被實(shí)時(shí)的識(shí)別成英文的文字,這是第一步語音識(shí)別;第二點(diǎn),我們都是在日常的口語說話,不是讀報(bào)紙,里面有口語的詞,要把它刪除掉;第三點(diǎn),實(shí)時(shí)翻譯,把英文的文字翻譯成了中文的文字;第四點(diǎn),中文的文字還要變成中文的文字發(fā)出來。所以這四步,每一步都要非常準(zhǔn)確,如果每一步只做到了95%的正確率是串聯(lián)的,95%的四次方正確率就降到70%左右了,非常差,所以每一步要做的非常好。

具體的算法我沒有時(shí)間講太多,基本上也是基于深度神經(jīng)網(wǎng)絡(luò)和語言識(shí)別相結(jié)合,是的語音識(shí)別大幅度上升,語音合成TTS也變得更加自然和精準(zhǔn)。

我想給大家聽一段簡(jiǎn)短的音頻,既選了有中文又有英文的一段話,這是美國(guó)的女士不是說中文,但是現(xiàn)在讓她說出的中文,像我一會(huì)兒說英文,一會(huì)兒說中文,你還知道是我一個(gè)人在說。(語音播放)這是我想說的第三個(gè)AI,叫做自適應(yīng)的AI。

第四個(gè)AI叫做隱形的智能。

今天我們都談了很多的智能家居也好,智能場(chǎng)地也好等等,這些智能家居、智能場(chǎng)地、智能穿戴要有設(shè)備,我不用操心站在什么地方,這些智能設(shè)備都幫我們做了,如果有一天我們讓智能設(shè)備變得很智能,它要結(jié)合計(jì)算機(jī)的語音,變成我們?nèi)祟惸軌蚵牰奈淖终f出來,這不是一件非常美好的事情嗎?我們可以想一下,這樣可以幫助我們那些看不見外面世界的朋友可以看得到外面的世界,比如這么一個(gè)場(chǎng)景,如果讓計(jì)算機(jī)可以看到的話它就知道這是一個(gè)男子騰空而起,表演一個(gè)科技。

我下面給發(fā)展放一段很簡(jiǎn)短的視頻,是說微軟的工程師7歲失明了,看不見外面的世界,但是有了人工智能使得他能聽見外面的世界是什么樣的。(視頻播放)他可以通過一個(gè)眼鏡看到外面的世界,聽到外面的世界。很有用,非常有用的技術(shù),它把計(jì)算機(jī)視覺和自然語言處理相結(jié)合,使得通過一個(gè)眼鏡能看到外面的世界,名且以自然語言的方式把它給說出來。

還有很多這種隱形的智能,比如說像穿戴設(shè)備。我下面想給大家放一個(gè)簡(jiǎn)短的視頻,我們可以看一看今后的可穿戴設(shè)備,它如果智能的話,它將來可以應(yīng)用在室內(nèi)設(shè)計(jì)、城市規(guī)劃、醫(yī)療,對(duì)生物個(gè)體的研究,對(duì)大腦的研究,我們可以看一看。(視頻播放)

這張說得是人工智能經(jīng)過過去六十的發(fā)展變得越來越智能,也是受到了學(xué)術(shù)界、工業(yè)界和我們一般大眾的很多關(guān)注,特別是在今年人工這個(gè)詞被造出來60周年之際,我覺得有很多新的事情也會(huì)在2016年發(fā)生,人工智能也會(huì)往前接著有幾步大的臺(tái)階走。

我已經(jīng)說了四個(gè)AI,第五個(gè)AI是什么呢?前一陣大家一直討論一個(gè)問題,因?yàn)槿斯ぶ悄茉絹碓綇?qiáng)大,就說人和人工智能我們今后怎么共存?是不是有一天人工智能要?dú)缥覀內(nèi)祟惖鹊龋矣X得人工智能和人其實(shí)都是有各自的強(qiáng)項(xiàng)和弱項(xiàng),人工智能強(qiáng)的地方就在于它有很強(qiáng)的記憶能力和運(yùn)算能力,在座的誰能把π的小數(shù)點(diǎn)背到100位?估計(jì)沒有,對(duì)計(jì)算機(jī)確實(shí)很簡(jiǎn)單。但是別忘的人有兩個(gè)大腦,外邊大腦是邏輯推理、記憶、簡(jiǎn)單的預(yù)算,右邊的大腦充滿了想象力,發(fā)散思維,有很多藝術(shù)細(xì)胞。人和機(jī)器是不一樣的,我想我們今后談的話題是人類+機(jī)器,人類利用人工智能很強(qiáng)的東西,使得我們?nèi)祟愖兊酶鼜?qiáng),這是第五個(gè)AI。

謝謝大家!

編 輯:李陶陶
聲明:刊載本文目的在于傳播更多行業(yè)信息,本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。如網(wǎng)站內(nèi)容涉及作品版權(quán)和其它問題,請(qǐng)?jiān)?0日內(nèi)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除內(nèi)容。本站聯(lián)系電話為86-010-87765777,郵件后綴為#cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
工信部張?jiān)泼鳎捍蟛糠謬?guó)家新劃分了中頻段6G頻譜資源
精彩專題
專題丨“汛”速出動(dòng) 共筑信息保障堤壩
2023MWC上海世界移動(dòng)通信大會(huì)
中國(guó)5G商用四周年
2023年中國(guó)國(guó)際信息通信展覽會(huì)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像