首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 4未來創(chuàng)新文章 >> 正文

初敏:AI技術(shù)發(fā)展與商業(yè)化之路

2017年4月28日 12:56  CCTIME飛象網(wǎng)  

飛象網(wǎng)訊(李樂羽/文),4月28日消息,在今天的GMIC 2017北京大會未來創(chuàng)新峰會上,阿里巴巴公司阿里云IDST總監(jiān)初敏發(fā)表演講,演講題目為AI技術(shù)發(fā)展與商業(yè)化之路。

以下為演講內(nèi)容:

主題:未來創(chuàng)新峰會

時間:2017年4月28日(上午)

地點:國家會議中心大宴會廳B

嘉賓:初敏 阿里云IDST總監(jiān), 阿里巴巴

非常高興有機會跟大家分享我們最近做的事情的感悟。最主要的是分享感悟。剛剛簡先生講AI是不是有泡沫,其實大家已經(jīng)開始擔心了。最近的AI跟過去相比已經(jīng)開始商業(yè)應(yīng)用了,技術(shù)的商業(yè)化正在開啟,但這個過程沒有想象的那么容易。我認為在未來幾年里,只在說的人會越來越少,大家會看到某一些泡沫似乎在降下去,但我覺得會有更多實際干的人出來,真正的把這個技術(shù)用到每個行業(yè)中,讓我們真正體驗到用,而不僅僅是在媒體上看到的宣傳。

我今天想跟大家分享的,一個是技術(shù)的發(fā)展,一個是真正的商業(yè)化之路是會非常艱難的。

人工智能這一波的熱度是數(shù)據(jù)驅(qū)動的智能時代的到來。雖然大家表面上關(guān)注的最主要的是算法,是從深度學習開始的,F(xiàn)在還有強化學習、無監(jiān)督、半監(jiān)督等等各種各樣的學習方法。事實上這些學習方法真正能起到作用、能帶來改變,是因為現(xiàn)在有很強大的計算能力,以及有各種各樣的數(shù)據(jù)貫穿在一起。

我們做機器學習的人,這么多年下來,有非常強大的經(jīng)驗。你在算法上的改變,往往不如數(shù)據(jù)種類的豐富性,以及規(guī)模增大帶來的好處更大。

這兩年能看到很大的進步,歸根到底的原因是計算能力。計算能力包括原來在單臺機器上,后來是在一大組CPU集群上,包括TPU等等各種探索,都是在解決計算能力的問題。因為聯(lián)網(wǎng)把數(shù)據(jù)聯(lián)接起來了,數(shù)據(jù)從不同的源到一個結(jié)點上進行統(tǒng)一學習,增強了學習效果。這一輪所謂的AI真正是大數(shù)據(jù)驅(qū)動的,云計算+大數(shù)據(jù)+算法的進步來推動的。

從另外一個應(yīng)用的角度,大家體會最強的是互聯(lián)網(wǎng)上的改變。這一輪算法技術(shù),推薦、搜索、推送,我們已經(jīng)能體驗到一部分。今天我們感受到的變化更垂直化、個性化、智能化,在很多地方的細微改變都是因為數(shù)據(jù)的聚匯,以及學習對人、對各種細節(jié)學習能力的增強,使我們感受到細微的變化。

另外就是每個個體感受不那么深的,給傳統(tǒng)工業(yè)帶來了很多變化。比如,我們用在工廠的數(shù)據(jù)里,監(jiān)測工廠的故障率、提高產(chǎn)品的良品率。可以預(yù)測城市生活中未來N個小時的交通情況,哪里會堵、哪里會出現(xiàn)風險,通過信號燈的調(diào)節(jié)能不能更好的疏通交通的通暢性。這些技術(shù)的確在方方面面,有一些是我們能夠感受到的,有一些是在日常生活中不能直接感受到的,但都在發(fā)生著變化。智能化的過程已經(jīng)開啟,而且正在飛快的進步。

這件事情不是一個企業(yè)、一個人、一個機構(gòu)能獨立完成的。如果真把所有的技術(shù)從頭到尾打通,有非常多的工作要做。從底層的計算能力,到垂直的語音、圖像技術(shù),即便是個Bot,也要把這些東西集成起來。最終這些技術(shù)能不能是放之四海而皆準的,往往都是需要根據(jù)場景、根據(jù)垂直行業(yè)的需求來進行改變。一個系統(tǒng)不可能十年都不變,它要跟著外界的情況發(fā)生改變。一個系統(tǒng)第一天上線,我覺得它的效果很好,不是它一定要好一輩子的。你要把數(shù)據(jù)灌進去,要讓這個系統(tǒng)24小時不停地轉(zhuǎn),這個轉(zhuǎn)的過程也是學習的過程。只有這樣的系統(tǒng)才真正的能用起來。很多時候我們看到上線一個東西,3個月的效果很好,過一段時間就用不起來了。

這個技術(shù)不應(yīng)該是在象牙塔里了,而是應(yīng)該在很多地方推,這個推的過程是很多環(huán)節(jié)的銜接。在某些媒體上傳播的時候,我們只看到了美妙的想象的部分,沒有重視到實施過程中的各個環(huán)節(jié)。只有這些東西都做好,我們想象中的那個美妙的結(jié)果才能得到。商業(yè)化的過程中最大的困難,每個企業(yè)、每個環(huán)節(jié)想引入這些技術(shù),想在你的場景中用通的時候,實際是要有思想準備的。不是閉著眼睛從哪里接根管子就用得非常好了,而是要有決心,要扎下去,打透了,才能得到非常好的結(jié)果。

人工智能真的需要分工協(xié)作,我們大家的定位在什么地方,我需要誰來幫助我。另外就是人才的儲備。AI很熱,這個領(lǐng)域的人才非常熱。我自己觀察到的還有一種人才也非常缺失,其實是怎么用的人。比如,一個機器人在我們的環(huán)境中提供客服,應(yīng)該怎么交互、怎么用、怎么設(shè)計、入口在哪里,這樣的人才是更缺失的。我自己在公司里跟很多部門合作的時候都碰到這個困難,最終反而是技術(shù)人員好像更理解一點。其實這是不對的。

我覺得真正懂得AI技術(shù)在某一個場景中真正該怎么用的人才也是非常稀缺的。要打通的是各處的,只不過大家立足點不一樣,你側(cè)重的人才會不一樣。

阿里云做的更多是底層,是以平臺來提供的,底下會有集群、云計算的平臺、大數(shù)據(jù)的平臺,以及人工智能的各種專項技術(shù)。做這些專項的技術(shù),語音識別本身都是投資非常大的,不是每個企業(yè)都值得自己去投資。因為做這些事情,既要很多人,又要很多錢,又要很多數(shù)據(jù)和很多計算能力,平臺形式的提供是更為合理的。這也是為什么我們作為云計算公司會做很多這樣的工作。各個層面的行業(yè)的打通,是各個領(lǐng)域的專家更懂的,后面就應(yīng)該是各種解決方案。我們會提供各種基礎(chǔ)能力,而真正的解決方案是跟合作伙伴一起打通,真正把這個垂直行業(yè)落地,工作量是非常大的。

因為我自己帶的是語音交互的團隊,我給大家舉一個例子。底層也是一樣,有識別。語音識別合成是大家傳統(tǒng)講的語音技術(shù)。現(xiàn)在有兩個方向,一個是所謂的人機對話。各種應(yīng)用APP里可以嵌入這種交互。但是,在你做APP交互的時候,因為你知道的事情比較少,能做的會比較窄。你從操作系統(tǒng)開始做,系統(tǒng)底層知道的更多,能通過這個交互實現(xiàn)和打通的信息就會更多。在我們自己內(nèi)部做的時候也是這樣,更重要的是以操作系統(tǒng)為依托,走到各種端,它可能是手機,也可能是車,也可能是電視,或者其他設(shè)備。當然,也可以提供一個簡單的接入,讓各種APP接入進去。

另外一個部分也是非常重要的,就是數(shù)據(jù)價值的發(fā)現(xiàn)。我們在阿里自己的云棲大會上,會直接接上語音轉(zhuǎn)寫,我在這里的講話就被實時的轉(zhuǎn)譯成了文字。這樣的資料就會非常有價值。這樣的轉(zhuǎn)寫在法庭等各種場景都能用起來。如果我們把語音變成了文字,這就變成了很珍貴的數(shù)據(jù)資源,就可以發(fā)揮很大的價值。很多東西會隨著時間發(fā)生非常大的變化。

在去年的云棲大會上,我們做過一次ET的演示。交互是一個最表層的東西,最終它是要把很多深的服務(wù)串起來。前提是我們背后有很多的資源能夠接入。即便你理解了,如果我沒有后備的服務(wù)是沒有用的。這就是非常大的配合,一層是做語音、語言理解、對話的管理,但最后一定要把它轉(zhuǎn)成某一個服務(wù)的查詢。ET是我們包裝阿里云人工智能技術(shù)的代言人。這種實時的大會字幕,實時的語音能轉(zhuǎn)成文字,中文、英文都在自己的系列會上用得非常成功,基本上已經(jīng)是標配,包括“雙11”時做的節(jié)目。不同的場景,很難有一個固定的Bot能完成。我們能很快的在不同的場景做,實際上是因為我們可以根據(jù)場景快速的定制各種Bot,根據(jù)場景的只是一個非常重要的能力。

語音識別是很重要的,最大的問題是算法的復(fù)雜度。因為有的時候復(fù)雜的算法的效果好。我需要實時,基本是在復(fù)雜率和實時之間的平衡。

還有數(shù)據(jù)的規(guī)模。你會問到方言覆蓋率怎么樣、能說多少種語言,其實這些轉(zhuǎn)化到最后都是你有什么數(shù)據(jù)、你有多少計算能力、你多快能把這些語言做掉。能做中文、能做英文,其實做所有語言在技術(shù)上是一樣的,差異是在于你的數(shù)據(jù)來源,你有沒有那么多數(shù)據(jù),你有沒有那么多計算能力可以很快的把這些東西搞出來。在真正用的時候,實際上還是數(shù)據(jù)和計算能力的變化,以及模型迭代能多快。如果我有很強的計算能力在一個月里可以比較20種方法,我的進步就會很快。如果一個月里只能迭代一輪,我會進步的很慢。最終很多時候我們比的是這個。

各種場景的自適應(yīng)。我們做實時字幕的時候,在技術(shù)性會議上是做的很好的?梢约僭O(shè)想象到,我去一個醫(yī)療會議上,可能會很痛苦,因為里面有太多的醫(yī)學專有名詞,我們的系統(tǒng)沒有。怎么根據(jù)具體的場景,讓它快速的adapt過去。

(演示)

剛剛稍微聽了兩個片段。語音合成技術(shù)這些年已經(jīng)比較成熟了,剛剛放的兩段是我們合作的兩個場景,一個是語音播報頻道。另外一個是面向兒童,講故事的。這個技術(shù)也是可以定制,不同場景需要的聲音是不一樣的。我們面臨的最大挑戰(zhàn)還是如何快速的根據(jù)不同場景定制出不同的聲音,適應(yīng)不同的需求。這是商業(yè)應(yīng)用時最大的挑戰(zhàn)。今天做到的效果總的來說還是不錯的。但是,這兩個聲音的場景如果換一下,其實是完全不好用的。這意味著我們需要根據(jù)場景來做定制化。

語言的理解與對話。簡先生講的Bot也是理解和交互。我覺得交互的目的是找到答案。其實是根據(jù)你的知識點在哪里,你的知識點是什么樣的組織,我們才根據(jù)這個技術(shù)做這個事情。很重要的源是知識,知識的組織,以及知識從哪里來,這是真正應(yīng)用的場景。一個企業(yè)做客服,你就需要有自己的客服知識庫,這個事情是別人不能替代你的,一定是自己提供的。技術(shù)能提供的是什么?是如果你有自己的知識庫,我是不是能很快的把它變成很好的問答的能力,變成和人交互的能力。

信息的抽取。一旦把語音變成文字,可以做很多自然語言的抽取。我們在客服場景里做的就是質(zhì)檢。因為今天所有的電話都被錄音下來了,服務(wù)的質(zhì)量好不好,用人去篩查,這件事情基本是做不到的。我們已經(jīng)把阿里系的所有電話都語音識別出來,在文字層面做質(zhì)檢。這是螞蟻客服的效果,本來他們有30多個人做1%的抽檢,因為現(xiàn)在用了這個技術(shù),可以做到100%的覆蓋,人還會留一些,但工作量會減少很多,而且做到了100%的質(zhì)檢。類似的技術(shù)還可以用來進行產(chǎn)品的監(jiān)控、危機的識別。

客服可以打電話,我們稱之為熱線。通過IM的交互,稱之為在線。傳統(tǒng)的做法,電話進來是一個按鍵菜單,最后都是人工服務(wù)。它也會記錄下數(shù)據(jù),通過數(shù)據(jù)的沉淀,我們有了知識庫,這個行為中該怎么提供服務(wù),可以學習到很多,最終可以進行改造。電話進來,可以用語音識別。然后,根據(jù)人的問題進行分類,猜你碰到了什么困難。如果這個問題是服務(wù)的機器人可以回答的,基本就可以自助的服務(wù)完成。如果是比較復(fù)雜的問題,就會輸送到不同的技能組,因為客服人員也是分技能組的。這個過程中的數(shù)據(jù)而不斷的沉淀下來,這些沉淀的數(shù)據(jù)又變成寶貴的數(shù)據(jù)資源,可以進行產(chǎn)品監(jiān)控、異常監(jiān)控,甚至是對用戶技術(shù)分析?头瞧髽I(yè)跟客戶接觸最多的地方,對用戶的了解也是最深的。傳統(tǒng)的客服中心,經(jīng)過各種智能化改造,它實際上變成了數(shù)據(jù)中心,會提供非常強大的數(shù)據(jù)支撐。

隨著每年“雙11”業(yè)務(wù)量的增大,服務(wù)的請求量也是增長很快的。我們不可能通過加人來提高服務(wù),必須用智能手段來保證服務(wù)質(zhì)量。從2014年到2015年,服務(wù)請求量的增長非常大,主要是來自IM,是因為當年把入口放得更明顯了,用戶更容易找到IM的入口,請求量大了很多。那一年在自助的能力上做了很大提升,人工服務(wù)量并沒有增長,還有點下降,特別是IM入口,服務(wù)量下降很多,就是因為機器人能自助回答大部分問題。但是,人工電話的服務(wù)量是有所上升的。2015年到2016年的變化,是因為我們一起合作了一個項目,加了語音電話進來的自助能力。到了2015年、2016年,電話人工量也下降了。在2016年的“雙11”,客服團隊的日子就好過很多,因為整個需要人工服務(wù)的量下降了非常多。

雖然我們自己是做語音交互的,但跟很多業(yè)務(wù)團隊做了非常深入的合作。核心困難就是在最后一公里的落地上。只有我們有足夠的投入,那些效果才能全盤的打通。語音接入本身就很難,經(jīng)常有各種錄音。我剛剛上場前,會提示我麥克風離得近一點,要不然收音就不好。在各種場合不能控制的時候,收音本身就是很痛苦的事情。

還有不同的場景,你需要的重點的詞匯,你有自己特別的詞匯,你有自己的口語化的問題,包括你自己的知識庫。這個過程中很多環(huán)節(jié),只有都打通了,真正的智能才能實現(xiàn)。不是說今天有泡沫,而是有多少人愿意實干,不是在那兒說,而是實實在在的把每一個環(huán)節(jié)打通,智能是一定能落地的,而且一定能帶來商業(yè)價值。有很多例子可以看到,在真正落地的時候也遇到了非常多的困難。這跟企業(yè)想做這件事的決心特別相關(guān)。

我們做的是核心技術(shù),最終還是要依靠生態(tài)和跟合作伙伴的合作,讓智能化的技術(shù)在每個場景中落地。我們期待著把智能化真正的多地。

謝謝大家!

編 輯:李樂羽
聲明:刊載本文目的在于傳播更多行業(yè)信息,本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。如網(wǎng)站內(nèi)容涉及作品版權(quán)和其它問題,請在30日內(nèi)與本網(wǎng)聯(lián)系,我們將在第一時間刪除內(nèi)容。本站聯(lián)系電話為86-010-87765777,郵件后綴為#cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
工信部張云明:大部分國家新劃分了中頻段6G頻譜資源
精彩專題
專題丨“汛”速出動 共筑信息保障堤壩
2023MWC上海世界移動通信大會
中國5G商用四周年
2023年中國國際信息通信展覽會
CCTIME推薦
關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像