她的主角用語(yǔ)音代替鍵盤輸入字母內(nèi)容。
注:研究人員表示,語(yǔ)音識(shí)別和人工智能領(lǐng)域最近的突破將很快大大提高設(shè)備的理解能力。著名谷歌工程師Johan Schalkwyk表示,這款功能強(qiáng)大的新設(shè)備將在短短一至兩年內(nèi)上市。它不僅能理解人們?cè)捳Z(yǔ)的含義,還能理解語(yǔ)境的關(guān)聯(lián)性和細(xì)微差別。
技術(shù)突破
和數(shù)字語(yǔ)音助手聊天可能和和一個(gè)固執(zhí)的孩子講道理一樣有趣。如果你曾經(jīng)對(duì)你的Xbox大喊大叫或詛咒Siri,這意味著你可能對(duì)語(yǔ)音識(shí)別感到失望。
沙爾克維克正在谷歌從事一項(xiàng)雄心勃勃的研究項(xiàng)目,旨在開(kāi)發(fā)一種能夠整合公司海量數(shù)據(jù)的語(yǔ)音系統(tǒng)。他說(shuō),目前正在實(shí)驗(yàn)室測(cè)試的一個(gè)項(xiàng)目可以讓計(jì)算機(jī)理解并從本質(zhì)上“思考”人們輸入谷歌設(shè)備的聲音。
而最近語(yǔ)音和機(jī)器學(xué)習(xí)領(lǐng)域的創(chuàng)新應(yīng)該會(huì)大大提高語(yǔ)音識(shí)別的能力,緩解人們的不滿。Siri開(kāi)發(fā)團(tuán)隊(duì)的一些人表示,工程師們正在瘋狂開(kāi)發(fā)語(yǔ)音識(shí)別技術(shù),使其足夠智能,以實(shí)現(xiàn)設(shè)備和用戶之間的真正對(duì)話。研發(fā)Siri底層技術(shù)的公司SRI國(guó)際(后來(lái)被蘋果收購(gòu))副總裁William Mark表示:“語(yǔ)音識(shí)別技術(shù)在理解所有地區(qū)的英語(yǔ)口語(yǔ)方面取得了巨大進(jìn)步?!斑@種對(duì)話式互動(dòng)現(xiàn)在已經(jīng)成為一種前沿技術(shù)?!?
蒂姆塔特爾等待語(yǔ)音識(shí)別技術(shù)飛躍已久。1997年,他在麻省理工學(xué)院獲得博士學(xué)位,并在其人工智能實(shí)驗(yàn)室工作。在過(guò)去的10年里,他在幾家硅谷公司工作,最終在2010年成立了自己的公司Expect Labs。圖勒的公司去年開(kāi)始了一項(xiàng)系統(tǒng)研發(fā),為移動(dòng)應(yīng)用程序添加了復(fù)雜的語(yǔ)音命令。這個(gè)應(yīng)用程序可以讓用戶進(jìn)入商店,詢問(wèn)手機(jī)他們想買的掃把在哪個(gè)貨架過(guò)道。
“一年前,我們做了一個(gè)基準(zhǔn)測(cè)試,得出的結(jié)論是很難實(shí)現(xiàn)這個(gè)功能。但是現(xiàn)在,一切都變了。我們公司在語(yǔ)音識(shí)別方面的投資翻了一番,這主要?dú)w功于我們看到的這些技術(shù)進(jìn)步,”Tuttler說(shuō)?!澳銜?huì)發(fā)現(xiàn),那些和人一樣精度或者比人更高的語(yǔ)音識(shí)別系統(tǒng)已經(jīng)商業(yè)化了?!?
舊技術(shù)獲重生
讓我們先快速回顧一個(gè)歷史教訓(xùn):兩年半前,谷歌和多倫多大學(xué)的研究人員發(fā)表了一篇有影響力的論文,內(nèi)容是關(guān)于使用“深度神經(jīng)網(wǎng)絡(luò)”在計(jì)算機(jī)中模擬語(yǔ)音。幾個(gè)月后,微軟和IBM聯(lián)合發(fā)表了另一篇論文。谷歌工程師杰夫迪恩(Jeff Dean)稱這兩篇論文是“過(guò)去20年語(yǔ)音研究領(lǐng)域最大的進(jìn)步”。
這一新發(fā)現(xiàn)重振了一項(xiàng)已經(jīng)存在數(shù)十年的數(shù)字神經(jīng)網(wǎng)絡(luò)技術(shù)創(chuàng)新。這項(xiàng)技術(shù)在20世紀(jì)80年代在預(yù)測(cè)和分析大數(shù)據(jù)方面表現(xiàn)良好,但其發(fā)展受到當(dāng)時(shí)計(jì)算機(jī)速度緩慢的限制。由于計(jì)算機(jī)處理速度的快速提高和新軟件技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)在不久的將來(lái)成為一種可行的選擇。
谷歌的實(shí)驗(yàn)室項(xiàng)目基于神經(jīng)網(wǎng)絡(luò)研究。六個(gè)月前,谷歌團(tuán)隊(duì)放棄了一種叫做前饋神經(jīng)網(wǎng)絡(luò)的舊方法,轉(zhuǎn)而使用遞歸神經(jīng)網(wǎng)絡(luò)。這種轉(zhuǎn)換使系統(tǒng)能夠存儲(chǔ)更多的信息,處理更長(zhǎng)、更復(fù)雜的序列。谷歌的創(chuàng)新之處在于簡(jiǎn)化了底層代碼,允許軟件在同一個(gè)系統(tǒng)中存儲(chǔ)更多的想法和概念,使得提出復(fù)雜的問(wèn)題并獲得合理的答案變得容易。沙爾克維克說(shuō):“復(fù)雜的系統(tǒng)建設(shè)將損害其長(zhǎng)期發(fā)展。
谷歌在谷歌系統(tǒng)現(xiàn)在使用上下文、物理定位及其它了解到的說(shuō)話者信息對(duì)談話的場(chǎng)所和真正含義進(jìn)行預(yù)測(cè),就像人在談話時(shí)大腦所做的一樣。的新網(wǎng)絡(luò)技術(shù)應(yīng)該更加高效,這樣它就可以處理比以前更多的數(shù)據(jù),回答更復(fù)雜的請(qǐng)求。
為了解釋語(yǔ)音識(shí)別技術(shù)未來(lái)將如何運(yùn)作,沙爾克以距離谷歌位于加州山景城總部幾英里遠(yuǎn)的一家高端越南餐廳為例。這家餐廳叫做仙餐廳。沙爾克維克說(shuō),對(duì)于一個(gè)典型的語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō),識(shí)別這個(gè)餐廳名字的發(fā)音是一個(gè)挑戰(zhàn),因?yàn)閄anh的發(fā)音是“zahn”,非常難識(shí)別。他說(shuō):“如果我能用地圖說(shuō)‘這是一家餐廳,它位于加州’,那么可供參考的餐廳數(shù)量將立即大大減少。"利用這些語(yǔ)義知識(shí),我們可以大大提高語(yǔ)音識(shí)別的質(zhì)量."
這聽(tīng)起來(lái)很簡(jiǎn)單,但是對(duì)于計(jì)算機(jī)來(lái)說(shuō),要聽(tīng)到一個(gè)單詞,從句子中識(shí)別上下文,然后根據(jù)地理位置分析信息是極其困難和耗時(shí)的。如今,谷歌語(yǔ)音搜索能夠正確識(shí)別餐廳,或許是因?yàn)槠溟_(kāi)發(fā)者是餐廳的??汀I碃柨司S克表示,未來(lái),谷歌將能夠處理許多其他也有模棱兩可聲音的問(wèn)題。
沙爾克維克表示,在谷歌內(nèi)部,語(yǔ)音識(shí)別取得了“前所未有的數(shù)量”的技術(shù)進(jìn)步。雖然谷歌取得的重大進(jìn)展還需要一兩年的時(shí)間才能體現(xiàn)在手機(jī)上,但這個(gè)項(xiàng)目已經(jīng)催生了可以用于谷歌其他業(yè)務(wù)的技術(shù)。沙爾克維克說(shuō):“你開(kāi)發(fā)了一些技術(shù),為登陸月球做準(zhǔn)備,同時(shí),你還開(kāi)發(fā)了100種其他有用的技術(shù)。
沙爾克維克說(shuō),三年前,谷歌的語(yǔ)音識(shí)別技術(shù)只能識(shí)別3/4個(gè)單詞?,F(xiàn)在,Tuttler表示,得益于創(chuàng)新的加速,谷歌的手機(jī)語(yǔ)音識(shí)別應(yīng)用可以準(zhǔn)確猜測(cè)12/13個(gè)單詞。圖特勒說(shuō):“未來(lái),我們將生活在一個(gè)設(shè)備沒(méi)有鍵盤的世界。