5 月 27 日,由機器之心主辦、為期兩天的全球機器智能峰會(GMIS 2017)在北京 898 創新空間順利開幕。

騰訊 AI Lab 副主任俞棟博士、「LSTM 之父」Jürgen Schmidhuber、加州大學伯克利分校人工智能系統中心創始人Stuart Russell教授、中國科學院自動化研究所復雜系統管理與控制國家重點實驗室主任王飛躍及Citadel首席人工智能官鄧力等多位知名人工智能專家參與峰會,并在主題演講、圓桌論壇等互動形式下,從科學家、企業家、技術專家的視角,解讀人工智能的未來發展。
本次GMIS大會,騰訊入選全球100家最值得關注的人工智能公司“A100榜單”,俞棟作為公司代表獲獎并致辭,其它獲獎公司包括英特爾、亞馬遜、英偉達、微軟和百度等。
在會上,騰訊 AI Lab 副主任、西雅圖人工智能研究室負責人俞棟博士發表了主題為《語音識別領域的前沿研究(Frontier Research of Speech Recognition)》的演講,探討分享了語音識別領域的四個前沿問題。
俞棟認為,雖然語音識別在過去幾十年里取得了一定進步,如今機器也已經在電話聊天這樣的任務上達到甚至超過人的識別水準,但是離真正的人與機器的自由交流還有一定差距。
以下是俞棟演講的主要內容:

語音識別是一個有著悠久歷史的研究領域。在過去的幾十年里,研究人員從最簡單的小詞匯量朗讀語音識別問題 Read Speech 開始,逐漸走向更加復雜的 Broadcast Speech 和 Conversational Speech語音識別問題。如今,即便是在以前認為非常難的電話自由聊天這樣形式的語音識別問題上,機器也已經達到甚至超過人的識別水準。但是我們要看到,雖然取得了這些進展,但離真正的人與機器的自由交流還有一定差距,這也就是為什么語音識別的研究前沿需要繼續往前推進一步。

如今我們研究的語音識別問題越來越沒有環境、說話風格、口音、詞匯等限定(不像以前有非常多的限制),這極大地增加了語音識別的難度,同時研究的前沿也從近場麥克風轉向遠場麥克風。兩者的區別在于,在遠場情況下,當人的聲音傳達到麥克風時,聲音衰減很厲害。所以以前在近場麥克風很難見到的一些困難,在遠場麥克風場景下就變得很明顯。如果不解決這些問題,用戶在很多的應用場合仍然會覺得語音識別效果欠佳。
今天我介紹一下在這樣的背景下語音識別的一些前沿研究方向。

研究方向一:更有效的序列到序列直接轉換的模型。
語音識別實際上是把語音信號的序列轉化為文字或詞的序列,所以很多人認為要解決這個問題,找到一個行之有效、序列到序列的轉換模型就可以了。

從前的絕大部分研究是通過對問題做假設,然后據此在語音信號序列到詞序列之間構造若干個組件,把語音信號序列逐步轉換成詞的序列。這些假設中的許多部分,比如短時平穩假設和conditional independence假設,在某些特定場合是合理的,但是在很多真實的場景下是有問題的。而序列到序列直接轉換的模型背后的思路是說,如果我們去掉基于有問題的假設而設計的這些組件,然后以從訓練數據中學到的轉換模型來替換,就有可能找到更好的方法,使序列轉換更準確。
這樣做另外一個好處是整個的訓練過程也可以變簡單。

序列到序列直接轉換的模型目前來講主要有兩個方向:方向一:CTC模型。
CTC模型十分適合語音識別這樣的問題,因為它要求輸出序列長度比輸入序列長度要短很多。CTC模型還有一個優勢,在傳統的深度神經網絡/隱馬爾科夫混合模型中建模單元一般非常小,都在sub-phone級別。但是在CTC模型里面你可以相對自由地選擇建模單元,而且在數據量足夠大的情況下建模單元越大,識別效果反而會越好。
最近谷歌有一項研究從YouTube上采用幾十萬小時甚至上百萬小時的訓練數據量。CTC的模型可以不依賴額外的語言模型就能做到識別率超過傳統的混合模型。但由于訓練穩定性差,CTC模型相對于傳統模型仍然更難訓練好。

更有效的序列到序列直接轉換的模型的第二個方向是:Attention 模型
Attention 模型首先把輸入的語音信號序列轉換成一個中間層的序列表達,在這個中間層序列表達上面,能夠融合上下文信息,然后就可以基于這個中間層的表達用一個專門的、基于遞歸神經網絡的生成模型來生成轉換后的詞序列。這個方法在機器翻譯里面現在成為了主流方案,但是在語音識別里面它還是一個非常不成熟的技術,它有目前有幾個問題。
問題1:生成模型所依賴的信息在訓練和解碼時是不一致的。這使得在解碼時錯誤會累加。所以目前比較適合短語的識別,對長的句子效果比較差。
問題2:attention的窗口沒有時序的限定,所以有時候要生成下一個詞時,attention 窗口反而跑到時間上更靠前的語音信號上去了。所以在做語音識別的時候,它的訓練因而最后的結果相對來說非常不穩定。

那么如何解決這些問題?目前最佳的解決方案就是把 CTC 與 Attention 結合起來,這主要是因為CTC能保證時序信息,即后面的詞一定是根據后面的語音信號生成的,由于編碼部分是CTC 與 Attention共享的,這有助于Attention模型所基于的中間表達能更好地生成識別結果。有意思的是在某些情況下兩者結合的模型比CTC和Attention各自訓練的效果都更好。
但是,即便把 CTC 與 Attention 兩種模型結合起來,其效果與傳統混合模型相比,依然沒有太多優勢。所以我們仍然需要解決一些問題。

問題一:在這樣的架構下面,有沒有更好的一些模型結構,或者是訓練準則,能夠比現有的CTC或者Attention模型更好。
問題二:當擁有的數據較少時,有沒有辦法建造一個結構,使得語言模型和聲學模型緊密結合在一起。有語音信號時語言模型可以和聲學模型一起訓練,沒有語音信號時,語言模型可以只用文本信息來訓練。
問題三:如何利用各種語料的數據,整合起來訓練一個更好的序列到序列轉換模型。這可能需要在模型的很多層面上可以做遷移學習。

研究方向二:雞尾酒會問題。
人在雞尾酒會這樣非常嘈雜的環境中能夠把注意力集中在某一個人的聲音上,屏蔽掉周圍的說話聲或噪音,非常好地聽懂他/她要關注的那個人的說話聲音?,F在絕大部分的語音識別系統還沒有這個能力。這個問題在近場麥克風并不明顯,這是因為人聲的能量對比噪聲非常大,而在遠場識別系統上,信噪比下降得很厲害,所以這個問題就變得非常突出,成為了一個非常關鍵、比較難解決的問題。

雞尾酒會問題的主要困難在于Label Permutation,而這個問題目前有兩個較好的解決方案:
方案一:Deep Clustering。
方案二:Permutation invariant Training。

但是在這些工作里我們只用到了單麥克風的輸入信息。而我們知道麥克風陣列可以提供更多的信息,所以一個很重要的問題是如何有效地利用多麥克風信息來繼續加強這些模型和方案的能力。第二個就是有沒有辦法能夠找到一個更好的分離模型,因為現在大家用的還是LSTM,但是LSTM不見得是最佳模型。第三個問題是我們有沒有辦法利用其他的信息,比如語言和發音模型以及解碼器里的信息來進一步提升它的性能。
研究方向三:持續預測與適應的模型。

第三個大家關注的熱點是能否建造一個持續做預測并自適應的系統。我們之前做了一個模型叫PAC-RNN,它的好處是能夠非??斓刈赃m應,從而持續改進識別結果。但是這個模型由于遞歸神經網絡的環路比較大,訓練上比較困難。
所以現在的問題是如何建造一個更好的模型,它能夠持續地做預測和自適應。它需要的特點是什么呢?一個是它能夠非??斓刈鯝daptation并優化接下來的期望識別率。另外它要能發現頻度高的regularities并把這些變成default model的一部分,不需要再做adaptation。還有就是我們有沒有辦法把大類的自適應模型用更好的方式壓縮在模型里面,使得adaptation可以直接從這些模型開始而不是default model。
研究方向四:前后端聯合優化。

第四個研究前沿有關遠場識別以及如何做前端和后端更好的聯合優化。目前來講,前端的信號處理技術一般只用到當前狀態下的語音的信號信息,這些信息的利用主要靠對聲學物理規律的把握并基于一定的假設。而機器學習的方法能利用很多的訓練集里學到的信息來建模,但是它一般不是基于物理原理的,對當前幀信息的使用比較弱。所以我們有沒有辦法把這兩種方法比較好地融合在一起,這是目前很多研究組織發力的一個方向。
另外,我們有沒有辦法把前端的信號處理跟后端的語音識別引擎做更好的聯合優化。因為前端信號處理有可能丟失信息,且不可在后端恢復。以前那種分別優化的策略可能對于前端來說是最優的,但是放在整個系統里就不是了。所以我們有沒有辦法做一個自動的系統,能夠比較好地分配前后端的處理,使得前端可以有效提升信號質量但同時比較少地丟失信息,而把一些剩余的噪聲留給更強大的后端來處理,從而提升整體性能。
關于騰訊AI Lab
騰訊AI Lab于2016年四月成立,總部位于深圳。作為騰訊公司級AI實驗室,AI Lab專注于基礎研究和應用探索的結合,致力于提升AI決策、理解及創造能力,并為騰訊各個產品及業務提供AI技術支持。
AI Lab專注四大基礎研究方向:計算機視覺、語音識別、自然語言處理和機器學習。每個領域代表一個AI基礎研究方向,又能進行深層次的研究拓展。結合騰訊獨有場景和業務優勢提出內容、游戲、社交和平臺工具型AI四大應用探索。技術在天天快報、手機QQ及天天P圖等上百個產品中應用。
騰訊AI Lab深圳總部由機器學習和大數據領域專家張潼博士領導,現有50多位世界知名院校的AI科學家(90%為博士)及200多位應用工程師,聚焦四大基礎研究及應用方向的結合。西雅圖研究室由AI Lab副主任、語音識別及深度學習領域專家俞棟博士領導,偏向語音識別及自然語言理解兩大領域的基礎研究。
關于俞棟
俞棟博士是騰訊AI Lab(人工智能實驗室)副主任,及美國西雅圖AI實驗室負責人,負責該實驗室的運營及管理,推動騰訊在語音識別及自然語言理解等AI領域的基礎研究。俞棟博士是語音識別與深度學習領域的資深專家,曾在相關領域出版兩本專著并發表大量論文。他也是60項專利的發明人及深度學習開源軟件CNTK的發起人和主要作者之一。加入騰訊前,他曾擔任美國微軟研究院語音和對話組(Speech and Dialog Group)首席研究員,并兼任浙江大學兼職教授、中科大客座教授及上海交通大學客座研究員。
俞棟博士與George Dahl 博士、鄧力博士等共同研發的上下文相關深層神經網絡-隱馬爾科夫模型(CD-DNN-HMM)是深度學習技術在大詞匯量語音識別任務上的首次成功應用。他們的這項突破性工作,獲 2013年IEEE信號處理協會(IEEE SPS)最佳論文獎,引起了大詞匯量語音識別研究方向的轉變,極大地推動了語音識別技術的發展。俞博士曾獲2013年和2016年IEEE信號處理協會最佳論文獎,現任 IEEE 語音語言處理專業委員會委員,曾任 IEEE/ACM 音頻、語音及語言處理匯刊、IEEE 信號處理雜志等期刊的編委。
俞棟博士擁有中國浙江大學電子工程學士學位、美國印第安納大學計算機碩士學位、中國科學院自動化所模式識別與智能控制碩士學位及美國愛達荷大學計算機博士學位。

請輸入驗證碼