客服中心
聯系我們
- 聯系地址:廣東省廣州市天河區科新路優可商務中心B棟
- 服務熱線:020-85279740
- 聯系電話:020-85279740(8線) 020-37889427
- 傳真電話:020-85279740
語音識別,什么是語音識別
發表時間:2021年05月18日瀏覽量:
語音識別
與機器進行語音交流,讓機器明白你說什么,這是人們長期以來夢寐以求的事情。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。語音識別是一門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內,語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。
語音識別聽寫機在一些領域的應用被美國新聞界評為1997年計算機發展十件大事之一。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重要的科技發展技術之一。
語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。
通過語音控制各種設備、與電腦進行直接的交流是人類長期以來的夢想。在許多描述未來世界的電影、小說中,語音識別幾乎成為了人工智能的代名詞。從上世紀四十年代開始,隨著數字技術尤其是電腦的飛速發展,語音識別技術成為了科學研究的熱點。到八十年代,語音識別技術開始了從實驗室到產品的轉移。
在語音識別技術領域的研發,開始于上世紀七十年代,目前已經形成了以東京-劍橋-北京為中心的全球研發體系,開發出了包括中、日、英、法、德等十四種以上語言的語音識別系統。中國研發中心,從二零零一年成立以來,致力于中文(包含粵語及各種方言)語音識別技術的研發,開發了高性能的中文語音識別引擎,如下圖所示:
我們的語音識別技術支持不同層次的系統要求:
1. 高魯棒性嵌入式語音識別引擎,可以應用到各種電子設備,從而利用語音來完成電子設備的自動控制等。特別在車載環境下,利用語音來控制各種設備的"hand-free"模式已經成為語音識別技術最重要的應用之一。
嵌入式語音識別引擎結合了高性能語音端點檢測技術、語音增強技術和特征補償技術,并采用了噪聲免疫訓練,可以在各種噪聲環境下工作;特別針對汽車背景噪聲優化,在極低信噪比環境下仍可使用。該引擎無需特別訓練即可供不同說話人使用,并特別針對不同地方口音進行優化,可以同時支持不同口音的說話人。除了可以完成高精度的命令詞識別,東芝的嵌入式語音識別引擎支持大詞匯量的地址識別,結合在線文法生成功能和語音標簽功能,使得聲控的汽車導航成為現實。此外,該引擎還支持中文數字串識別和人名識別等,可以輕松完成聲控撥號/定位任務。引擎采用了高效的搜索算法和聲學模型壓縮等技術,可以在資源十分有限的條件下工作,目前已經應用到多款汽車導航系統中。
2. 語音對話系統和翻譯系統中的語音聽寫引擎。結合語音識別/合成和機器翻譯技術,不同語言間的自動語音翻譯已經成為可能。
語音翻譯系統,目前已經支持中、英、日三國語言的互譯。作為其中重要的模塊之一,我們開發了高性能的中文語音聽寫引擎(大詞表連續語音識別系統)。該系統采用了噪聲魯棒性技術,可以應用到不同環境中。聲學模型訓練中采用了區分性訓練,并針對不同地方口音進行了優化;高性能的自適應技術,可以在無監督的模式下有效提高對不同口音和環境的適應能力。該引擎支持大詞匯量的語音聽寫,并提供了用戶詞典功能;具有高可移植性,可以為不同領域快速定制識別引擎。
常用的一些聲學特征
* 線性預測系數LPC:線性預測分析從人的發聲機理入手,通過對聲道的短管級聯模型的研究,認為系統的傳遞函數符合全極點數字濾波器的形式,從而n 時刻的信號可以用前若干時刻的信號的線性組合來估計。通過使實際語音的采樣值和線性預測采樣值之間達到均方差最小LMS,即可得到線性預測系數LPC。對 LPC的計算方法有自相關法(德賓Durbin法)、協方差法、格型法等等。計算上的快速有效保證了這一聲學特征的廣泛使用。與LPC這種預測參數模型類似的聲學特征還有線譜對LSP、反射系數等等。
* 倒譜系數CEP:利用同態處理方法,對語音信號求離散傅立葉變換DFT后取對數,再求反變換iDFT就可得到倒譜系數。對LPC倒譜(LPCCEP),在獲得濾波器的線性預測系數后,可以用一個遞推公式計算得出。實驗表明,使用倒譜可以提高特征參數的穩定性。
* Mel倒譜系數MFCC和感知線性預測PLP:不同于LPC等通過對人的發聲機理的研究而得到的聲學特征,Mel倒譜系數MFCC和感知線性預測 PLP是受人的聽覺系統研究成果推動而導出的聲學特征。對人的聽覺機理的研究發現,當兩個頻率相近的音調同時發出時,人只能聽到一個音調。臨界帶寬指的就是這樣一種令人的主觀感覺發生突變的帶寬邊界,當兩個音調的頻率差小于臨界帶寬時,人就會把兩個音調聽成一個,這稱之為屏蔽效應。Mel刻度是對這一臨界帶寬的度量方法之一。
MFCC的計算首先用FFT將時域信號轉化成頻域,之后對其對數能量譜用依照Mel刻度分布的三角濾波器組進行卷積,最后對各個濾波器的輸出構成的向量進行離散余弦變換DCT,取前N個系數。PLP仍用德賓法去計算LPC參數,但在計算自相關參數時用的也是對聽覺激勵的對數能量譜進行DCT的方法。
語音識別系統的性能指標主要有四項。①詞匯表范圍:這是指機器能識別的單詞或詞組的范圍,如不作任何限制,則可認為詞匯表范圍是無限的。②說話人限制:是僅能識別指定發話者的語音,還是對任何發話人的語音都能識別。③訓練要求:使用前要不要訓練,即是否讓機器先“聽”一下給定的語音,以及訓練次數的多少。④正確識別率:平均正確識別的百分數,它與前面三個指標有關。
小結
以上介紹了實現語音識別系統的各個方面的技術。這些技術在實際使用中達到了較好的效果,但如何克服影響語音的各種因素還需要更深入地分析。目前聽寫機系統還不能完全實用化以取代鍵盤的輸入,但識別技術的成熟同時推動了更高層次的語音理解技術的研究。由于英語與漢語有著不同的特點,針對英語提出的技術在漢語中如何使用也是一個重要的研究課題,而四聲等漢語本身特有的問題也有待解決。