讓計算機能聽懂人的語言,是自計算機誕生以來人類便夢寐以求的,Intel創(chuàng)辦人Gordon Moore曾說,語音技術(shù)是影響未來科技發(fā)展最關(guān)鍵的技術(shù);IBM總裁Lou Gerstner指出,有朝一日,將有數(shù)十億的人運用自然語言在Intern et上瀏覽、查詢【’]。隨著移動電話、掌上電腦、PDA等移動設(shè)備以及移動計算環(huán)境中各類智能設(shè)備的廣泛應(yīng)用,使用語音作為用戶操作界面的要求越來越迫切,移動設(shè)備體積小,計算能力和存儲空間有限,其使用場合又往往處于復(fù)雜、多變的噪聲環(huán)境中,使得基于這類設(shè)備的語音識別實用技術(shù)面臨許多挑戰(zhàn)。如今語音識別的應(yīng)用領(lǐng)域不斷拓展,在軍事、工業(yè)、家電、消費電子、交通等各方面都得到了廣泛的應(yīng)用。常見的應(yīng)用有: (1>語音控制語音識別技術(shù)可實現(xiàn)這樣的功能,利用聲音來控制一臺機器設(shè)備的運行。例如現(xiàn)在的智能家電,就可以通過語音控制其開關(guān)和其他功能的實現(xiàn)。語音控制一方面可以提高工作效率,另一方面也可以在人們手腳被占用的時候?qū)崿F(xiàn)控制,解放人們的雙手。
(2)語音輸入利用語音識別技術(shù),將人們的聲音信號直接轉(zhuǎn)換成相應(yīng)的文字輸入計算機系統(tǒng),不僅可以代替鍵盤使文字的輸入工作更加省力和高效,同時也為那些不熟悉鍵盤輸入法的人們提供了一種新的文字輸入途徑。
(3)身份識別和指紋類似,人們的聲紋也具有較強的排他性,因此可以利用語音識別來進行身份的識別和確認工作。
語音識別一般有廣義和狹義之分。廣義的語音識別指的是從語音信號中提取出任何人們感興趣內(nèi)容的技術(shù),而我們通常所說的語音識別指的是狹義的語音識別,即從語音信號中提取出文本內(nèi)容的技術(shù)。也就是通過算法,將語音轉(zhuǎn)換成文本的過程[}2}根據(jù)識別的對象不同,語音識別大致分為3類:孤立詞識別,連續(xù)語音識別,關(guān)鍵詞識別。
其中孤立詞識別是識別事先己知的孤立詞,如“開始”、“結(jié)束”等;連續(xù)語音識別的任務(wù)則是識別任意的連續(xù)語音,如一個句子或者一段話;連續(xù)語音流中的關(guān)鍵詞檢測針對的也是連續(xù)語音,但它并不要求識別全部文字,而只是檢測己知關(guān)鍵詞在何處出現(xiàn),如在一段話中檢測“西安”、“中國”這兩個詞。根據(jù)語音識別系統(tǒng)所針對的發(fā)音人,可以將語音識別分為2類:特定人語音識別和非特定人語音識別。 其中前者只能識別特定的一個人或幾個人的語音,而后者則可以被任何人使用。顯然,非特定人語音識別系統(tǒng)更符合實際需要,但它要比特定人的識別困難得多。另外,根據(jù)語音設(shè)備和通道,可以分為桌面CPC)語音識別、電話語音識別和嵌入式設(shè)備(手機、PDA等)語音識別。不同的采集通道會使發(fā)音的聲學(xué)特性產(chǎn)生變形,因此需要構(gòu)造各自的識別系統(tǒng)。
雖然當前語音識別技術(shù)在實際應(yīng)用中取得了較好效果,但我們也應(yīng)清醒的認識到其中存在的問題并對其進行深入的分析。目前國內(nèi)外對語音識別技術(shù)研究存在的主要問題有:
(1>標準輸入的問題缺乏標準輸入是目前語音識別面臨的主要難
題之一。因為語言、方言之間的差異,
所以很難確定一個標準的輸入,導(dǎo)致實際使用時誤識率過高,較難達到人們預(yù)期的效果。即使語言相同,我們每個人的發(fā)音習(xí)慣也不盡相同,這就導(dǎo)致了根據(jù)某些人的語音數(shù)據(jù)
設(shè)計出來的語音識別系統(tǒng)很難適應(yīng)所有的使用者。因此目前絕大多數(shù)的語音識別系統(tǒng)在使用前,都需要使用者對其進行適應(yīng)性訓(xùn)練,使其習(xí)慣自己的發(fā)音,以提高識別的正確率。另外,對語音識別的輸入設(shè)備缺乏統(tǒng)一標準也是導(dǎo)致語音輸入不標準的重要方面。
因為當前的錄音設(shè)備都是以人能聽清,聽懂為標準進行設(shè)計的,至于如何調(diào)整輸入設(shè)備的各項參數(shù),使其適應(yīng)計算機識別的特點,讓識別系統(tǒng)能夠更好的分辨,對此我們還需要做大量的數(shù)據(jù)收集,分析和研究工作。
(2)環(huán)境噪聲的問題環(huán)境噪聲的干擾也是語音識別研究中一個不可回避的問題。在實際應(yīng)用時,我們并不能保證識別系統(tǒng)始終處于一個安靜的環(huán)境中工作。大多數(shù)的應(yīng)用場景總是存在著環(huán)境噪聲,且不同場景的噪聲也各不相同。我們在語音識別系統(tǒng)開發(fā)時很難做到訓(xùn)練環(huán)境和真實環(huán)境的匹配,導(dǎo)致很多識別系統(tǒng)在實驗室環(huán)境下識別效果很好,但是到了實際應(yīng)用的場景,一旦遇到較強的環(huán)境噪聲,識別的效果就大打折扣了。所以說,噪聲環(huán)境中語音識別要比安靜環(huán)境下困難很多。目前解決環(huán)境噪聲干擾問題的途徑主要有三個:一是在語音識別的前端,即語音輸入環(huán)節(jié),開發(fā)抗噪性能更好的語音輸入設(shè)備,從源頭上降低語音信號中的噪聲分量;二是在對己經(jīng)混入了噪聲的語
音信號進行特征提取時,選取抗噪性高的特征參數(shù);三是在對語音識別系統(tǒng)進行訓(xùn)練時,充分考慮到噪聲的干擾問題,進行針對性的訓(xùn)練以提高系統(tǒng)識別的魯棒性。
(3)協(xié)同發(fā)音現(xiàn)象:人們在交流時很少一個字一個字的孤立發(fā)音,多數(shù)情況下都是按照自己的習(xí)慣連續(xù)發(fā)音,這時原本孤立的聲學(xué)單元就會受到上下文的影響而發(fā)生模糊、變異。因此無論在語音識別系統(tǒng)中選取何種建模單元(詞、音節(jié)、聲韻母、音素),都需要對這些單元之間的相互影響做細化處理,這樣就會帶來模型數(shù)目的劇增和訓(xùn)練數(shù)據(jù)的相對醫(yī)乏。
語音信號處理是以語音學(xué)和數(shù)字信號處理為基礎(chǔ),涉及語言學(xué)、模式識別、機器學(xué)習(xí)、人工智能、信息論等領(lǐng)域的一門綜合性學(xué)科,它主要包括四個部分:語音識別(Speech Recognition)、語音合成(Speech Synthesis)、語音編碼(SpeechCoding)和語音分類(Speech Classification)}4]。語音識別是指機器從語音信號中提取語言信息,從而使機器能夠有效地理解和執(zhí)行發(fā)聲者的各種意圖,其目的是要讓機器聽懂人類口述的語言,“聽懂’,有兩層含義,其一是指將語音轉(zhuǎn)換為文本,其二是指理解語音包含的意義。通常所說的語音識別是指第一層含義,而第二層含義則屬于語言理(LanguageUnderstanding)的范疇,讓機器聽懂我們的話語,是自動語音識別(Automatic Speech Recognition, ASR要研究的課題。ASR的最終目標是要將連續(xù)的語音自動地變換成文本字符,實現(xiàn)所謂的音字轉(zhuǎn)換。在日常生活中,人們用數(shù)以萬計的詞語,組成連續(xù)的語句來進行交談,在這種自然發(fā)音的
語句中,由于協(xié)同發(fā)音以及語調(diào)、重音和抑揚頓挫等節(jié)律的影響,很多音素的聲學(xué)特性跟單字念讀時差別很大,這給ASR帶來了許多挑戰(zhàn)。
在語音識別方法中,目前占主導(dǎo)地位的是基于統(tǒng)計的模式識別方法〔川。一段語音波形通過前端信號處理后可以得到一組特征序列。在給定觀測序列Y的情況下識別系統(tǒng)采用最大后驗概率準則決定輸出詞序列(2-1)其中,P(幼與詞序列W無關(guān),因此在式(2-1)中分母可以忽略,即 2-2式中,P(W)為語一言模型,表示特定詞序列出現(xiàn)的先驗概率,與觀測語音信號無關(guān);P(Y}W)為聲學(xué)模型,表示給定詞序列W情況下輸出Y的概率,也就是給定聲學(xué)模型輸出Y的概率。如圖所示,大詞匯量連續(xù)語音識別系統(tǒng)是一般由語音信號處理、聲學(xué)特征提取、聲學(xué)模型、語言模型、解碼器以及錯誤處理模塊組成。從語音數(shù)據(jù)提取聲學(xué)特征并輸入到解碼器,利用聲學(xué)模型和語言模型,基于最大后驗概率準則解碼,并對解碼輸出進行錯誤處理,得到最終的識別結(jié)果
來源:網(wǎng)絡(luò)整理 免責(zé)聲明:本文僅限學(xué)習(xí)分享,如產(chǎn)生版權(quán)問題,請聯(lián)系我們及時刪除。