伊人色婷婷综在合线亚洲,亚洲欧洲免费视频,亚洲午夜视频在线观看,最新国产成人盗摄精品视频,日韩激情视频在线观看,97公开免费视频,成人激情视频在线观看,成人免费淫片视频男直播,青草青草久热精品视频99

語音識別系統(tǒng)模板(10篇)

時間:2022-11-27 07:57:00

導言:作為寫作愛好者,不可錯過為您精心挑選的10篇語音識別系統(tǒng),它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內(nèi)容能為您提供靈感和參考。

語音識別系統(tǒng)

篇1

近年來國內(nèi)教育信息化趨勢更加明顯,英語教學活動建立信息化平臺是師生所需,改變了早期英語課堂模式的不足之處。語音識別是計算機翻譯軟件不可缺少的一部分,如圖1,主要針對不同語言進行識別處理,幫助學生快速地理解英語知識內(nèi)涵。語音識別技術主要包括:特征提取技術、模式匹配技術、模型訓練技術等三大技術,也是系統(tǒng)設計需考慮的重點。

1)特征提取技術。一般來說,語音識別系統(tǒng)輔助功能涉及到收錄、處理、傳遞等三個環(huán)節(jié),這也是語音識別系統(tǒng)設計的關鍵所在。計算機語言與自然語言之間存在極大的差異性,如何準確識別兩種語言的差異性,這是翻譯軟件識別時必須解決的問題。特征提取技術是語音識別系統(tǒng)的基本構成,主要負責對英語語言特征進行提取,向翻譯器及時提供準確的語言信號,提高計算機翻譯工作的準確系數(shù)。

2)模式匹配技術。語音識別系統(tǒng)要匹配對應的功能模塊,以輔助師生在短時間內(nèi)翻譯出語言含義,避免人工翻譯語言失誤帶來的不便。模式匹配技術采用智能識別器,由翻譯器錄入語音之后自主化識別、分析,減小了人工翻譯語句的難度。例如,計算機軟件建立匹配模型,按照英語字、詞、句等結構形式,自動選擇相配套的翻譯模式,執(zhí)行程序命令即可獲得最終的語言結果,給予學生語音識別方面的幫助。

3)模型訓練技術。設計語音識別系統(tǒng)是為了實現(xiàn)教育信息化,幫助教師解決英語課堂教學中遇到的翻譯難題,加深學生們對英語知識的理解能力。語音識別結束之后,翻譯器會自動執(zhí)行模擬訓練操作,為學生創(chuàng)建虛擬化的語音訓練平臺,這也是軟件識別系統(tǒng)比較實用的功能。模擬訓練技術采用人機一體化設計思想,把翻譯器、語音識別器等組合起來執(zhí)行訓練方式,快速地識別、判斷英語發(fā)聲水平,指導學生調(diào)整語音方式。

2英語翻譯器語音識別系統(tǒng)設計及應用

英語翻譯器是現(xiàn)代化教學必備的操作工具,教師與學生借助翻譯器功能可準確地理解英語含義,這對語音識別系統(tǒng)設計提出了更多要求。筆者認為,設計語音識別系統(tǒng)要考慮翻譯器具體的工作流程,事先編排一套符合翻譯軟件工作的方案,如圖2,從而提高人機語言轉換速率。語音識別系統(tǒng)設計及應用情況:

1)識別模塊。語音識別方法主要是模式匹配法,根據(jù)不同翻譯要求進行匹配處理,實現(xiàn)英語翻譯的精準性。一是在訓練階段,用戶將詞匯表中的每一詞依次說一遍,并且將其特征矢量作為模板存入模板庫;二是在識別階段,將輸入語音的特征矢量依次與模板庫中的每個模板進行相似度比較,將相似度最高者作為識別結果輸出。

2)前端模塊。前端處理是指在特征提取之前,先對原始語音進行處理,這是預處理操作的主要作用。語音識別系統(tǒng)常受到外界干擾而降低了翻譯的準確性,設計前段處理模塊可消除部分噪聲和不同說話人帶來的影響,使處理后的信號更能反映語音的本質特征。例如,比較常用的前端處理有端點檢測和語音增強。

3)聲學模塊。語音識別系統(tǒng)的模型通常由聲學模型和語言模型兩部分組成,分別對應于語音到音節(jié)概率的計算和音節(jié)到字概率的計算。聲學特征的提取與選擇是語音識別的一個重要環(huán)節(jié),這一步驟直接關系到翻譯器的工作效能,對英語語音識別與學習有很大的影響。因此,聲學模塊要注重人性化設計,語音設定盡可能符合自然語言特點。

4)搜索模塊。英語語音識別中的搜索,就是尋找一個詞模型序列以描述輸入語音信號,從而得到詞解碼序列。本次所設計的搜索模塊中,其前端是一個語音識別器,識別產(chǎn)生的N-best候選或詞候選網(wǎng)格,由語法分析器進行分析獲取語義信息,再由對話管理器確定應答信息,由語音合成器輸出。由于目前的系統(tǒng)往往詞匯量有限,也可以用提取關鍵詞的方法來獲取語義信息。

5)執(zhí)行模塊。實際應用中,語言識別系統(tǒng)憑借執(zhí)行模塊完成操作,對英語語言識別方式進行優(yōu)化擇取,以最佳狀態(tài)完成英語翻譯工作。目前,就英語教學中使用情況,聽寫及、對話系統(tǒng)等是語音識別執(zhí)行的兩種方式,充分展現(xiàn)了翻譯器在語言轉換方面的應用功能。(1)聽寫機。大詞匯量、非特定人、連續(xù)語音識別系統(tǒng)通常稱為聽寫機。其架構就是建立在前述聲學模型和語言模型基礎上的HMM拓撲結構。訓練時對每個基元用前向后向算法獲得模型參數(shù),識別時,將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉移概率,形成循環(huán)結構,用Viterbi算法進行解碼。(2)對話系統(tǒng)。用于實現(xiàn)人機口語對話的系統(tǒng)稱為對話系統(tǒng),英語翻譯器中完成了人機對話、語言轉換等工作,全面提升了翻譯器操控的性能系數(shù)。受目前技術所限,對話系統(tǒng)往往是面向一個狹窄領域、詞匯量有限的系統(tǒng),其題材有旅游查詢、訂票、數(shù)據(jù)庫檢索等,隨著語音數(shù)據(jù)庫資源的優(yōu)化配置,對話系統(tǒng)功能將全面升級。

3翻譯器使用注意事項

語音識別系統(tǒng)就是讓機器通過識別和理解過程,把語音信號轉變?yōu)橄鄳奈谋净蛎畹母呖萍?。隨著高校教學信息化建設時期到來,計算機軟件輔助教學活動是一種先進的模式,徹底改變了傳統(tǒng)人工教學模式的不足。翻譯軟件采用數(shù)字化元器件為硬件平臺,配合遠程互聯(lián)網(wǎng)建立多元化傳輸路徑,滿足了英語翻譯數(shù)據(jù)處理與傳輸?shù)膽靡?。但是,未來英語教學內(nèi)容越來越復雜,翻譯器語音識別系統(tǒng)承載的數(shù)據(jù)范圍更廣,學校必須實施更新翻譯軟件產(chǎn)品,才能進一步提升英語智能化翻譯水平。

篇2

中圖分類號:TP399 文獻標識碼:A文章編號:1006-4311(2012)04-0126-020引言

隨著計算機技術的飛速發(fā)展,各種各樣的應用層出不窮,其中使用語音與計算機程序進行交互成為了最近熱門的研究方向。語音作為人類與計算機之間無形的連接方式,可以使人們方便、快捷地控制和使用計算機。語音識別技術是能夠讓原來非智能的計算設備理解人類思想的高科技技術,融合了信號處理、人工智能以及自動化等多學科、多領域的研究成果,是目前實現(xiàn)人工智慧的主要途徑之一。

根據(jù)不同的分類標準,語音識別可分為不同的種類,例如依據(jù)識別對象的不同,可分為特定人語音識別及非特定人語音識別;又根據(jù)人類的講話方式可分為孤立詞識別、連接詞識別以及連續(xù)語音識別。不同的識別系統(tǒng)雖然在語音識別過程中步驟相似,但根據(jù)不同系統(tǒng)的需求及特點其實現(xiàn)方式及具體細節(jié)是不同的[1]。

嵌入式技術的迅猛進步,使得語音識別技術的應用更加廣泛,不再局限于實驗室以及大型場合;其已經(jīng)被嵌入各種移動設備,為人們對移動設備的操作方式提供了一種嶄新途徑和使用體驗。本文就針對移動設備的特點,設計了一種面向非特定人的孤立詞語音識別系統(tǒng)。

1語音識別的工作原理

原始的自然語音信號中不僅含有人體自身的聲音信號,同樣也包含了大量的雜音、噪聲等混雜在一起的隨機干擾信號,尤其作為移動、嵌入式設備被使用者隨身攜帶使用,會有更多的環(huán)境噪聲信號。針對大量噪聲的數(shù)據(jù)計算以及嵌入式設備有限的計算資源,為保證系統(tǒng)的對自然語言的正確識別率,并且有效減少處理原始語音信號的大量數(shù)據(jù)密集計算,有必要研究語音信號的預處理技術,以期高效提取語音特征參數(shù),并選取合適的壓縮算法進行語音數(shù)據(jù)壓縮,之后再進行語音的模式匹配[2]。

如圖1所示,人本身的語音信號從語音錄入設備進入后,將進行預處理、端點檢測、特征提取,轉換為可以對比的信號參數(shù),然后將特征參數(shù)通過選取的特征匹配方法與參考樣例庫中的模板樣例進行語言匹配,選擇符合度最大的語言樣例進行相應處理,得出識別結果。

2系統(tǒng)硬件設計

系統(tǒng)的硬件結構示意圖如圖2所示。

系統(tǒng)的處理核心采用了韓國三星公司的一款基于ARM 920T內(nèi)核的S3C2440微處理器;此款處理器中的CMOS宏單元和存儲單元采用了0.18um電子工藝,內(nèi)部總線采用Advanced Microcontroller Bus Architecture(AMBA)新型總線結構,具備出色的全靜態(tài)設計,利用了多項低功耗技術,系統(tǒng)架構精簡,特別為價格和功耗敏感的應用而精心打造。除此之外,它特別為各種外設準備了豐富的中斷處理資源,包括總計共有60個中斷源(其中包括5個定時器硬中斷,9個串口中斷,24個外部中斷,1個看門狗定時器,4個DMA,2個ADC,1個LCD,1個電池故障,1個IIC,2個SPI,1個SDI,2個USB,1個NAND FLASH口,2個視頻口和1個AC97音頻口),這些中斷既可以使用電平/邊沿觸發(fā)模式進行外部中斷的觸發(fā),也可以使用軟件編程的方式改變邊沿/電平觸發(fā)極性,能夠為緊急中斷請求提供快速中斷(FIQ)服務[3]。

系統(tǒng)工作時,人的語音信號經(jīng)過MIC輸入,并通過濾波、去噪等操作后,在S3C2440上執(zhí)行語音特征提取、語音模式匹配算法,最終輸出結果;系統(tǒng)中的USB接口可以方便系統(tǒng)外擴各種標準USB外設,以便使用語音識別結果進行各種設備控制。

3系統(tǒng)軟件設計

3.1 Linux內(nèi)核移植移植Linux內(nèi)核一般分為幾個固定的步驟,目前較為流行快速開發(fā)方法通常先在內(nèi)核的處理器架構目錄下,選擇與目標開發(fā)板硬件結構最接近的并且各種配置較為完善的開發(fā)板目錄作為移植模板。接著針對本開發(fā)板與目標開發(fā)板的硬件具體差別,進行對應的修改或使用前人的移植補丁進行升級。針對本開發(fā)板,我們使用了穩(wěn)定的Linux-2.6.15內(nèi)核進行移植,考慮到本系統(tǒng)的具體硬件配置,最后選擇了SMDK2440開發(fā)板模板作為移植的目標開發(fā)板模板。在編譯和配置內(nèi)核前,建議使用menuconfig或其它配置工具對內(nèi)核進行適當?shù)牟眉簦€可以進一步編寫配置腳本。嵌入式Linux內(nèi)核的裁減類似于PC上Linux內(nèi)核的裁減,主要的工作是根據(jù)硬件和系統(tǒng)需求增添需要支持的模塊,并除去無用的功能模塊,以使Linux內(nèi)核與目標硬件系統(tǒng)緊密相依,但要注意嵌入式Linux內(nèi)核的特征是小、精、有效。內(nèi)核的編譯則通常是通過修改根目錄以及其它子目錄下的Makefile,以及在預編譯前設置編譯參數(shù)值時進行選定,或是使用編譯工具[4]。

最后,使用make工具生成U-boot可以識別的uImage引導程序鏡像文件。uImage鏡像文件通過U-Boot引導程序從FLASH中取出并解壓縮,裝入內(nèi)存后,Linux內(nèi)核便取得系統(tǒng)控制權。

Linux內(nèi)核移植的整個過程如圖3所示。

3.2 系統(tǒng)軟件設計整個系統(tǒng)軟件結構如圖4所示。面向終端用戶的軟件形勢分為兩種:web插件和普通的軟件界面;web插件可以使用在瀏覽器中,方面用戶控制網(wǎng)頁瀏覽。下面是命令解析層Command layer,負責解釋兩種界面發(fā)送的命令,調(diào)用相應的程序接口并返回執(zhí)行后的結果。功能模塊Function modules主要封裝軟件API,負責提供各種常用的功能服務??刂颇KControl modules負責管理和控制語音識別引擎,建立語音樣例庫以及調(diào)整語音設備引擎的內(nèi)部參數(shù),將來還可以加入新的語音模式匹配算法。再下面一層是統(tǒng)一APIs層,主要對核心語音識別引擎進行簡單的API封裝,同時預留了將來要擴展的功能接口,以便后續(xù)的功能升級和代碼維護;最下面的就是核心語音識別引擎,主要提供模式匹配算法以及對底層系統(tǒng)級的控制功能。

3.3 語音識別算法本語音識別系統(tǒng)的識別任務主要為針對設備持有者的小詞匯量孤立詞的語音識別,功能較為簡單,需要使用者進行一定量的訓練后,系統(tǒng)對應建立語音樣例庫,然后針對每次的聲音進行模式匹配即可,所以算法的重點在于模式匹配算法。綜合計算性能需要、存儲資源消耗以及價格成本考慮,目前流行的DHMM語言識別模型對本系統(tǒng)較為合適。DHMM模型是一種隨機統(tǒng)計過程,通過大量的模板訓練過程提取語音特征,可滿足語音實時變化且識別實時性要求較高的應用場合。

本系統(tǒng)采用了當前性價比較高的Viterbi算法實現(xiàn)DHMM模型。Viterbi算法可以由如下公式描述[5]:

?啄t(i)=■p(s1,s2,…,st=si,O1,O2,…,Ot|?姿)

其中,?啄t(i)為被識別語音序列t時刻的最大概率密度;其中t時刻前經(jīng)過的語音狀態(tài)序列為s1,s2,...st,且t時刻狀態(tài)為si,對應輸出觀察符序列為O1,O2,...Ot。

4結束語

人類與計算機之間的交流的方式經(jīng)過了按鍵輸入、鍵盤輸入、手寫輸入以及觸摸輸入的階段,但這已經(jīng)不能滿足人們對于便捷、快速輸入的更高需求,而語音識別技術的發(fā)展和應用,使得人們看到了計算機輸入的未來趨勢。相信隨著電子技術和信號處理技術的進一步提高,語音輸入將會廣泛應用于各種計算機以及嵌入式設備中。

參考文獻:

[1]馬莉,黨幼云.特定人孤立詞語音識別系統(tǒng)的仿真與分析[J].西安工程科技學院學報,2007,(03).

[2]邢銘生,朱浩,王宏斌.語音識別技術綜述[J].科協(xié)論壇(下半月),2010,(03).

篇3

關鍵詞 語音識別;中文識別;人工分詞;控制系統(tǒng)

【中圖分類號】TP311 【文獻標識碼】A

【論文編號】1671-7384(2014)02-0069-03

引 言

計算機如今如此普及,計算機發(fā)展速度完全超乎想象。但目前為止,真正具備與人交流功能的電腦還不存在。有這樣一個圖靈測試——讓測試員與被測試者和一臺機器在隔開的情況下,通過一些裝置向被測試者隨意提問。問過一些問題后,如果測試人不能確認被測試者30%的答復哪個是人、哪個是機器的回答,那么這臺機器就通過了測試??上У氖?,如今情況下最好的成績是由俄羅斯專家設計的“葉甫根尼”電腦程序,也只是達到了29.2%。

語音,是人與人交流的一種手段,也是人類交流和交換信息中最便捷的工具。退而求其次,要做到通過圖靈測試,不如先讓電腦通過語音作為引信來幫人類做事情。為了充分闡述語音識別這套系統(tǒng)的原理,本文將小范圍重現(xiàn)語音識別原理。

對于語音識別之后,讓計算機去理解人的意思,不可缺少的就是將文字信息轉化為計算機能理解的內(nèi)容。把計算機比作一個人手中拿著一本象形文字對照手冊,身處上文說的圖靈測試的房子中。而另一人則在房間外向此房間發(fā)送象形文字問題。房間內(nèi)的人只需按照對照手冊,返回手冊上的象形文字答案即可。畢竟只需要讓計算機懂得我們的意思,并非讓計算機來幫我們?nèi)ニ伎?。因此,只要給予足夠多的“稿紙、筆”以及足夠大的“詞典”即可。

這次我們對系統(tǒng)的研究使用的是C語言,由于并沒有采用面向對象化的語言來編程,大部分程序使用的編程并沒有向“類”里面填充“方法”的概念。這套系統(tǒng)硬件開發(fā)、硬件編程采用的是51單片機來實現(xiàn),后期的處理則是在上位機通過鉤掛系統(tǒng)鉤子讀取內(nèi)存來實現(xiàn)。下面,我們將一步一步講述構建這個系統(tǒng)的過程。

平臺構建

如今,國外已經(jīng)有很多成品語音識別系統(tǒng),中文的語音識別控制系統(tǒng)也有很多的企業(yè)、教育科研機構在做相關的項目。不過這些研究卻依然停留在初級階段。因為中文是世界上最難學的語言,人來學習尚且如此,更何況人來教給機器去識別。

雖然如此,做語音識別首先要有一個平臺來去搭建中文語音識別系統(tǒng)。第一步要做的便是將聲音訊號轉化為電訊號。這里采用一個高阻抗麥克風,作為音源進行聲電轉化。通常的麥克風是三個端子輸出,分別是兩個信號源和一個接地端。大部分的麥克風兩個端讀入的是相同信號,少部分高品質的則讀入的是差分信號。

麥克風的輸入是毫伏級別,類似空氣聲、干擾波都會使得輸入的信號有噪波。因此,輸入的兩個端分別進行旁路電容濾波等操作,去除雜波。無源麥克風的輸入電壓過低,之后要將信號接入放大器,放大后的信號才能使得后續(xù)的操作中,模擬—數(shù)字信號轉換器獲得足夠被感應的信號強度。

理論上講,音頻信號可以看作周期信號,按照傅立葉級數(shù)定理可知,任何周期函數(shù)都可以用正弦函數(shù)和余弦函數(shù)構成的無窮級數(shù)來表示。因此,通過將音頻信號進行傅立葉級數(shù)展開,去除雜波頻段的波形即可得到優(yōu)質波形。

而實踐中,通過硬件操作步驟較為煩瑣,軟件分析需要時間較長,出于經(jīng)濟等方面因素考慮,本系統(tǒng)不采用傅立葉變換來實現(xiàn)識別音頻特性,而采用比較法取波形相似度等方式進行識別。

語音識別

上文中的信號經(jīng)過模擬—數(shù)字轉換器轉換成為了數(shù)字信號,接入處理器的IO接口線程中,此時,讀入的信號會通過地址總線和IO端口讀入。因此在硬件上,我們使用中斷程序來進行信號預處理。

軟件方面中斷程序部分,僅需要將讀入的IO數(shù)據(jù)以數(shù)組形式存放入內(nèi)存即可。

聲音有三要素:音高、響度、音色。讀入的信號即每個時間點的聲音感受器震動位置,我們可以通過電流接入到壓片陶瓷上來還原聲音,而如果我們要去分析音頻則需要對照三要素下手。

響度即聲波數(shù)組中的數(shù)值高低,為了讓聲波數(shù)組中的響度和預存的響度相同,我們通過統(tǒng)計整段中有效波形能量數(shù)值和與預存數(shù)組的能量數(shù)值做比例處理,使得響度和預存數(shù)組相近。

音高即聲音的頻率,頻率的定義是:單位時間內(nèi)完成振動的次數(shù),是描述振動物體往復運動頻繁程度的量。通過聲波數(shù)組尋找相鄰兩點是否為相反數(shù),即可尋找到過0點次數(shù)得到頻率。這時,時間段的頻率即可求出,間接可得到整段聲音的頻率。

我們發(fā)現(xiàn),對音高進行頻率化處理,同樣也需要對預存數(shù)組進行頻率化處理。因此,盡管我們可以去頻率化處理提高識別精度,但相比對音頻直接做響度匹配,所謂黑盒操作更易于分析和匹配。

漢語是由聲母和韻母組成的,通過五聲韻母和聲母匹配,即可收集有限個聲源。用這些聲源和預處理的聲音進行匹配,即可得出每個字的讀音。

上述的程序段只是匹配所需要的函數(shù),在外部需要循環(huán)來賦給數(shù)組對應指針位置才能實現(xiàn),在對比中,如何確定開頭是一個難點。因此需要對音頻數(shù)據(jù)的開頭做識別。在本系統(tǒng)中,采用讀取5個相鄰數(shù)據(jù),如果連續(xù)的峰值高于30且持續(xù)了超過25毫秒以上,則判定這個時間點為數(shù)據(jù)的開始。

在系統(tǒng)中,雖然我們采用了去除抖動的算法,但聲音音響處理過后,也會丟失一些精度,此處的算法若提高精度,則需要在前期處理做根據(jù)香農(nóng)采樣定理計算低通信道的最高大碼元傳輸速率,進而做精確的采樣以及還原,同時濾波采用更先進的算法來實現(xiàn),這里只實現(xiàn)采樣而不做精細討論。

人工分詞

中文,全世界有近20億的人在使用。然而,中文的語法是世界上無章可循的語法之一。古人云:“句讀之不知,惑之不解”,想要用中文交流,就必須知道如何斷句。這樣,才能正常地和人交流,才能清晰地理解對方的意思。

欲斷句,先斷詞。讓計算機來執(zhí)行控制,而計算機處理的卻是整個詞組。前面步驟已經(jīng)講述了如何將語音識別成一個個的單字,識別成一個個句子。但是中文并不像英文,說“我是一個學生”這句話的時候不會像“Iam a student”這樣中間有空格從而判斷詞組。這就需要我們對句子做一個特殊的處理——人工分詞。

以“我是一個學生”為例,人類來理解這句話,他的意思就是“‘我’的職業(yè)屬性是學生”。從這個例子可以看出,提取“是”這個動詞為關鍵字,便可以將前后轉變?yōu)橘x值表達式的形式“我->職業(yè)=學生”。

優(yōu)先提取出一句話的動詞,是分詞處理的關鍵。但并非每個動詞都可以這樣來操作,例如,“他鞠躬下臺”,很明顯“鞠躬”是個動詞,“下臺”也是一個動詞;如果按照上文中所述,“他->鞠躬=下臺”就會出問題。為了處理這個問題,我們引入現(xiàn)代漢語中及物動詞和不及物動詞的概念。將“鞠躬”、“下臺”這種不及物動詞和“打”、“吃”這樣的及物動詞分開。

當然,這需要字典來處理,借助現(xiàn)代科技的發(fā)展,一本電子版的現(xiàn)代漢語詞典就可以解決這個問題,通過詞庫來查詢每個詞語的意思,從而抽離出動詞。我們只需要設計不及物動詞代表動作即可,這樣就可以將信息存儲成“他->動作=鞠躬&下臺”。

若是英文,如此做便可以了。但上文說過,中文語法是世界上無章可循的語法之一。英文中設置了動詞字典基本上就處理了大部分問題??芍形闹袝霈F(xiàn)如下句子:“今天的比賽在大學生活動中心召開。”

人工模擬電腦來理解,副詞可以修飾形容詞、修飾動詞,用副詞來修飾試探:比賽可以“不比賽”不能“很比賽”,因此它不是形容詞,而是動詞,“我比賽你”這句話不通,因此是不及物動詞;“活動”和“召開”也是同理,是不及物動詞。因此這句話要理解成“今天->動作=比賽&活動&召開”。

但不能說“今天->動作=比賽&活動&召開”,很顯然這句話真正的意思是“比賽->地點=大學生活動中心”。出現(xiàn)這個問題,核心原因就是計算機沒有把“大學生活動中心”當作一個詞,任何一本字典都不會去收錄“大學生活動中心”這個詞。

在中文分詞中, 中科天璣出品了一套中文分詞系統(tǒng)架構,加載頭文件"ICTCLAS50.h"可以用頭文件定義的命令#pragma comment讀取它所提供的數(shù)據(jù)庫(lib,"ICTCLAS50.lib")

執(zhí)行過該程序段后,會將分詞結果以test.txt的形式保存在硬盤中。

結 語

做完人工分詞,基本上也就實現(xiàn)了讀取用戶所要達到的目的。這套系統(tǒng)貫穿底層到軟件層,如果有可能甚至需要設計到云端。雖然局部的測試沒有出現(xiàn)嚴重的錯誤,但由于時間原因,并沒有做綜合測試。

其中的一些理論和實踐銜接的地方還存在著不足,一些算法也存在著改進的空間,但這些問題終將在以后得到解決。也希望這套系統(tǒng)能在最后的實踐和發(fā)展中真正用于生活,從而提供更好的生活體驗,為人們體驗生活、享受人生做出貢獻。

基金項目: 本文系北京市自然科學基金項目(4132009);北京市屬高等學校高層次人才引進與培養(yǎng)計劃項目(CIT&TCD201304120);北京市教委科技計劃項目(KM201211232008)的研究成果。

參考文獻

何嘉. 基于遺傳算法優(yōu)化的中文分詞研究[D].電子科技大學,2012.

趙培. 中文語音識別結果文本分類的研究與實現(xiàn)[D].大連理工大學,2008.

曹衛(wèi)峰. 中文分詞關鍵技術研究[D].南京理工大學,2009.

龍樹全,趙正文,唐華. 中文分詞算法概述[J]. 電腦知識與技術,2009,10:2605-2607.

剛. 圖靈測試:哲學爭論及歷史地位[J]. 科學文化評論,2011,06:42-57.

譚超. 學習型中文語音識別系統(tǒng)研究及實現(xiàn)[J]. 電腦開發(fā)與應用,2012,04:35-37.

胡寶潔,趙忠文,曾巒,張永繼. 圖靈機和圖靈測試[J]. 電腦知識與技術,2006,23:132-133.

陳淑芳. 基于51單片機的教學實驗系統(tǒng)的設計與開發(fā)[D].中國海洋大學,2011.

張文國. 中文語音識別技術的發(fā)展現(xiàn)狀與展望[J].上海微型計算機,1998,35:46.

篇4

中圖分類號 TP393文獻標識碼 A文章編號 10002537(2014)03006306

雖然自動語音識別(ASR)系統(tǒng)的研究已投入了大量的人員和資金,但是它還不能夠像電話一樣,作為日常生活的一部分完整地融入到人們的生活當中.其中一個最主要的問題就是自動語音識別系統(tǒng)在噪聲和混響環(huán)境下,特別是二者混合環(huán)境下的識別性能過于低下[1].在大多數(shù)情況下,為獲得可接受的識別性能,只能依賴于麥克風陣列的使用,即通過使用大量按照特定位置放置的麥克風來獲取語音輸入和空間信息.大量的ASR研究,使用麥克風陣列得到方向增益,以改善噪聲與混響環(huán)境中獲取信號的質量;采用模式識別技術中的譜減法來消除噪聲和處理語音訓練集與測試集不匹配問題[2].

在日常應用中,普通用戶既不可能隨身攜帶麥克風陣列也不可能精確地放置它們.目前,日常使用的麥克風是與雙通道耳機相對應的,它能得到雙通道語音信號,卻不能得到復雜的空間信息.如果依然采用傳統(tǒng)的信號增強方法(例如廣義旁瓣抵消技術)來處理雙通道信號,以作為語音識別系統(tǒng)的預處理端,那么噪聲的消除反而會帶來無法接受的語音失真.

譜減法[3]作為另一種消除噪聲的技術,可以不依賴麥克風陣列獲取輸入信號,但是卻存在三大缺點:(1)噪聲估計誤差過大導致噪聲消除時語音失真;(2)增強后的語音中含有明顯的“音樂噪聲”;(3)混響未被處理.

為解決上述問題,本文基于雙聲道語音信號簡單的空間特性,綜合使用改進的廣義旁瓣抵消空間增強技術和改進的譜減法技術作為語音識別系統(tǒng)的噪聲消除和信號放大的預處理端,并基于HTK開發(fā)工具設計一個識別性能優(yōu)異的語音識別系統(tǒng).

1 系統(tǒng)描述

圖1 系統(tǒng)結構

Fig.1 System structure

圖1為本系統(tǒng)的整體構架.它由空間增強、譜減法模塊和自動語音識別模塊3個主要部分構成.

1.1 空間增強模塊

因為空間線索是語音識別的主要部分和遠場麥克風語音識別的組織焦點,在該ASR系統(tǒng)中,采用PASCAL “CHiME”[4]組織提供的雙通道含噪語音信號,利用該信號簡單的空間特性可以得到表現(xiàn)優(yōu)異的噪聲估計.

有許多經(jīng)典的使用麥克風陣列的方法來放大目標信號,例如通過延遲求和方式的波束形成,自適應噪聲消除(ANC)以及獨立成分分析(ICA).它們使用麥克風陣列得到方向增益,以改善在噪聲與混響環(huán)境中獲取信號的質量.

1.2 噪聲消除模塊

通常的ASR系統(tǒng)在處理含噪信號時性能大幅度下降,因此,噪音消除是該系統(tǒng)中常見且必須的組成部分.當前主流的噪聲消除技術可以分為3大部分.(1)使用時域濾波技術,例如維納濾波和自適應濾波;(2)嘗試還原原始語音譜的譜還原技術,例如譜減法[5]和參數(shù)減法;(3)為增強語音結構,有許多基于語音模型的噪聲消除技術,例如基于諧波模型的噪聲消除.然而,使用這些技術來獲得噪聲衰減和信噪比的改善,往往會造成語音失真.通常,越干凈的噪聲消除會導致越嚴重的語音失真,因此,研究設計一個針對復雜聲學環(huán)境的ASR系統(tǒng),在語音失真和噪聲消除之間尋找一個平衡點,是非常重要的工作.

1.3 識別系統(tǒng)自適應

通過一些經(jīng)典的空間濾波和噪聲消除技術來處理麥克風陣列在真實環(huán)境中獲取的聲音信號,較直接采集含噪聲音,具有更好的聽感知質量.但是無論系統(tǒng)設計多么完備,獲得的加強聲音中依然會有噪聲殘留和語音失真的問題存在,它們能被正常人輕易的接受和識別,但是目前的ASR系統(tǒng)卻不具備這樣的能力.當前幾乎所有的ASR系統(tǒng)都采用模式識別技術,當測試數(shù)據(jù)集接近訓練數(shù)據(jù)集時,能夠得到非常高的識別精確度.但是噪聲殘留和語音失真會導致測試數(shù)據(jù)集完全不同于“干凈”的訓練數(shù)據(jù)集,訓練和測試不匹配的問題會直接導致ASR系統(tǒng)識別率的降低.

為解決這些問題,前人提出許多的方法,例如模型再訓練和自適應,特征變換和歸一化[67],建立環(huán)境模型和模型特征一體化技術將之使用在自動語音識別模塊上,能起到良好的效果.

綜合考慮到對上面所述三部分的分析,所有的模塊都應該整合為一體,只有通過良好的語音信號預處理和完善的識別系統(tǒng)自適應,才能構架一個更優(yōu)異性能的ASR系統(tǒng).

2 系統(tǒng)設計

本文提出一個簡潔而具有高魯棒性的針對CHiME問題的ASR系統(tǒng).首先,依據(jù)雙通道信號的空間信息增強它們,然后采用改進的譜減法獲得增強信號,作為ASR系統(tǒng)的輸入,最終得到識別結果和關鍵詞準確率.

2.1 改進的空間增強

由于存在混響問題,使用傳統(tǒng)方法得到雙通道信號的空間信息的有效內(nèi)容非常困難.另外,如果采用傳統(tǒng)的信號增強方法,例如基于廣義旁瓣相消(GSC) 的波束成型,作為ASR系統(tǒng)的前端,那么噪音消除會帶來語音失真[8],會極大地降低ASR系統(tǒng)的識別性能.語音失真是由GSC多路輸入抵消器(MC)的窄帶自適應濾波器導致的,它既無法良好地消除噪聲,同時還消耗昂貴的計算資源.

圖2 空間增強

Fig.2 Spatial enhancement

本ASR系統(tǒng)的前端,利用雙通道語音信號的優(yōu)勢,移除了典型GSC里的MC模型,使得在空間濾波的同時盡量避免語音失真和降低計算負擔(圖2).該模塊的主要任務是提取參考噪聲,而不再進行噪聲消除.

4 結論

本文針對語音識別這一交叉性強的學科,打破傳統(tǒng)的語音識別系統(tǒng)局限于利用有限的技術,不斷挖掘技術潛力,來達到提高性能的研究模式,提出了一種全新的綜合性構架,并取得了實質性的成效;考慮到人類聽覺的生理情況,結合空間增強層得出的無目標語言的參考噪聲,對譜減法模塊做了積極的改變.將去除噪聲操作從空間增強層移動到了效率更高的譜減法層,將噪聲估計移動到空間增強層,使得整個系統(tǒng)的分工更加明確,以降低耦合,提高魯棒性;使用了倒譜均值歸一化實現(xiàn)標準39維梅爾倒頻譜系數(shù),為語音識別模塊加入基于最大后驗概率的自適應訓練,提高了訓練效率和系統(tǒng)整體性能.

參考文獻:

[1] 宋志章,馬 麗,劉省非,等.混合語音識別模型的設計與仿真研究[J].計算機仿真, 2012,29 (5):152155.

[2] HIRSCH H G, PEARCE D. The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions[C]//ASR2000Automatic Speech Recognition: Challenges for the new Millenium ISCA Tutorial and Research Workshop (ITRW). Paris, France, 2000,9:1820.

[3] 張 滿,陶 亮,周 健.基于實值離散Cabor變換的譜減法語音增強[J].計算機工程與應用, 2012,48(29):109113.

[4] BARKER J, VINCENT E, MA N, et al. The PASCAL CHiME speech separation and recognition challenge[J]. Computer Speech Language, 2013,27(3):621633.

[5] BOLL S. Suppression of acoustic noise in speech using spectral subtraction[J]. Speech and Signal Processing, IEEE Transactions, 1979,27(2):113120.

[6] HERMANSKY H, MORGAN N. RASTA processing of speech[J]. Speech and Audio Processing, IEEE Transactions, 1994,2(4):578589.

[7] CHEN C P, BILMES J, ELLIS D P W. Speech feature smoothing for robust ASR[C]//2005 IEEE International Conference on Acoustics, Speech, and Signal Processing: Proceedings: March 1823, 2005.

[8] BRANDSTEIN, MICHAEL, DARREN WARD. Microphone arrays: signal processing techniques and applications[M]. New York: Springer, 1996:2075.

篇5

隨著科技的發(fā)展,人們的操作模式從最初的按鍵操作到觸屏操作,再到現(xiàn)在的語音操作,其越來越便捷,越來越人性化。語音操作的基礎就是語音識別技術(Automatic Speech Recognition),簡稱ASR,其目標就將人類語言轉換為計算機可讀的輸入。語音識別作為一門交叉學科,從產(chǎn)生到現(xiàn)在已取得了顯著的進步,現(xiàn)在已逐步走向市場,并且人們預計,語音識別技術在未來10年將會應用于人們生活的各個領域。

根據(jù)發(fā)音人的不同,語音識別技術可分為特定人語音識別和非特定人語音識別兩類,前者只能識別一個或幾個人的語音,而后者則能被任何人使用。本文設計的多鼉壩鏌羰侗鶼低塵褪粲詵翹囟ㄈ擻鏌羰侗鷲庖煥啵其以嵌入式微處理器STM32F407為核心,采用ICRoute公司的LD3320語音識別芯片,并配以存儲空間為16M字節(jié)的W25Q128芯片,能夠實現(xiàn)2000個場景共計識別句100000條的語音識別操作。

1 系統(tǒng)整體結構

如圖1所示,整個系統(tǒng)主要是由STM32F407處理器、LD3320語音識別芯片以及W25Q128Flash芯片構成。其中STM32F407處理器用于切換場景和場景關鍵詞更改;LD3320語音識別芯片用于語音識別,W25Q128Flash芯片用于存識別句,兩種都是通過SPI總線與處理器相連。整套系統(tǒng)與外部其他系統(tǒng)則是通過串口進行通信。

2 系統(tǒng)硬件介紹及存儲空間設計

2.1 系統(tǒng)硬件介紹

2.1.1 STM32F407ZGT6處理器

STM32F407ZGT6采用Cortex_M4內(nèi)核,集成FPU和DSP指令,具有192KB SRAM、1024KB FLASH、3個SPI、6個串口等。基于其強大的配置,所以本系統(tǒng)的處理器選用該芯片。

2.1.2 LD3320語音識別模塊

LD3320語音識別模塊是ICRoute公司的一款產(chǎn)品,其特有的快速而穩(wěn)定的優(yōu)化算法,能夠完成非特定人語音識別,識別準確率高達95%。該模塊每次最多可以設置50條候選識別詞或識別句,只要單個詞或句長度不超過10個漢字和79字節(jié)的拼音串,同時我們可以對識別內(nèi)容動態(tài)編輯。模塊的通訊方式有并行和串行兩種,根據(jù)需求的不同可以選擇不同的通訊方式。除了語音識別這一功能之外,模塊還支持MP3播放功能,只要MCU將MP3數(shù)據(jù)依次送入芯片,就能夠從芯片的PIN引腳輸出聲音。

2.1.3 W25Q128Flash芯片

W25Q128是華邦公司推出的大容量SPIFLASH產(chǎn)品,容量為128Mbit,即16M。該芯片將16M空間分為256塊,每塊64KB,每塊又分為16個扇區(qū),每個扇區(qū)4KB。由于W25Q128的最小擦除單位為一扇區(qū),也就是說每次擦除4KB。

2.2 存儲空間設計

由于W25Q128芯片每次擦除的單位為4KB,而每句識別語句至少有80字節(jié),一個場景有50句識別語句,所以一個扇區(qū)用于一個場景是不夠的,因此我們將兩個扇區(qū)劃為一個場景;圖2是單個場景數(shù)據(jù)存儲關系圖,圖中每個場景占8192字節(jié),每條識別語句占100個字節(jié),其中第一個字節(jié)為識別語句編號,范圍為1-50;單個場景的第一個扇區(qū)可以存儲40條識別語句,第二個扇區(qū)可以存儲10條識別語句,其中第4000B-4096B和5096B-8190B保留,不存儲數(shù)據(jù),整個場景的最后兩個字節(jié)用于存儲場景編號,范圍為1-2000。W25Q128共有4096個扇區(qū),理論上可以劃分2048個場景,但是我們只劃分2000個場景,也就是4000個扇區(qū);還剩下96個扇區(qū),剩下的第1-50扇區(qū)用于存放每個場景的相關信息,計算可以得到每個場景有1KB的存儲空間,然后我們將最后一個扇區(qū)的最后兩個字節(jié)存儲現(xiàn)在所在場景編號,剩下的空間保留。

3 系統(tǒng)軟件設計

3.1 通訊協(xié)議格式設置

整個系統(tǒng)主要具有場景切換和場景識別語句存取功能,表1是部分對應協(xié)議格式。

3.2 初始化函數(shù)及操作函數(shù)介紹

STM32處理器與其他各個模塊建立通信連接,除了連接好對應IO口后,還需要對各個IO進行初始化,這樣才能進行數(shù)據(jù)的收發(fā),以下是主函數(shù)中相關初始化函數(shù):

NVIC_PriorityGroupConfig(NVIC_PriorityGroup_2);//首先設置系統(tǒng)中斷優(yōu)先級分組

delay_init(168); //初始化延時函數(shù)

LED_Init();//指示燈初始化

KEY_Init();//按鍵初始化

IWDOG_Init();//看門狗初始化

USART1_Init(9600);//初始化串口1

W25QXX_Init();//W25Q128初始化

LD3320_Init();//LD3320初始化

while(W25QXX_ReadID()!=W25Q128) //檢測是否存在W25Q128

{

LED0=!LED0; //如果檢測不到W25Q128指示燈1會不停閃爍

篇6

中圖分類號:TN912.34 文獻標識碼:A 文章編號:1007-9599 (2012) 11-0000-02

隨著人們對人機交流技術的要求越來越高,語音識別技術應運而生。語音識別是將語音信號轉換成相應文本的高技術,是一種重要的人機交互技術[1]。在近二十年,越來越多高水平的研究機構和企業(yè)加入到語音識別的研究領域,并開始向市場上提品。其中具有代表性的產(chǎn)品有微軟的Whisper系統(tǒng),Google的Word Search系統(tǒng),蘋果的Siri系統(tǒng)等。

語音識別最重要的性能指標就是識別率,而識別率十分依賴特征參數(shù)的訓練和識別模型。常用的模式匹配和模型訓練技術主要有動態(tài)時間歸整算法和隱馬爾可夫算法。文中就這兩種算法特點進行了分析和改進,對基于改進后的算法建立的語音識別系統(tǒng)進行了性能評估和對比。

一、語音識別算法

(一)動態(tài)時間歸整算法

發(fā)音具有隨機性,同一個人在不同時間,不同場合對同一個字的發(fā)音長度都不是完全一樣的。在語音識別的模版匹配中,這些長度不一的發(fā)音將降低系統(tǒng)的識別率。為了解決這一問題,我們引入動態(tài)時間歸整算法(Dynamic Time Warping,DTW)。在語音識別中,DTW算法是較早出現(xiàn),較為經(jīng)典的算法,它是基于動態(tài)規(guī)劃(DP)的[2]。

提取參考語音信號的特征參數(shù)存入特征模板庫建立參考模板,提取待識別語音號的特征參數(shù)建立測試模板。DTW算法就是計算參考模板和測試模板各幀矢量之間的距離之和,總距離越小說明相似度越高,最后選取最小的總距離作為匹配結果。

這種識別算法雖然較為簡單、有效,但是計算量大,存儲空間占用多,響應時間長。因此,文中對該算法進行改進,以避免以上缺點。

改進后的DTW算法將歸整函數(shù)限制在一個平行四邊形中(其中兩條邊的斜率為1/2,另外兩條邊的斜率為2)。在計算總距離時只需計算平行四邊形之內(nèi)各交點的匹配距離和累積距離,這樣減少了計算量,提高了系統(tǒng)的反應速度,節(jié)省了存儲空間。

(二)隱馬爾可夫算法

隱馬爾可夫模型是在馬爾可夫鏈基礎上發(fā)展起來的一種語音信號統(tǒng)計模型,自從用來描述語音信號后,該模型迅速發(fā)展,使得HMM理論逐漸成為語音研究中的熱點,語音識別的主流技術。

隱馬爾可夫模型HMM是一個雙重隨機過程,一重是可直接觀測的馬爾可夫鏈,用于描述狀態(tài)的轉移;另一重是隱含在觀察序列中的隨機過程,用于描述狀態(tài)和觀察值之間的統(tǒng)計對應關系。

將HMM用于語音識別系統(tǒng)前,必須解決三個基本問題[3]:

1.模型評估

已知一個觀察序列和一個HMM模型,如何計算由此模型產(chǎn)生此觀察符號序列的輸出概率。

2.最優(yōu)狀態(tài)序列搜索

已知一個觀察序列和一個HMM模型,如何確定一個最佳狀態(tài)序列,使之產(chǎn)生的觀察序列的概率最大。

3.模型訓練

已知一個觀察序列和一個HMM模型,如何根據(jù)觀察序列來確定模型的參數(shù)。

針對以上三個問題,可分別用前向-后向算法,Viterbi算法和Baum-Welch算法改進,改進后的HMM算法較傳統(tǒng)算法在識別率方面有了明顯的提高。

(三)算法比較

基于模版匹配技術的DTW算法和基于隨機過程理論的HMM算法是比較有代表性的孤立詞識別算法。DTW算法應用動態(tài)規(guī)劃的方法解決了語音信號特征參數(shù)序列時間對準問題,克服了語速的差異。DTW算法適用于訓練樣本較少的情況下,訓練過程簡單,識別過程較復雜,多用于特定人孤立詞語音識別系統(tǒng)。

HMM算法HMM運用狀態(tài)序列描述觀測向量的時間邏輯,通過多變量混合高斯分布表現(xiàn)觀測向量序列的空間分布[4]。為了獲得高識別率,HMM算法需要大量的訓練樣本和存儲量,訓練過程要耗費較多時間,識別過程較簡單,多用于連續(xù)大詞匯量語音識別系統(tǒng)。

二、系統(tǒng)設計實現(xiàn)

語音識別系統(tǒng)由預處理、特征提取、模型庫和模式匹配等四個基本單元構成。系統(tǒng)的基本結構如圖1所示:

(一)預處理

通過話筒將語音信號變成電信號輸入到語音識別系統(tǒng)中。首先對信號進行一系列的預處理,包括采樣、量化、加窗、端點檢測、預加重等。

采樣和量化就是將離散信號分別在時間上和幅度上轉化成離散形式。為了濾除低頻干擾,提升信號高頻部分,對信號進行預加重處理。由于系統(tǒng)對信號的處理都是以短時為前提的,這就要將信號分割成許多語音段,即對語音信號分幀、加窗處理。原始語音信號往往包含無音段和有音段,端點檢測就是運用數(shù)字處理技術來判斷各語音段的起點和終點,從而找到有用的語音成分。文中使用基于短時能量和短時平均過零率的檢測方法判定語音信號的起始點和終止點,即雙門限比較法。

(二)提取特征參數(shù)

經(jīng)過預處理的語音信號中并不是所有信息都是有用的,這就需要將語音信號經(jīng)過一次變換,去掉冗余部分,提取代表語音本質的特征參數(shù)。文中采用近年來運用比較廣泛的Mel頻率倒譜參數(shù),先將頻譜轉變?yōu)槊罓栴l標的非線性頻譜,接著再轉換到倒譜域上[6]。MFCC參數(shù)充分考慮了人耳的聽覺特性,有很高的穩(wěn)健性和抗噪性能。

篇7

市場變化提出新需求

搬遷至新物流中心

神田業(yè)務支持公司成立于1974年,當時與長崎屋合資,主要負責服裝配送。該公司在日本最早引進了大型托盤輸送機,曾一時成為業(yè)界熱議的話題。2002年,3家分公司合并后統(tǒng)一命名為神田業(yè)務支持公司。

公司現(xiàn)任總經(jīng)理吉林正和先生當時已經(jīng)進入公司,他回顧公司的發(fā)展歷程時說:“30多年來,公司經(jīng)營的物流業(yè)務幾乎都集中在服裝領域,因此積累了豐富的服裝物流經(jīng)驗。近些年,公司的物流設施及分揀設備等已開始老化,為此建設了新的物流中心。同時,為適應客戶新的需求,我們準備配送服裝以外的貨物,因此決定引進語音識別系統(tǒng)?!?/p>

目前,習志野物流中心處理的貨物以服裝為主,同時也負責配送鞋類以及其他日用品,據(jù)說已接到約20家客戶的業(yè)務委托。物流中心根據(jù)客戶訂單的要求進行分揀、貼標簽等操作,然后向全國配送。

服裝類商品主要來自中國大陸及臺灣、越南等地,平均每天發(fā)送10萬件左右,需要投入包括物流中心職員和小時工在內(nèi)的50~60人從事物流作業(yè),并根據(jù)業(yè)務量進行靈活調(diào)整。

適應市場變化

在公司的舊址茜浜,倉庫內(nèi)的主要設備除了大型托盤輸送機外,還有自動分揀機。如果要繼續(xù)使用這些設備,物流中心一層需要擁有2310平方米的面積,并且老化的設備也需要大筆資金進行維修,如此看來實屬浪費??梢哉f,繼續(xù)使用大型設備的外部條件發(fā)生了變化。

自動分揀機每小時的處理能力達2000件,這是人工作業(yè)望塵莫及的。如果不使用分揀機,根本不可能達到2000件/小時的處理能力,那么其他設備也都會閑置下來,其結果將是物流中心無法應對市場的變化。

神田公司經(jīng)營策劃室的松尾健太郎科長談到:“考慮公司業(yè)務范圍的變化,我們的方針是保證低成本的同時,新系統(tǒng)要能夠應對市場的變化。”

這個新系統(tǒng)就是“語音識別系統(tǒng)”。

選擇語音識別系統(tǒng)

耳、眼、手、口總動員

吉林總經(jīng)理談到:“在建設新物流中心時,神田面臨的最大問題是建設資金,因此我們要控制初期投資。如果使用自動分揀機,至少需要2~3億日元的資金,但我們的總預算只有1億日元。而且還要求必須保證訂單的交付時間。最終,我們選擇了語音識別系統(tǒng)?!?/p>

除軟件外,新物流中心引進的設備只有掛在腰間的便攜式終端和耳機,共25套。包括基礎系統(tǒng)改造在內(nèi),總投資共6000萬日元。

實際上,神田公司從幾年前就已開始研究語音識別系統(tǒng),只不過一直沒有對外公開。

新物流中心處理的貨物仍以服裝為主。通常,以箱(盒)為包裝的物品是很容易處理的,數(shù)量統(tǒng)計也不易出錯。但服裝往往裝在塑料袋中,既薄又輕,進行揀選操作時,如果工作人員一只手拿著無線終端,另一只手拿著塑料袋,不容易讀取條碼標簽,又容易數(shù)錯數(shù)量。此外,服裝的一大特點是顏色、規(guī)格多,SKU多,因此,如果使用手持終端進行操作將非常費力。

現(xiàn)在使用語音識別系統(tǒng),終端掛在腰間,解放了雙手,操作人員可以用雙手完成揀選作業(yè)。操作人員通過耳機得到系統(tǒng)指令的同時,可以立即回應,而不需要“看明細”、“按開關”的動作,能夠集中精力進行揀選。

松尾科長說:“過去,物流現(xiàn)場的操作在很大程度上依賴于‘眼睛’,所有終端和明細單都必須用眼睛來判斷,如果看錯了。就會直接導致發(fā)錯貨?,F(xiàn)在有了語音識別系統(tǒng),其最大的魅力就是通過‘聽’接受指令,用‘眼’和‘手’來確認,用‘說’來回應,讓兩手同時工作。這就是感覺器官的總動員。由此帶來工作準確率和效率的大幅提高。”

這也是神田公司選擇語音識別系統(tǒng)的初衷。

語音揀選解決方案在世界的發(fā)展

回顧歷史,在上世紀90年代,日本有幾家公司曾引進過語音識別系統(tǒng),但由于當時的識別能力有限,結果半途而廢。之后,經(jīng)過改良的語音識別系統(tǒng)再度登場,尤其是在歐美物流界頗受歡迎,其中VOCOLLECT公司開始嶄露頭角。

特別值得一提的是,世界零售巨頭沃爾瑪把語音識別系統(tǒng)作為標準化配置的系統(tǒng),在其世界各地的物流中心都在使用。早在3年前,日本國內(nèi)的沃爾瑪旗下的西友?三鄉(xiāng)物流中心業(yè)也已引進了VOCOLLECT的產(chǎn)品。

此后,眾多經(jīng)銷商的市場拓展行動終于開啟了語音揀選的世界市場之門。VOCOLLECT公司于2006年成立了VOCOLLECT日本分公司,同時在東歐、南美也逐漸打開市場,目前年銷售額近100億日元,占世界同行業(yè)銷售的80%。

承擔神田公司語音系統(tǒng)建設項目的日本優(yōu)利公司售后服務事業(yè)部矢島孝安部長說:“人們往往認為只憑借聲音并不十分可靠,但VOCOLLECT的產(chǎn)品解決了這一難題。其識別系統(tǒng)和硬件設備組成了堪稱完美的系統(tǒng)?!?/p>

VOCOLLECT產(chǎn)品的特性

VOCOLLECT日本分公司總經(jīng)理塞薩爾?西森介紹說,市場上的其他產(chǎn)品大多是把幾家公司的終端和軟件組合在一起,而VOCOLLECT則根據(jù)物流現(xiàn)場的實際需要,從硬件到軟件都是自主研發(fā)的,具有非常實用的語音識別功能,能夠用日語應答就是其一大特色。

如何確保語音識別的精度是使用中的關鍵問題。塞薩爾?西森總經(jīng)理認為,要提高語音識別的精度是有前提的。語音識別的基本條件是“指定說話人”和“不指定說話人”,在日本,其他公司都選擇了“不指定說話人”,唯獨VOCOLLECT公司選擇了“指定說話人”。塞薩爾?西森總經(jīng)理指出,在被噪音環(huán)繞的物流和生產(chǎn)現(xiàn)場,“不指定說話人”的方式存在很多問題。

“不指定說話人”即任何人的聲音都可能被確認。因為它忽略了每個人聲音的差異,那么其識別能力自然低下,特別是在噪音大的場所,附近幾個人同時作業(yè),如果別人的聲音一旦被確認。必將出現(xiàn)差錯。

VOCOLLECT公司的“指定說

話人”的方式,是根據(jù)每個人所發(fā)出的聲音的頻率而設定的,具有聲音識別功能。這在很大程度上提高了識別精確度。在實際操作中,只要改變用戶名、輸入ID號,就能夠直接調(diào)出所需的信息,因此在登錄系統(tǒng)后,其他工作人員也可以使用。

當然。每個工作人員初次登錄時,都需要經(jīng)過多次練習,登錄加練習的時間大約在20-30分鐘。因為設有語音矯正功能,經(jīng)過幾次練習,工作人員就可以熟練掌握。

此外,終端設備的堅固性也非常突出,即使跌落地面,或被踩、被壓,都能保持完好無損。這給工作人員帶來安全感,可以全神貫注地投入揀選工作。

構建并起用系統(tǒng)僅耗時3個月

神田公司選擇日本優(yōu)利推薦的VOCOLLECT公司的語音識別系統(tǒng)之前,已對該系統(tǒng)的結構和實用性做了全面、細致的調(diào)查和論證。

吉林總經(jīng)理說:“因為我們是首次使用語音識別系統(tǒng),因此必須進行全面的考察。在考察3家日用品批發(fā)商使用該系統(tǒng)的效果時,我們發(fā)現(xiàn)該系統(tǒng)不僅能用于分揀,還能用于盤點。這也是我們選擇它的一個重要原因。事實證明這個系統(tǒng)是完美的?!?/p>

接下來的系統(tǒng)設計,神田公司僅給優(yōu)利公司和VOCOLLECT公司3個月時間。在此期間,神田為了讓員工盡快進入狀態(tài),在現(xiàn)場進行實地演示。2008年8月15~16日,公司在搬遷的同時安裝新系統(tǒng),18日就開始正常發(fā)貨了。

下面介紹語音識別系統(tǒng)的實際應用。

貨物初次分揀

1、2、總體分類

語音識別系統(tǒng)主要應用于服裝的發(fā)貨流程。

圖1、圖2是位于物流中心二層的存儲區(qū)。每天上午,操作人員根據(jù)發(fā)貨指示,首先進行總體分類,即把當天需要發(fā)的貨按款式分別集中在臺車上的紙箱中。這里的揀選作業(yè)是對照產(chǎn)品明細進行的。

3 二次分揀

在相鄰的揀選區(qū),貨物按照店鋪別進行分揀。在圖3中,左邊是使用手持終端進行掃描,右邊是使用語音識別系統(tǒng)進行揀選。

4、5手持終端+輸送機

總體分類完成后,把紙箱放到輸送機上,按發(fā)貨店鋪的不同,用手持終端逐一進行掃描。

因為每件貨物和產(chǎn)品明細都要進行掃描,因此排除了款式錯誤的可能。但因為是單手作業(yè),尤其對于較薄的服裝,產(chǎn)品數(shù)量容易弄錯。偶爾也會發(fā)生無法讀取條碼標簽的情況,或者標簽被翻轉放置,此時操作起來相當費力。

6、7、臺車+手持終端

圖6是臺車分揀區(qū)。臺車底層放置了4個空周轉箱用于調(diào)節(jié)高度,上層的4個周轉箱分別代表4個店鋪,操作人員同時處理4家店鋪的貨物,操作非常快捷。當然。通道,必須留有足夠的寬度,以保證臺車通過。

使用語音識別系統(tǒng)進行揀選

8~11 語音識別揀選

前面提到的輸送機傳送來的周轉箱到達此處,按照發(fā)貨店鋪的不同依次進行揀選。此時操作人員通過耳機接收指示,用麥克進行回應,在“是”、“下面”的應聲中進行分揀作業(yè)。不僅雙手可同時操作,并且不需要看手持終端顯示的數(shù)據(jù),只需用眼睛確認發(fā)貨明細上的代碼即可。

操作人員聽到的是什么樣的指示呢?是商店代碼、貨物代碼以及揀選的數(shù)量等,速度很快,聽到指示后必須立刻做出回應。按照操作人員的話說:“聲音的節(jié)奏逐漸變快,我們已經(jīng)習慣了這樣的速度?!庇捎诿總€人的聽力和反應速度存在差別,物流中心根據(jù)這一差別安排操作人員的崗位。

操作人員做出回應后。下面的指示隨即就到。在這種快節(jié)奏中,幾乎沒有等待指示或閑下來的時間。

塞薩爾?西森總經(jīng)理說:“如果是使用手持終端,必然存在等待指令的時間。使用語音識別系統(tǒng)后,節(jié)省了操作時間。一旦有空閑的時間,操作人員反而會不習慣。”

VOCOLLECT的設計中包含了勞動心理學原理,因為操作人員的腰間攜帶了便攜終端,每個人可以調(diào)節(jié)適合自己的速度。

系統(tǒng)投入使用后,操作人員的熟練程度不斷提高,人均處理能力由原來每小時200~300件提高到500~700件。

此外,夏裝和冬裝有所不同,操作效率也存在差別,但結果卻比預期提高了50%。

12、13、不同商店的發(fā)貨明細及標簽

根據(jù)語音指令做好的發(fā)貨明細上,標有貨物代碼和商店代碼,暫時貼在貨箱的外面(圖12),待貨箱裝滿后,再把發(fā)貨明細放入箱中,然后把箱子放到輸送機上。

14、檢驗

通過語音識別系統(tǒng)揀選的貨物。因為沒有讀取條形碼,因此在包裝前需要檢查一遍。數(shù)量少時只要確認條形碼即可,數(shù)量多時全部都要進行檢驗。

15、無線傳輸

通過2.4GHz的無線電波頻率,無線終端與服務器聯(lián)網(wǎng)后,進行數(shù)據(jù)交換。

16、充電

在辦公室一角的架子上,放置了25臺充電器,以便為終端進行充電。每次的充電過程需要8小時。

17、語音系統(tǒng)的管理

在同一辦公室內(nèi)設置了語音系統(tǒng)的管理器。畫面上顯示的是神田公司的WMS與合作公司VOCOLLECT的管理過程。

貼標簽、包裝、發(fā)貨

18、19、貼價格標簽、過檢針

貼價格標簽、過檢針的操作也在物流中心二層完成。

20、21、搬運發(fā)貨箱

貨箱打包完畢后碼盤,托盤貨物用叉車搬到垂直輸送機,送往一層出貨區(qū)。

22、23、裝車

在出貨口,貨物裝上卡車,送到各店鋪。

目前,像這樣成功應用語音識別系統(tǒng)的案例在日本還不多見。吉林總經(jīng)理對于初次引進語音識別系統(tǒng)是這樣評價的:對于習慣了以往傳統(tǒng)分揀方法的操作人員來講,他們完全沒有不適應的感覺,反而更喜歡現(xiàn)在極富節(jié)奏感的作業(yè)。

篇8

中圖分類號:TN912.34

當噪音引起連續(xù)語音信號失真時,提取的連續(xù)語音特征曲線也會在時域和頻域內(nèi)失真[1]。如果用帶噪特征去匹配純凈語音的特征模型,會造成帶噪特征與模型之間的不匹配,這就導致了識別率的下降。

在連續(xù)語音識別中為了減少上述不匹配的問題,有三種主要解決技術。一是多條件或者多類型的訓練方法,也就是使用帶噪數(shù)據(jù)來進行訓練[2]。雖然這個方法能夠在特定的噪音環(huán)境下可以得到較好的識別精度,但是如果噪音環(huán)境發(fā)生變化識別精度還會急劇的降低。換言之,如果待識別數(shù)據(jù)與模型數(shù)據(jù)的條件(環(huán)境)不同,如:信噪比或者噪聲類型,在待識別數(shù)據(jù)和模型之間仍會存在不匹配的現(xiàn)象。二是采用自適應模型方法[3],通過自適應模型來減少不匹配的問題。這種訓練模型方法同時使用純凈和噪音數(shù)據(jù)來進行訓練,這又會導致模型的區(qū)分度不高,同樣會是識別精度下降。三是采用特征歸一化方法,這種方法雖然不能從根本上改變待識別特征與模型之間的不匹配,但是在一定程度上會保留模型的區(qū)分度并減少由于環(huán)境變化導致帶噪語音失真的影響。本文主要研究第三種方法。

語音增強和特征補償方法以恢復語音特征為目的,但是特征歸一化方法只是對語音特征的某些統(tǒng)計信息進行改變,并期望由此減少噪聲引起的失真。不論是語音補償還是特征補償,都需要改變語音的特征向量,而傳統(tǒng)的歸一化方法只是對語音特征統(tǒng)計信息的范圍進行處理,提出的算法在保證原有語音統(tǒng)計信息的前提下,適當改變部分語音特征向量。從而減少由噪音引起的語音特征曲線的失真。

動態(tài)范圍調(diào)整方法屬于歸一化方法的一種,能夠對干凈和帶噪語音的特征統(tǒng)計信息處理到相對較小的一個范圍內(nèi)。歸一化方法能夠根據(jù)一些模板值減少噪音特征在統(tǒng)計信息上的影響。相比使用歸一化方法之前,在干凈語音特征和帶噪語音特征之間的不匹配部分會顯著減少。語音增強一般應用在時域和頻域中恢復語音特征的質量。特征補償方法通常應用在加強連續(xù)語音系數(shù)在對數(shù)濾波階數(shù)和頻譜域使用。

減少待識別語音特征和模型的不匹配的方法雖然不是提高語音識別魯棒性的唯一方法,但卻是一種很有效的方法。通過這種方法可以減少待識別特征和模型之間的不匹配使得識別性能得以提高。

1 噪音對孤立詞語音數(shù)據(jù)的影響

加法性噪音和乘法性噪音是影響語音信號最普通的兩種噪音類型。例如:加法性噪音包含背景噪音,交通噪音,等等。乘法性噪音主要是傳輸過程中產(chǎn)生的信道失真。例如麥克風自身的噪音,房間的反射噪音等等。干凈的語音信號首先被信道失真所干擾,進一步被加法性噪音干擾。

包含噪音的頻譜可以用如下公式描述:

噪音干擾在增益部分和直流分量部分的影響是不同的,如圖1所示:在孤立詞識別中,很多實驗表明使用DRA方法對加法性噪音和乘法性噪音都具有很好的性能。

圖2展示了噪音影響在孤立詞中的性能。在圖2中,有兩條不同的特征曲線,曲線表示了干凈語音和10db信噪比的噪音特征在第二項MFCC中。者兩條曲線來源于同一個語音數(shù)據(jù)。

然而,由于噪音嚴重的影響,噪音下的MFCC特征曲線的動態(tài)范圍要小于干凈語音的MFCC特征曲線的動態(tài)范圍。如果使用干凈語音特征建立HMM訓練模型,能夠獲得理想的模型并在同等條件下獲得更高的識別率。但是對噪音下的語音識別,由于上述的原因,自動語音識別系統(tǒng)無法在任何噪音下獲得正確的識別結果。雖然DRA歸一化方法能夠在孤立詞識別中獲得較好的識別結果,但直接用于連續(xù)語音識別并不是特別的理想。

圖2展示了在孤立詞中不匹配的峰值。DRA歸一化方法算法使用最大值的方法將頻譜系數(shù)范圍標準化到一個統(tǒng)一的范圍。在每個維度,DRA方法將干凈或者帶噪語音頻譜系數(shù)的動態(tài)范圍調(diào)整到同一個標準范圍中。但在孤立詞識別中,特征曲線中的峰值是有限的。歸一化方法非常適用于孤立詞識別。而連續(xù)語音識別特征曲線的峰值要遠多于孤立詞識別,歸一化方法并不直接適用。

2 噪音對連續(xù)語音數(shù)據(jù)的影響

對連續(xù)語音特征曲線來說,不匹配的峰值隨著語音特征曲線的增長而增加,語音特征曲線的動態(tài)范圍隨著噪音的增加而減少。因此簡單的歸一化算法不能有效適用連續(xù)語音識別。

我們的目標是縮小待識別噪音特征曲線與干凈的語音特征曲線之間的差異。經(jīng)過噪音魯棒性方法和DRA方法,語音信號中的直流分量的不同得以減少,特征曲線中不匹配的峰值也得以減少。

基于前面提到的孤立詞識別的歸一化方法,我們可以假設噪音沒有改變原有的特征曲線的統(tǒng)計順序,也就是在語音特征曲線上會存在很多峰值,如第一高峰值,第二高峰值,等等。在連續(xù)語音特征中,全局的統(tǒng)計信息的匹配就在整個訓練數(shù)據(jù)集中顯得比較重要。一般來說,這些特征曲線上的峰值信息代表了元音的語音特征。隨著訓練量的增加,這些峰值信息一般會集中到相對穩(wěn)定的區(qū)域。但實際上,噪音通常會改變特征曲線的統(tǒng)計順序。如果能恢復部分特征曲線上統(tǒng)計信息的順序,就能增加這些峰值的匹配幾率。

雖然通過上述的圖示可以看出通過歸一化方法可以增加干凈語音特征曲線和帶噪語音特征曲線的擬合程度,連續(xù)語音特征曲線中存在較多的峰值,帶噪語音特征曲線會改變一些峰值的統(tǒng)計信息,因此把歸一化方法簡單的使用到連續(xù)語音識別中無法達到如圖的擬合程度。提出的算法可以盡最大可能恢復帶噪語音的峰值統(tǒng)計信息。

使用DRA歸一化能提高特征曲線的峰值匹配概率。孤立詞特征曲線通常不含靜音部分,但在連續(xù)語音中,語音之間存在由于思考或者換氣產(chǎn)生的靜音,在此部分仍然使用歸一化方法在過渡位置會放大只有噪音的信號特征。這就導致了連續(xù)語音特征在此部分無法匹配。

根據(jù)上面的討論,可以通過下面兩步對特征曲線進行處理。

第一步:從連續(xù)語音數(shù)據(jù)中提取所有的短句子。

估計無音部分。連續(xù)語音包含許多無音部分和只有噪音的部分,因為這些部分不適合使用DRA。在下一步中消除連續(xù)語音特征曲線中各個動態(tài)范圍的不平衡性。

第二步:把選取出來的短句子分成更小的片段,在每個片段中使用歸一化方法。

如果片段的長度接近短句長度,導致識別結果與傳統(tǒng)DRA方法接近,如果片段的長度特別小,則導致識別精度急劇下降。根據(jù)實驗得到經(jīng)驗數(shù)據(jù)當片段長度為80幀時,識別精度最高。不同片段長度得到的識別結果如下圖:

3 小結

在訓練過程中使用大量的數(shù)據(jù)可以使各個音素的模型逐漸集中在某一個范圍。對于測試數(shù)據(jù)來說,音素的范圍很有可能與模型不在同一個范圍內(nèi),待識別音素是有限的,不可知的。

使用噪音魯棒性方法和DRA在建立區(qū)分度較高模型方法,這些魯棒性方法在發(fā)音較短的孤立詞識別中展現(xiàn)了良好的識別性能,并說明了這些方法無法直接在連續(xù)語音識別中的原因。

雖然在帶噪語音特征曲線和干凈語音特征曲線仍然有不匹配的峰值,需要指出的是,對比使用傳統(tǒng)的DRA算法,減少了不匹配的峰值。由此可以看出,使用提出的算法調(diào)整帶噪語音特征曲線可以增加峰值部分的匹配幾率。使用該算法在干凈和噪音環(huán)境下可以提高整體的識別性能。特別指出的是,提出的算法大幅提高了在噪音環(huán)境下的連續(xù)語音識別性能,根本原因就是相對于傳統(tǒng)的DRA,選擇了更合適的調(diào)整值,適當?shù)姆糯罅朔逯?。該算法在語音頻譜系數(shù)的對數(shù)系數(shù)特征里也適用。

參考文獻:

篇9

1 前言

新一代特種車輛的車載顯控系統(tǒng)對復雜噪聲環(huán)境下的語音控制(語音識別與語音合成)組件提出了新的需求,當前的車載顯控系統(tǒng)需要具備語音采集、識別和合成輸出的功能,而特種車輛在任務中的復雜噪聲的污染會使許多語音處理系統(tǒng)性能急劇惡化。由于特種車輛的車載強噪聲環(huán)境的特殊性,現(xiàn)有的商用語音識別模塊產(chǎn)品均難以滿足其環(huán)境的使用要求。

本文基于特種車輛對語音控制設計需求,針對特種車輛座艙(以下簡稱車載座艙)殊的噪聲環(huán)境,進行車載座艙噪聲環(huán)境下語音降噪組件設計,實現(xiàn)了語音信號的降噪處理,并采用商用的語音識別模塊進行測試驗證。測試結果表明,此方案在車載座艙環(huán)境下具有很好的降噪效果。

2 系統(tǒng)構成及工作原理

2.1 系統(tǒng)構成

車載座艙語音降噪系統(tǒng)由硬件平臺和語音降噪軟件兩部分組成,具體如下:

2.1.1 硬件組成

基于Freescalei.MX6 Dual SOC平臺的語音降噪模塊、XFV5310語音識別與合成模塊;

2.1.2 軟件組成

OS為Linux,內(nèi)核為3.14.52,嵌入式語音降噪軟件。

2.2 工作原理

車載座艙語音降噪識別系統(tǒng)的工作原理為:當駕駛員啟動語音控制功能時,i.MX6D語音降噪模塊向XFV5310語音識別模塊發(fā)送語音識別啟動命令,音頻采集模塊開始采集駕駛員說出的帶噪語音指令,經(jīng)由語音降噪模塊實時處理后,將降噪后的語音指令傳送給語音識別模塊,根據(jù)識別結果進行相應指令的操作響應,從而執(zhí)行駕駛員下達的語音指令。圖1所示為車載座艙語音降噪系統(tǒng)的工作原理框圖。

如圖1所示,車載座艙語音降噪識別系統(tǒng)的工作原理如下:

(1)帶噪語音源獲取有兩種方式:

1.由音箱播放特種車輛真實任務過程中的車內(nèi)環(huán)境噪聲文件來模擬車載噪聲環(huán)境,噪聲強度通過分貝測試儀的讀數(shù)控制;通過MIC說出語音指令;

2.讀取事先錄制的并按照特定信噪比疊加的.wav格式帶噪語音指令文件。

(2)通過音頻編解碼芯片STGL5000將輸入的模擬帶噪音頻進行PCM編碼,并將數(shù)字帶噪音頻輸出給語音降噪軟件;

(3)語音降噪軟件對數(shù)字帶噪音頻進行降噪處理,生成數(shù)字降噪音頻。

(4)降噪音頻存儲文件和播放輸出:

1.數(shù)字降噪音頻輸出給STGL5000進行PCM解碼和DA轉換,生成模擬降噪音頻,通過2.0音箱播放并輸入給XFV5310模塊進行語音識別;

2.數(shù)字降噪音頻數(shù)據(jù)存儲為wav格式音頻文件。

(5)語音降噪軟件的串口通訊:

1.通過RS232調(diào)試串口控制車載座艙語音降噪組件的工作狀態(tài):開始工作、錄音模式(開始錄音、停止錄音)、讀取wav文件模式、停止工作,并實時顯示組件的工作狀態(tài)和語音識別結果;

2.通過RS232通訊串口,根據(jù)XFV5310串口通訊協(xié)議,控制XFV5310模塊的工作狀態(tài)(初始化、開始識別、停止)并接收回傳的狀態(tài)信息和語音識別結果。

3 系統(tǒng)軟件算法設計

車載座艙語音降噪識別軟件(以下簡稱CSE軟件)運行在嵌入式Linux操作系統(tǒng)下,用于采集模擬帶噪語音信號,對采集的數(shù)字帶噪音頻信號進行降噪處理,并將降噪語音信號發(fā)送給語音識別與合成模塊進行語音識別,最后處理識別模塊返回的識別結果。CSE軟件主要完成初始化功能、語音錄音功能、WAV文件讀取功能、WAV文件存儲功能、語音播放功能、語音降噪功能以及RS232串口通訊功能。CSE軟件執(zhí)行流程圖如圖2所示。

初始化模塊主要完成RS232串口初始化、錄音配置、語音播放配置及信號量初始化。

錄音模塊主要完成音頻采集。由于規(guī)定語音指令長度最大為5S,在錄音時判斷錄音時間是否達到5S或是否收到結束信號,如兩者均未發(fā)生,則采集一個周期音頻樣本,并保存至帶噪音頻數(shù)組中,如此循環(huán),直至收到錄音結束控制信號或錄音時間達到5S。

WAV文件存儲模塊實現(xiàn)將音頻文件以.WAV格式存儲。首先存儲WAV文件頭,主要完成WAV文件文件頭數(shù)據(jù)初始化,并檢查文件頭每個字節(jié)的合法性,最后將檢測合格的WAV文件文件頭存儲在.wav文件中,WAV文件頭存儲后將音頻數(shù)據(jù)寫在WAV文件頭數(shù)據(jù)后。

WAV文件讀取模塊實現(xiàn)讀取WAV文件文件頭,對文件頭進行解析,并讀取WAV文件的音頻數(shù)據(jù)。

音頻播放模塊主要實現(xiàn)將降噪處理后的音頻數(shù)據(jù)實時地通過聲卡播放出來,以做識別處理。由于在ALSA音頻驅動中,對音頻設備的數(shù)據(jù)訪問以及音頻數(shù)據(jù)的存儲都是以周期為單位進行操作,所以在播放時要判斷已經(jīng)降噪處理但未播放的音頻數(shù)據(jù)是否達到周期樣本數(shù),如達到則播放音頻數(shù)據(jù),其次還要判斷錄音是否已經(jīng)結束,如果結束,判斷是否還有音頻數(shù)據(jù)未播放,如有則播放剩余的音頻數(shù)據(jù)。

語音降噪模塊對采集或從文件中讀取的帶噪語音進行降噪處理。首先采用可移動的有限長度窗口實現(xiàn)對帶噪語音分幀加窗,分幀加窗結束后,將每一幀帶噪語音分別進行短時快速傅里葉變換,然后實現(xiàn)帶噪音頻的降噪。實現(xiàn)SMSS降噪算法的基本思想是基于統(tǒng)計模型更新信噪比和當前幀噪聲功率譜,根據(jù)帶噪語音頻譜中不同頻帶的信噪比,確定噪聲的譜減因子,然后用帶噪語音減去噪聲和譜減因子的乘積,得到降噪后的語音。在信噪比更新方面,主要采取由先驗信噪比和后驗信噪比決定SNR的方法,在噪聲譜估計方面基于統(tǒng)計模型的VAD方法。降噪處理后再進行短時快速傅里葉反變換(ISFFT),得到時域的降噪語音信號數(shù)據(jù),按幀續(xù)進行逆分幀重排后得到降噪后的語音信號,最后進行存儲為.WAV格式文件或者直接播放輸出。

串口通訊模塊主要實現(xiàn)發(fā)送識別請求,獲取識別請求響應結果以及對識別結果解析。在語音播放之前,需要啟動XFV5310開發(fā)板的識別功能,由識別啟動模塊發(fā)送語音識別啟動命令,開發(fā)板收到命令幀后會判斷此命令幀正確與否,并回傳結果,識別啟動模塊接收回傳數(shù)據(jù)。發(fā)送識別啟動命令后,如果識別啟動模塊在5.5S內(nèi)未收到XFV5310開發(fā)板回傳,則默認識別開發(fā)板無反應,識別啟動模塊將退出等待。當語音識別啟動后,XFV5310開發(fā)板將會在識別處理結束后將相應的識別結果回傳給CSE軟件。回傳的數(shù)據(jù)以“幀”的方式封裝后傳輸。識別結果解析功能是當語音降噪軟件接收到XFV5310開發(fā)板的回傳的識別結果,根據(jù)通訊協(xié)議對XFV5310開發(fā)板發(fā)來的識別結果解碼。

4 系統(tǒng)測試驗證

4.1 測試環(huán)境

車載座艙語音降噪組件的測試驗證試驗中,各模塊間的交聯(lián)關系如圖3所示。

4.2 測試方法及結果

在車載復雜噪聲環(huán)境下,特定信噪比(-5dB、0dB、5dB)的語音指令,未經(jīng)降噪前語音質量差,指令模糊,商用XFV5310語音識別與合成模塊對指令識別率低于65%。經(jīng)過本文設計的車載座艙語音降噪軟件處理后,系統(tǒng)的測試結果如表1所示。

4.3 測試結果分析

車載座艙語音降噪識別系統(tǒng)功能完整,語音錄音、播放、WAV文件讀取、存儲、語音降噪處理等功能都能符合需方的功能要求;特定信噪比(-5dB、0dB、5dB)下的語音指令識別率能夠滿足需方規(guī)定的指標要求;語音降噪算法、降噪與識別的總耗時穩(wěn)定,不會隨著語音指令的增長而增加耗時,能夠滿足需方規(guī)定的指標要求。

5 結束語

特種車輛工作環(huán)境下的帶噪語音經(jīng)車載座艙語音降噪識別系統(tǒng)處理后的語音聽感清晰,無明顯失真,無明顯噪聲殘留,且運行總耗時較少,能夠滿足車載環(huán)境下語音降噪需求,配合商用的語音識別與合成模塊XFV5310組成的系統(tǒng)能夠滿足特種車輛在惡劣工作環(huán)境下的語音控制功能,將該系統(tǒng)與車載顯控模塊集成,滿足需方的功能與性能指標要求,經(jīng)過實際裝車使用測試,證明本文設計的車載座艙語音降噪識別系統(tǒng)功能性、穩(wěn)定性和可靠性均能滿足特種車輛的使用要求。

參考文獻

[1]Loizou P,Speech enhancement:theory and practice[M].1st ed.CRC Taylor and Francis,2007:6-7.

[2]宋知用.MATLAB在語音信號分析與合成中的應用[M].北京:北京航空航天大學出版社,2013.

[3]易克初,田斌,付強.語音信號處理[M]. 北京:國防工業(yè)出版社,2003.

[4] Israel Cohen and Baruch Berdugo: Speech enhancement for non-stationary noise environments,[J].Signal Process.,vol.81,no.11,pp. 2403-2418,Nov.2001.

[5] Israel Cohen:Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement,[J].IEEE Signal processing letters,vol. 9,no.1,January 2002.

[6] Israel Cohen.“Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging”[J].IEEE Transactions on speech and audio processing,vol.11, no.5,Sep,2003.

[7] Israel Cohen:Relaxed statistical model for speech enhancement and a priori SNR estimation [J].IEEE Trans. Speech Audio Process.,vol.13, no.5,pt.2,pp.870-881,Sep,2005.

[8]張雄偉,陳亮,楊吉斌.現(xiàn)代語音處理技術及應用[M].北京:機械工業(yè)出版社,2003.

[9]程塔,郭雷,趙天云,賀勝.非平穩(wěn)噪聲環(huán)境下的語音增強算法[J].西北工業(yè)大學學報,2010,28(5):664-668.

[10]蔣海霞,成立新,陳顯治.一種改進的譜相減語音增強方法[J].理工大學學報,2001,2(l):41-44.

[11]孫楊,原猛,馮海泓.一種基于統(tǒng)計模型的改進譜減降噪算法[J].聲學技術,2013,32(2):115-118.

作者簡介

篇10

中圖分類號:TN912.34 文獻標識碼:A

1語音識別技術

1.1語音識別技術簡介

語音識別技術主要分為兩類,一是語音意義的識別,一種是目標聲識別。第一個被稱為語音識別,它是根據(jù)聲音的成詞特點對聲音進一步分析,主要應用在人工智能,人機對話和快速輸入等領域。通過訪問聲音的特征,從目標語音中進行提取,該項技術可以區(qū)分多目標語音的種類,確定目標,主要用于戰(zhàn)場目標識別領域,海上偵察系統(tǒng),預警系統(tǒng),軍事聲納識別,車輛聲音識別,火車預警系統(tǒng),動物個體的語音識別和家庭安全系統(tǒng)等。

科技研究人員通過對語音信號處理技術進行深入的研究,結果發(fā)現(xiàn):人的聽覺系統(tǒng)的聲音配合具有獨特的優(yōu)勢,它能準確地提取目標的聲音特征,準確地辨別聲音的方向和內(nèi)容分類,所以基于仿生聽覺系統(tǒng)的目標聲識別技術備受現(xiàn)代前沿科技的關注。針對目標聲音識別系統(tǒng)的研究工作成為了現(xiàn)代語音識別技術研究的一個熱門方向,不少科技研究人員正在積極探索先進可行的仿生學理論,特征提取技術和語音識別技術。

1.2語音識別技術的研究現(xiàn)狀

語音識別技術主要是通過對監(jiān)測數(shù)據(jù)的聲音特性分析,得到聲音特性的樣本文件。語音識別技術是一種非接觸技術,用戶可以很自然地接受。但語音識別技術和其他行為識別技術具有共同的缺點,即輸入樣本的變化太大,所以很難完成一些精確的匹配,聲音也會伴隨著速度,音質的變化而影響到信號的采集和結果的比較。

在語音識別中,語音識別是最早也是比較成熟的領域。隨著越來越多的應用需求,識別聲音并不局限于語音識別,人們開始深入研究目標識別技術的非語音識別,該項技術已經(jīng)參照了成熟的語音識別技術的一部分,但由于各自的應用環(huán)境和實際的音頻特征之間的差異,該技術還存在一些差異。

1.3語音識別技術的實際應用

在民用方面,目標聲音識別系統(tǒng)可以應用于門禁系統(tǒng),網(wǎng)絡安全,認證,智能機器人,動物語音識別,電子商務和智能交通等領域。在智能交通領域,利用來自車輛識別模型的運動音頻信號,可以實現(xiàn)交通信息的智能化管理。在智能機器人領域,機器人目標聲音識別系統(tǒng)可以作為機器人的耳朵,通過環(huán)境聲音識別并確定聲音的方位,然后再反應外界的聲音,因此可以將其當作家庭自動化服務系統(tǒng)和安全系統(tǒng)。在動物的語音識別領域,可以根據(jù)害蟲聲特征來區(qū)分害蟲種類,根據(jù)不同的害蟲采取不同的措施。在網(wǎng)絡應用領域,在關于各種在線服務支持的語音識別技術新項目開發(fā)中,可以提高網(wǎng)絡的服務質量,給人們的生活帶來方便?,F(xiàn)在,美國,德國和日本都開了電話銀行,語音代替原來的密碼和使用印章,簡化了工作服務流程,提高工作效率。

在軍事上,目標聲音識別技術來自于第二次世界大戰(zhàn),在探測敵人的炮火和潛艇時,起著重要的識別和定位作用。但由于計算機技術,信號處理技術,光電檢測和雷達檢測技術快速的發(fā)展,使聲探測技術發(fā)展得十分緩慢。直到現(xiàn)代的戰(zhàn)爭,研發(fā)了使用于戰(zhàn)爭中的三維信息,全方位定向,反欺詐、欺騙、干擾和反偵察、監(jiān)視,在隱身與反隱身的現(xiàn)代戰(zhàn)爭中為國家的國防事業(yè)做出了不可磨滅的杰出貢獻。通過電,磁,光學和雷達探測技術和主動檢測技術來完成偵察任務已經(jīng)不能滿足現(xiàn)代戰(zhàn)爭的需求。在武裝直升機技術成熟的當代,隱形轟炸機和其他高科技武器都有了反射功率,抗電磁干擾,反輻射的功能,特別是快速發(fā)展的數(shù)字技術和計算機技術,迫使各國為了實現(xiàn)對目標的定位跟蹤和噪聲識別而重新開始研究被動聲探測技術,關注聲檢測技術。在未來戰(zhàn)爭中,武器裝備發(fā)展的一個重要趨勢是智能化、小型化,一個重要的特點是具備目標識別的能力,并根據(jù)不同的對象使用不同的攻擊方法。

2聽覺系統(tǒng)

為了設計一個更精確的目標聲音識別系統(tǒng),越來越多的學者開始深入研究仿生學領域。通過研究發(fā)現(xiàn),人類的聽覺系統(tǒng)在聲音的物理方面具有獨特的優(yōu)勢,聲音特征可以準確提取目標識別中聲音的方向,種類和含量,而且還可以提高抗噪聲能力,所以基于人基于語音識別技術的聽覺系統(tǒng)已經(jīng)成為目前的研究熱點。

人類聽覺仿生學是模仿人耳的聽覺系統(tǒng)和生理功能,并通過建立數(shù)學模型,根據(jù)數(shù)學分析原理得到的聽覺系統(tǒng)。它涉及聲學,生理學,信號處理,模式識別和人工智能等學科,是一個跨學科研究領域的綜合應用。該技術已在軍事,交通,銀行,醫(yī)療治療的許多方面取得了重要應用,是人類實現(xiàn)智能生命的重要研究課題之一。

人類聽覺系統(tǒng)的處理能力大大超過目前的聲音信號處理水平。從人類聽覺系統(tǒng)的心理和生理特點視角,許多研究人員對接聽過程中的語音識別進行深入的研究。目前,許多學者提出了不同的聽覺模型,這些模型大多是一些基于語音識別和語音質量評價系統(tǒng)的聽覺模型,模擬人耳聽覺功能的生理結構,這些應用處理方法大大提高了系統(tǒng)的性能。