一二三区在线播放国内精品自产拍,亚洲欧美久久夜夜综合网,亚洲福利国产精品合集在线看,香蕉亚洲一级国产欧美

  • 期刊 科普 SCI期刊 投稿技巧 學(xué)術(shù) 出書 購(gòu)物車

    首頁(yè) > 優(yōu)秀范文 > 語(yǔ)音識(shí)別技術(shù)

    語(yǔ)音識(shí)別技術(shù)樣例十一篇

    時(shí)間:2023-03-25 11:26:28

    序論:速發(fā)表網(wǎng)結(jié)合其深厚的文秘經(jīng)驗(yàn),特別為您篩選了11篇語(yǔ)音識(shí)別技術(shù)范文。如果您需要更多原創(chuàng)資料,歡迎隨時(shí)與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識(shí)!

    語(yǔ)音識(shí)別技術(shù)

    篇1

    該文主要致力于解決通話中的語(yǔ)音識(shí)別技術(shù),長(zhǎng)期可推廣至QQ語(yǔ)音聊天等即時(shí)聊天軟件中,相較于目前大多數(shù)語(yǔ)音識(shí)別軟件需要手動(dòng)打開更為主動(dòng),讓用戶感覺不到軟件的存在,將該技術(shù)深度整合到系統(tǒng)或QQ服務(wù)中在通話結(jié)束后針對(duì)通話中涉及的電話號(hào)碼、地點(diǎn)、時(shí)間等關(guān)鍵信息進(jìn)行信息的推送,大大提高了效率,并對(duì)聽力有障礙的人士有更為重要的意義。

    一、語(yǔ)音識(shí)別基本原理

    語(yǔ)音識(shí)別系統(tǒng)本質(zhì)上是一種模式識(shí)別系統(tǒng),包括特征提取、模式匹配、參考模式庫(kù)等三個(gè)基本單元,未知語(yǔ)音經(jīng)過話筒變換成電信號(hào)后加在識(shí)別系統(tǒng)的輸入端,首先經(jīng)過預(yù)處理,再根據(jù)人的語(yǔ)音特點(diǎn)建立語(yǔ)音模型,對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行分析,并抽取所需的特征,在此基礎(chǔ)上建立語(yǔ)音識(shí)別所需的模板,然后根據(jù)此模板的定義,通過查表就可以給出計(jì)算機(jī)的識(shí)別結(jié)果。 [1]

    二、通話中語(yǔ)音識(shí)別技術(shù)

    2.1技術(shù)原理:

    1、基本架構(gòu):Smartalk通話系統(tǒng)基于“云之訊”開放平臺(tái)提供的語(yǔ)音視頻通話服務(wù)和“科大訊飛”開放平臺(tái)提供的語(yǔ)音識(shí)別服務(wù),并加以對(duì)手機(jī)GPS位置、通訊錄、社交軟件信息的分析,在“云”的輔助下對(duì)之進(jìn)行處理和交換。Smartalk架構(gòu)分為4個(gè)部分:客戶端、語(yǔ)音視頻服務(wù)、語(yǔ)音識(shí)別服務(wù)、云數(shù)據(jù)處理分析。利用“云之訊”開放平臺(tái)提供的語(yǔ)音視頻通話服務(wù)和“科大訊飛”開放平臺(tái)提供的語(yǔ)音識(shí)別服務(wù)可將用戶在通話中涉及的地點(diǎn)、人名、電話號(hào)碼等關(guān)鍵詞提取出來(lái)并加以分析對(duì)行程和下一步操作提供幫助。

    2、基本平臺(tái):本系統(tǒng)基于APIcloud開發(fā),兼容云端和第三方SDK,可跨平臺(tái)(Android、IOS、Windows等)使用,采用標(biāo)準(zhǔn)的c++語(yǔ)言實(shí)現(xiàn)。

    2.2功能實(shí)現(xiàn):

    1、基于“云之訊”開放平臺(tái)的通話系統(tǒng):云之訊融合通訊開放平臺(tái)為企業(yè)及個(gè)人開發(fā)者提供各種通訊服務(wù),包括在線語(yǔ)音服務(wù)、短信服務(wù)、視頻服務(wù)、會(huì)議服務(wù)等,開發(fā)者通過嵌入云通訊API在應(yīng)用中輕松實(shí)現(xiàn)各種通訊功能。

    2、基于“科大訊飛”開放平臺(tái)的語(yǔ)音識(shí)別系統(tǒng):。訊飛開放平臺(tái)使用戶可通過互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng),使用任何設(shè)備方便的介入訊飛開放平臺(tái)提供的“聽、說(shuō)、讀、寫”等全方位的人工智能服務(wù)。目前開放平臺(tái)向開發(fā)者提供語(yǔ)音合成、語(yǔ)音識(shí)別、語(yǔ)音喚醒、語(yǔ)義理解、移動(dòng)應(yīng)用分析等多項(xiàng)服務(wù)。

    3、語(yǔ)音識(shí)別與云端大數(shù)據(jù)結(jié)合分析:。利用基于“云之訊”通話系統(tǒng)和“科大訊飛”語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)了實(shí)時(shí)的語(yǔ)音識(shí)別,加以云端大數(shù)據(jù)的結(jié)合,和實(shí)時(shí)的分析用戶當(dāng)前的需求和問題,及時(shí)的跟用戶產(chǎn)生交流反饋,并根據(jù)用戶長(zhǎng)期的使用時(shí)間分析智能提前推送相關(guān)信息。

    2.3未來(lái)展望:

    基于大數(shù)據(jù)和互聯(lián)網(wǎng)+技術(shù)的日益發(fā)展與完善,并隨著通信傳輸速度的逐漸提高,可在實(shí)時(shí)的條件下分析與推送更多豐富的內(nèi)容,加以與即時(shí)聊天軟件的結(jié)合,將該技術(shù)深度整合到系統(tǒng)或QQ服務(wù)中在通話結(jié)束后針對(duì)通話中涉及的電話號(hào)碼、地點(diǎn)、時(shí)間等關(guān)鍵信息進(jìn)行信息的推送,并對(duì)聽力有障礙的人士有更為重要的意義,未來(lái)的市場(chǎng)前景廣闊。

    三、語(yǔ)音識(shí)別技術(shù)應(yīng)用

    3.1 語(yǔ)音指令控制在汽車上的應(yīng)用:

    語(yǔ)音控制人員只需要用嘴說(shuō)出命令控制字,就可以實(shí)現(xiàn)對(duì)系統(tǒng)的控制。在汽車上,可用于汽車導(dǎo)航、控制車載設(shè)備。如車燈、音響、天窗、座椅、雨刮器等。

    3.2語(yǔ)音識(shí)別技術(shù)在醫(yī)療系統(tǒng)中的應(yīng)用:

    醫(yī)療語(yǔ)音識(shí)別技術(shù),已有廠商開發(fā)了基于云平臺(tái)的語(yǔ)音識(shí)別系統(tǒng),可直接內(nèi)嵌到醫(yī)院電子病歷系統(tǒng)中,讓醫(yī)生通過語(yǔ)音輸入病人信息,填寫醫(yī)療記錄,下達(dá)醫(yī)囑信息。

    四、相關(guān)市場(chǎng)調(diào)研

    1、國(guó)內(nèi)外市場(chǎng)分析:2015年全球智能語(yǔ)音產(chǎn)業(yè)規(guī)模達(dá)到61.2億美元,較2014年增長(zhǎng)34.2%。其中,中國(guó)智能語(yǔ)音產(chǎn)業(yè)規(guī)模達(dá)到40.3億元,較2014年增長(zhǎng)增長(zhǎng)41.0%,遠(yuǎn)高于全球語(yǔ)音產(chǎn)業(yè)增長(zhǎng)速度預(yù)計(jì)到2016年,中國(guó)語(yǔ)音產(chǎn)業(yè)規(guī)模預(yù)計(jì)達(dá)到59億元。[2]

    2、相關(guān)應(yīng)用發(fā)展:拉斯維加斯消費(fèi)電子展(CES)上展示的MindMeld。在通話中,如果參與者點(diǎn)擊應(yīng)用的一個(gè)按鈕,那么MindMeld將利用Nuance的語(yǔ)音識(shí)別技術(shù),分析此前15至30秒對(duì)話。隨后,MindMeld將確定對(duì)話中的關(guān)鍵詞,以及其他多個(gè)信息來(lái)源,查找具有相關(guān)性的信息,并在屏幕上向用戶提供圖片和鏈接地址。[3]

    參 考 文 獻(xiàn)

    篇2

    語(yǔ)音識(shí)別技術(shù)成為21世紀(jì)“數(shù)字時(shí)代”的重要開發(fā)領(lǐng)域,在計(jì)算機(jī)的多媒體技術(shù)應(yīng)用和工業(yè)自動(dòng)化控制應(yīng)用等方面,成果令人屬目。語(yǔ)音識(shí)別技術(shù)是指用電子裝置來(lái)識(shí)別某些人的某些特征語(yǔ)音,語(yǔ)音識(shí)別的手段一般分為二大類,一類利用在計(jì)算機(jī)上開發(fā)語(yǔ)音識(shí)別系統(tǒng),通過編程軟件達(dá)到對(duì)語(yǔ)音的識(shí)別,另一類采用專門的語(yǔ)音識(shí)別芯片來(lái)進(jìn)行簡(jiǎn)單的語(yǔ)音識(shí)別。利用專門的語(yǔ)音識(shí)別芯片應(yīng)用在地鐵車輛上,具有結(jié)構(gòu)簡(jiǎn)單、使用方便,并且語(yǔ)音識(shí)別器有較高的可靠性、穩(wěn)定性的特點(diǎn),是簡(jiǎn)單語(yǔ)音識(shí)別在自動(dòng)控制應(yīng)用上的一種優(yōu)先方案。

    目前上海地鐵

    一、

    二、

    三、

    五、

    六、八號(hào)線在車輛信息顯示系統(tǒng)的設(shè)計(jì)上缺少實(shí)用性和操作性,對(duì)乘客來(lái)講缺少在實(shí)時(shí)報(bào)站時(shí)的人性化。如:地鐵車廂內(nèi)的乘客信息顯示系統(tǒng)和車廂外側(cè)的列車信息顯示系統(tǒng)。如果在每個(gè)車門的上方安裝車站站名動(dòng)態(tài)顯示地圖,實(shí)時(shí)顯示與車廂廣播同步的信息,以及在每節(jié)車廂外側(cè)顯示列車的終點(diǎn)站,良好的工業(yè)設(shè)計(jì)不僅能給廣大的乘客帶來(lái)非常大的幫助,而且能夠提升上海地鐵服務(wù)的形象。由于在設(shè)計(jì)以上地鐵列車時(shí),受科技發(fā)展的限制?,F(xiàn)在上海地鐵4號(hào)線在車輛信息顯示系統(tǒng)的設(shè)計(jì)上滿足了廣大的乘客的需求,

    增加了車站站名動(dòng)態(tài)顯示地圖。

    如何在現(xiàn)有的地鐵車輛上增加地鐵車廂內(nèi)的乘客信息顯示系統(tǒng)和車廂外側(cè)的列車信息顯示系統(tǒng),如圖1、2,首先考慮其實(shí)用性和性價(jià)比,同時(shí)安裝、操作要方便,在不影響列車的性能的前提下,完成本乘客信息顯示系統(tǒng)的應(yīng)用,設(shè)計(jì)方案的選擇極其重要,目前的乘客信息顯示系統(tǒng)比較復(fù)雜,例如:對(duì)于應(yīng)用在某條線路上的聲音識(shí)別系統(tǒng),不僅要修改原語(yǔ)音文件,而且聲音識(shí)別器不容易操縱,

    對(duì)使用者來(lái)講仍然存在比較多的問題。對(duì)于應(yīng)用在某條線路上數(shù)字傳輸顯示系統(tǒng),其操作方法不僅給司機(jī)帶來(lái)了任務(wù),每站需要手動(dòng)操作二次,同時(shí)顯示的相關(guān)內(nèi)容沒有實(shí)時(shí)性,總之乘客信息顯示系統(tǒng)比較落后。

    設(shè)計(jì)一種符合現(xiàn)代化要求的乘客信息顯示系統(tǒng)是非常必要。

    2.設(shè)計(jì)

    地鐵車輛乘客信息顯示系統(tǒng)的設(shè)計(jì),采用CMOS語(yǔ)音識(shí)別大規(guī)模集成電路,識(shí)別響應(yīng)時(shí)間小于300ms。HM2007芯片采用單片結(jié)構(gòu),如圖3。將語(yǔ)音識(shí)別需要的全部電路:CPU、A/D、ROM、語(yǔ)音的AMP放大器、壓縮器、濾波器、震蕩器和接口界面等集中在一片芯片內(nèi),這樣電路就非常少,外接64K非易失性SRAM,最多能識(shí)別40個(gè)車站站名語(yǔ)音(字長(zhǎng)0.9秒),或(字長(zhǎng)1.92秒)但識(shí)別僅20個(gè)車站站名語(yǔ)音。按正常人的講話速度,0.9秒一般每秒吐字1到3個(gè)為宜。

    針對(duì)目前上海地鐵列車在車廂內(nèi)外無(wú)LED動(dòng)態(tài)站名顯示而設(shè)計(jì),通過將列車車廂廣播的模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào),自動(dòng)控制LED發(fā)光二極管,在列車在車廂內(nèi)使得廣播的內(nèi)容(每個(gè)車站站名)與發(fā)光二極管顯示面板聲光同步,將顯示面板放置地鐵車輛的每扇車門上方,并且顯示面板以地鐵運(yùn)營(yíng)線路為背景,達(dá)到列車進(jìn)站和出站時(shí)能分別指示。在列車車廂外讓乘客非常直觀地、一目了然地了解車輛的終點(diǎn)站方向,從而方便乘客的上下車,提高了地鐵服務(wù)水平。在國(guó)外的地鐵列車上應(yīng)用已相當(dāng)普遍。

    語(yǔ)音識(shí)別顯示器①的輸入端與車載廣播功放器相連接,實(shí)現(xiàn)廣播模擬信號(hào)發(fā)出的語(yǔ)音進(jìn)行車站名的自動(dòng)識(shí)別。不需要編程技術(shù)和修改文件等方法,全部采用硬件方法設(shè)計(jì)。整個(gè)系統(tǒng)分為5部分:(1)輸入控制部分;(2)噪音濾波部分;(3)語(yǔ)言識(shí)別部分;(4)執(zhí)行顯示部分;(5)錄音功能部分。

    (1)輸入控制部分:

    通過麥克風(fēng)或(結(jié)合器)連接,如圖4所示,要求模擬語(yǔ)音輸入點(diǎn)的電壓必須控制在大約20mv左右,以確保后期語(yǔ)音識(shí)別的正確性。在輸入電路中增加了聲音控制部分的電路,即將模擬信號(hào)轉(zhuǎn)變成數(shù)字方波信號(hào),對(duì)語(yǔ)音輸入進(jìn)行開關(guān)量的控制,確保在T<0.9秒內(nèi)的正確輸入語(yǔ)音字長(zhǎng)。

    (2)語(yǔ)音識(shí)別部分:

    利用語(yǔ)音識(shí)別芯片HM2007和外接6264SRAM存儲(chǔ)器組成為主要部分,(HM2007中ROM已經(jīng)固化了語(yǔ)音語(yǔ)法技術(shù))對(duì)語(yǔ)音的存儲(chǔ)及語(yǔ)音語(yǔ)法算法進(jìn)行控制。HM2007的詳細(xì)內(nèi)容見產(chǎn)品說(shuō)明書。

    (3)噪音濾波部分:

    濾波功能是自動(dòng)識(shí)別(阻擋)我們?cè)谠O(shè)計(jì)階段設(shè)計(jì)好的各個(gè)工況的語(yǔ)音情況,例如:司機(jī)的講話及車輛雜音等(在麥克風(fēng)的工況下),以確保輸入語(yǔ)音的可靠性、穩(wěn)定性,特采用UM3758串行編譯碼一體化進(jìn)行濾波電路。如圖5。

    (4)執(zhí)行顯示部分:

    將車廂廣播喇叭的模擬信息通過語(yǔ)音識(shí)別器轉(zhuǎn)變成數(shù)字信息,最終經(jīng)過譯碼電路、4/16多路數(shù)據(jù)選擇器及RS485接口,去控制車廂內(nèi)車門上十個(gè)LED顯示面板,如圖6。

    (5)錄音功能部分:

    在進(jìn)行廣播內(nèi)容更改時(shí),本項(xiàng)目最大的特點(diǎn)是:不需要任何手段的手工軟件編程的修改,而是通過遠(yuǎn)程音頻電路控制技術(shù)進(jìn)行按動(dòng)相關(guān)按鈕,選擇地址然后自動(dòng)錄入內(nèi)容,如圖6。

    3.結(jié)論

    語(yǔ)音識(shí)別器及LED顯示面板的設(shè)計(jì),能應(yīng)用到以前沒有LED顯示面功能的地鐵車輛上,與其他所設(shè)計(jì)的方式相比較,語(yǔ)音識(shí)別控制簡(jiǎn)單、可靠性好、安裝方便、相對(duì)投資最小和不改動(dòng)車廂內(nèi)任何電器為特點(diǎn),僅提供110VDC電源和音頻輸入接口。

    本項(xiàng)目的開發(fā)具有一定社會(huì)效益,得到國(guó)內(nèi)外乘客和殘疾人員的歡迎,提高了地鐵服務(wù)質(zhì)量。

    參考文獻(xiàn):

    1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007

    2.555集成電路實(shí)用大全上??萍计占俺霭嫔?/p>

    3.①獲得“2003年上海市優(yōu)秀發(fā)明選拔賽三等獎(jiǎng)”

    篇3

    一、引言

    隨著我國(guó)外語(yǔ)教學(xué)的不斷發(fā)展,各種外語(yǔ)口語(yǔ)教學(xué)工具與學(xué)習(xí)方法也應(yīng)運(yùn)而生。然而外語(yǔ)口語(yǔ)的學(xué)習(xí)對(duì)于學(xué)習(xí)者而言既是重點(diǎn)也是難點(diǎn),當(dāng)前的計(jì)算機(jī)輔助教學(xué)只是側(cè)重于外語(yǔ)單詞記憶教學(xué)與語(yǔ)法教學(xué),并且因?yàn)橥庹Z(yǔ)口語(yǔ)學(xué)習(xí)者的學(xué)習(xí)水平不一,在學(xué)習(xí)過程中很難將自己的不正確發(fā)音找出來(lái)。于是,在外語(yǔ)口語(yǔ)學(xué)習(xí)中就可以應(yīng)用語(yǔ)言識(shí)別技術(shù),該系統(tǒng)具備外語(yǔ)口語(yǔ)發(fā)音的糾正功能,學(xué)習(xí)者通過該系統(tǒng)進(jìn)行外語(yǔ)口語(yǔ)的學(xué)習(xí)與練習(xí),就能糾正自己錯(cuò)誤的發(fā)音,避免因?yàn)槎啻五e(cuò)誤發(fā)音而形成不良習(xí)慣。因此,對(duì)外語(yǔ)口語(yǔ)訓(xùn)練中語(yǔ)音識(shí)別技術(shù)進(jìn)行研究,能夠提高外語(yǔ)口語(yǔ)學(xué)習(xí)者的學(xué)習(xí)效率。

    二、外語(yǔ)口語(yǔ)學(xué)習(xí)中語(yǔ)音識(shí)別技術(shù)應(yīng)用的重要意義

    隨著中國(guó)改革開放程度的深化以及全球經(jīng)濟(jì)一體化的飛速發(fā)展,世界各國(guó)的交往越來(lái)越頻繁,學(xué)習(xí)并掌握一門外語(yǔ),對(duì)于人們的工作與生活而言,已經(jīng)成為必不可少的工具。在學(xué)習(xí)外語(yǔ)的需求不斷增長(zhǎng)的情況下,出現(xiàn)了各種外語(yǔ)教學(xué)方法、教學(xué)工具以及語(yǔ)言學(xué)校等,然而國(guó)人在外語(yǔ)學(xué)習(xí)過程中,外語(yǔ)的口語(yǔ)教學(xué)與學(xué)習(xí)一直是較難突破的難題,其主要原因有以下幾個(gè)方面:

    (一)各種外語(yǔ)發(fā)音的特點(diǎn)與漢語(yǔ)發(fā)音的特點(diǎn)存在較大差異,因而可能導(dǎo)致國(guó)人在學(xué)習(xí)外語(yǔ)時(shí)由于受到母語(yǔ)的深厚影響而犯下許多自己根本無(wú)法察覺或者是很難察覺的發(fā)音錯(cuò)誤。

    (二)目前在國(guó)內(nèi)合格的外語(yǔ)口語(yǔ)教師還是很少,自己發(fā)音標(biāo)準(zhǔn)又能夠準(zhǔn)確地指導(dǎo)別人進(jìn)行口語(yǔ)學(xué)習(xí)的外語(yǔ)教師,即便是在一些大中城市的中小學(xué)中也相當(dāng)缺乏。同時(shí),一般的媒體教學(xué)也不能夠針對(duì)學(xué)生的特定情況,有效地讓學(xué)生與教師互動(dòng)進(jìn)行口語(yǔ)訓(xùn)練,只能夠單方面地進(jìn)行傳授,所以起到的作用也不是很有效。

    外語(yǔ)口語(yǔ)訓(xùn)練中語(yǔ)音識(shí)別技術(shù)的應(yīng)用,讓軟件具備了矯正錯(cuò)誤發(fā)音的功能,能夠?yàn)閷W(xué)習(xí)者及時(shí)改正錯(cuò)誤的發(fā)音提供幫助,從而有效避免錯(cuò)誤反復(fù)而變成一種惡性習(xí)慣,并使外語(yǔ)學(xué)習(xí)者口語(yǔ)學(xué)習(xí)的效率與效果得到一定程度的提高,獲得更大的市場(chǎng)價(jià)值與社會(huì)效益。

    三、外語(yǔ)口語(yǔ)訓(xùn)練中語(yǔ)音識(shí)別的關(guān)鍵技術(shù)

    (一)語(yǔ)音識(shí)別

    在語(yǔ)音識(shí)別技術(shù)中,語(yǔ)音識(shí)別是第一步也是最重要的一步,接下來(lái)幾個(gè)步驟的精確度都會(huì)受其影響,它能夠在語(yǔ)法與音素模型的基礎(chǔ)上,將輸入的語(yǔ)音信號(hào)翻譯成單詞串。同時(shí),許多基于計(jì)算機(jī)的語(yǔ)言訓(xùn)練活動(dòng)都可以應(yīng)用這一部分,比如基于語(yǔ)音的選擇題或者是與計(jì)算機(jī)的對(duì)話訓(xùn)練等等。

    (二)語(yǔ)音評(píng)分

    在基于語(yǔ)音識(shí)別技術(shù)的外語(yǔ)口語(yǔ)學(xué)習(xí)系統(tǒng)中,語(yǔ)音評(píng)分技術(shù)是最基本也是最核心的組成部分。語(yǔ)音評(píng)分技術(shù)能夠評(píng)價(jià)并反饋學(xué)習(xí)者的口語(yǔ)發(fā)音情況,可以讓學(xué)習(xí)者通過反饋的結(jié)果對(duì)自己的學(xué)習(xí)結(jié)果進(jìn)行檢查。通常情況下,按照語(yǔ)音評(píng)分技術(shù),目前的外語(yǔ)口語(yǔ)學(xué)習(xí)系統(tǒng)主要可以分為兩種:一種是基于語(yǔ)音特征比較的評(píng)分方法,它通過將學(xué)習(xí)者的發(fā)音與標(biāo)準(zhǔn)語(yǔ)音進(jìn)行對(duì)比參考,從一個(gè)較為主觀的角度對(duì)一段語(yǔ)音質(zhì)量進(jìn)行評(píng)價(jià),通常采用動(dòng)態(tài)時(shí)間規(guī)整技術(shù)實(shí)現(xiàn),因?yàn)槠渚邆溥\(yùn)算量小的特點(diǎn),因而在嵌入式系統(tǒng)與手持設(shè)備中運(yùn)用較多;另一種是基于聲學(xué)模型的評(píng)分方法,它能夠通過語(yǔ)音識(shí)別技術(shù)將以計(jì)算發(fā)音質(zhì)量所需的小單元切割出來(lái),然后再通過事先訓(xùn)練好的聲學(xué)模型與其進(jìn)行對(duì)比,最后根據(jù)評(píng)分機(jī)制對(duì)其評(píng)分,因?yàn)樵摲绞捷^為客觀,目前主流的外語(yǔ)口語(yǔ)學(xué)習(xí)系統(tǒng)中均采用這種技術(shù),其主要是基于隱馬爾可夫模型(HMM)技術(shù)實(shí)現(xiàn)。

    如圖1,基于HMM的語(yǔ)音評(píng)分流程圖所示,其語(yǔ)音評(píng)分的關(guān)鍵技術(shù)分為以下幾步:

    圖1 基于HMM的語(yǔ)音評(píng)分流程圖

    1.首先,對(duì)學(xué)習(xí)者所輸入的語(yǔ)音進(jìn)行特征提取;

    2.其次,將已經(jīng)訓(xùn)練好的HMM作為模板,再采用Viterbi算法將語(yǔ)言以計(jì)算發(fā)音質(zhì)量所需的小單元進(jìn)行分割,并強(qiáng)制對(duì)齊;

    3.最后,采用不同的評(píng)分機(jī)制對(duì)不同的需要進(jìn)行評(píng)分,將評(píng)分結(jié)果得出。同時(shí),在某些情況下,要注意將說(shuō)話驗(yàn)證在語(yǔ)音評(píng)分開始時(shí)加入,從而將學(xué)習(xí)者發(fā)音內(nèi)容與標(biāo)準(zhǔn)發(fā)音完全不同的部分擋下,保證整個(gè)口語(yǔ)學(xué)習(xí)系統(tǒng)的可信度更高。此外,由于同樣的聲音可能代表的意義不同,因而在這些更加復(fù)雜的應(yīng)用中,需要將各種詞發(fā)生概率的大小、上下文的關(guān)系進(jìn)行綜合考慮,并將語(yǔ)言模型加入,從而為聲學(xué)模型的判斷提供更好的輔助。

    (三)發(fā)音錯(cuò)誤檢測(cè)與錯(cuò)誤糾正

    對(duì)于外語(yǔ)學(xué)習(xí)者而言,雖然知道系統(tǒng)能夠評(píng)價(jià)其發(fā)音質(zhì)量,但是單憑非母語(yǔ)學(xué)習(xí)者自己對(duì)其自身錯(cuò)誤的所在還是不能清楚地了解到,對(duì)這個(gè)錯(cuò)誤也不知道如何進(jìn)行糾正。因而,外語(yǔ)口語(yǔ)學(xué)習(xí)者需要通過系統(tǒng)對(duì)發(fā)音的錯(cuò)誤進(jìn)行檢測(cè)與定位,并將相應(yīng)的錯(cuò)誤糾正建議提供給學(xué)習(xí)者進(jìn)行有效糾正。

    1.發(fā)音錯(cuò)誤的檢測(cè)與定位

    在外語(yǔ)口語(yǔ)訓(xùn)練中,導(dǎo)致錯(cuò)誤發(fā)音的因素有很多。例如學(xué)習(xí)者不會(huì)發(fā)某種聲音,或者是受到其他語(yǔ)言拼讀方法的影響以及不能正確體會(huì)到兩種聲音的差別等等。語(yǔ)音識(shí)別器也是發(fā)音錯(cuò)誤檢測(cè)中使用的一種方法,比如用母語(yǔ)訓(xùn)練的語(yǔ)音識(shí)別器,但是因?yàn)樵跊]有使用自適應(yīng)技術(shù)的情況下,學(xué)習(xí)者發(fā)音的識(shí)別錯(cuò)誤也有可能會(huì)當(dāng)成是發(fā)音錯(cuò)誤,因而這種方法就很難準(zhǔn)確地檢測(cè)到非母語(yǔ)學(xué)習(xí)者的發(fā)音是否正確。所以,目前對(duì)錯(cuò)誤發(fā)音的檢測(cè)比較合理的一種做法是:首先以發(fā)音專家的知識(shí)為依據(jù),嚴(yán)格將容易出錯(cuò)的發(fā)音進(jìn)行合理的分類,然后以不同的錯(cuò)誤類型為依據(jù),將其相應(yīng)的檢測(cè)算法設(shè)計(jì)出來(lái),最后用各種錯(cuò)誤檢測(cè)算法對(duì)學(xué)習(xí)者的發(fā)音分別進(jìn)行檢測(cè)。

    2.發(fā)音錯(cuò)誤的糾正

    系統(tǒng)將發(fā)音錯(cuò)誤檢測(cè)出來(lái)后,同時(shí)就對(duì)學(xué)習(xí)者所犯的錯(cuò)誤根據(jù)專家關(guān)于發(fā)音錯(cuò)誤的知識(shí)給出相應(yīng)的錯(cuò)誤提示與錯(cuò)誤糾正建議。其中,對(duì)于這些發(fā)音專家知識(shí)的構(gòu)建而言,是通過事先收集大量的經(jīng)驗(yàn)數(shù)據(jù)而積累而成的,例如不同學(xué)習(xí)者的發(fā)音特點(diǎn)等,然后通過數(shù)據(jù)挖掘的聚類算法將不同學(xué)習(xí)者不同發(fā)音特征的聚類準(zhǔn)確地計(jì)算出來(lái),再由專家客觀地評(píng)判分類的發(fā)音,最后將各聚類的改進(jìn)建議提出來(lái)。

    (四)回饋展示

    在基于語(yǔ)音識(shí)別技術(shù)的外語(yǔ)口語(yǔ)學(xué)習(xí)系統(tǒng)中,這一部分是整個(gè)系統(tǒng)對(duì)用戶的窗口,上述部分所產(chǎn)生的信息都可以通過分?jǐn)?shù)條或者是數(shù)字的形式為外語(yǔ)學(xué)習(xí)者展示出來(lái)。同時(shí)只有通過這個(gè)模塊,外語(yǔ)學(xué)習(xí)者才能夠從基于語(yǔ)音識(shí)別技術(shù)的外語(yǔ)口語(yǔ)學(xué)習(xí)系統(tǒng)中獲益,所以,整個(gè)系統(tǒng)的可用度都通過這一模塊設(shè)計(jì)的好壞來(lái)決定。

    四、結(jié)語(yǔ)

    總而言之,隨著社會(huì)經(jīng)濟(jì)與科學(xué)技術(shù)的快速發(fā)展,各種帶有語(yǔ)音識(shí)別技術(shù)的便攜式終端設(shè)備出現(xiàn)在人們的日常生活與學(xué)習(xí)中,為廣大外語(yǔ)愛好者與學(xué)習(xí)者提供了不受教師資源、地點(diǎn)以及時(shí)間等限制的智能外語(yǔ)學(xué)習(xí)系統(tǒng),有效地提高了外語(yǔ)學(xué)習(xí)者的學(xué)習(xí)效率與學(xué)習(xí)效果,相信在未來(lái),也能夠?yàn)橥庹Z(yǔ)學(xué)習(xí)者們提供更快、更好的電子學(xué)習(xí)手段。

    【參考文獻(xiàn)】

    [1]盧永輝.語(yǔ)音識(shí)別技術(shù)在外語(yǔ)口語(yǔ)訓(xùn)練中的應(yīng)用[J].電腦知識(shí)與技術(shù),2014(04):836-837,843.

    [2]吳艷艷.孤立詞語(yǔ)音識(shí)別的關(guān)鍵技術(shù)研究[D].青島:青島大學(xué),2012.

    篇4

    中圖分類號(hào):TP316.9

    文獻(xiàn)標(biāo)識(shí)碼:A

    DOI:10.3969/j.issn.1003-6970.2015.07.021

    0 引言

    隨著計(jì)算機(jī)的發(fā)展,智能家居在近幾年也得到了大家的重視,智能家居利用各種通信、網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)家居設(shè)備集成,為用戶提供了更加舒適高效的環(huán)境。近幾年人們對(duì)智能家居的便利程度提出了更高的要求,同時(shí)語(yǔ)音識(shí)別技術(shù)也進(jìn)一步的發(fā)展,但是語(yǔ)音在智能家居中的應(yīng)用還是相對(duì)較少,一般還要依靠遙控、手機(jī)等中控設(shè)備。語(yǔ)言是信息交流的重要手段,語(yǔ)音識(shí)別可以用聲音來(lái)控制設(shè)備完成一些特定的命令,減少用戶如手機(jī),遙控等中控設(shè)備的依賴,使生活更加方便。

    本文通過對(duì)語(yǔ)音識(shí)別技術(shù)與嵌入式控制技術(shù)的研究,用語(yǔ)音命令實(shí)現(xiàn)直接管控從而可以取代以往利用手機(jī)或者遙控方式來(lái)控制的方法,方便操作而又能提高效率。本系統(tǒng)基于NL6621板與語(yǔ)音芯片VS1003實(shí)現(xiàn)語(yǔ)音采集,并采用當(dāng)今語(yǔ)音識(shí)別領(lǐng)域的主流技術(shù)一一隱馬爾科夫模型(Hidden Markov Model,HMM)算法實(shí)現(xiàn)對(duì)人語(yǔ)音命令的識(shí)別主要是進(jìn)行模型訓(xùn)練和匹配。實(shí)驗(yàn)證明在多個(gè)語(yǔ)音樣本對(duì)系統(tǒng)的訓(xùn)練識(shí)別下,系統(tǒng)在非特定人、孤立詞語(yǔ)識(shí)別上具有良好的效果。

    1 語(yǔ)音識(shí)別與智能家居

    1.1 語(yǔ)音識(shí)別技術(shù)

    語(yǔ)音識(shí)別技術(shù)本質(zhì)上是一種模式匹配識(shí)別的過程,是機(jī)器通過識(shí)別和理解過程把語(yǔ)音信號(hào)轉(zhuǎn)變成相應(yīng)的文本文件或命令的技術(shù)。根據(jù)模式匹配過程語(yǔ)音識(shí)別系統(tǒng)可以如下圖表示。語(yǔ)音識(shí)別系統(tǒng)可以分為:特定人和非特定人的識(shí)別、獨(dú)立詞和連續(xù)詞的識(shí)別等,無(wú)論哪種識(shí)別系統(tǒng)識(shí)別過程都主要包括了語(yǔ)音信號(hào)預(yù)處理、特征提取、訓(xùn)練等。分別通過對(duì)信號(hào)的預(yù)處理分析和計(jì)算建立模板,當(dāng)對(duì)語(yǔ)音進(jìn)行識(shí)別時(shí),需要將輸入的語(yǔ)音與系統(tǒng)中存放的語(yǔ)音進(jìn)行比較從而得到識(shí)別結(jié)果。

    1.2 語(yǔ)音識(shí)別算法

    人的言語(yǔ)過程是一個(gè)雙重隨機(jī)過程。因?yàn)檎Z(yǔ)音信號(hào)本身是一個(gè)可觀察的序列,而它又是由大腦里的不可觀察的、根據(jù)言語(yǔ)需要和語(yǔ)法知識(shí)狀態(tài)選擇所發(fā)出的音素(詞、句)的參數(shù)流,大量實(shí)驗(yàn)表明,隱馬爾可夫模型(HMM)的確可以非常精確地描述語(yǔ)音信號(hào)的產(chǎn)生過程。隱馬爾可夫模型是對(duì)語(yǔ)音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過程,采用HMM進(jìn)行語(yǔ)音識(shí)別,實(shí)質(zhì)上是一種概率運(yùn)算,根據(jù)訓(xùn)練集數(shù)據(jù)計(jì)算得出模型參數(shù)后,測(cè)試集數(shù)據(jù)只需分別計(jì)算各模型的條件概率(Viterbi算法),取此概率最大者即為識(shí)別結(jié)果。一階離散馬爾可夫模型可表示為:有N個(gè)狀態(tài),Sl,S2... SN,存在一個(gè)離散的時(shí)間序列t=0,t=1…在每個(gè)時(shí)刻t,系統(tǒng)只能處于唯一一個(gè)狀態(tài)qt,下一個(gè)時(shí)刻所處的狀態(tài)是隨機(jī)出現(xiàn)的,當(dāng)前狀態(tài)qt只與前面相鄰的一個(gè)狀態(tài)qt-l有關(guān), 與其他狀態(tài)無(wú)關(guān),用表達(dá)式

    HMM語(yǔ)音識(shí)別的一般過程:

    1.前向后向算法計(jì)算

    已知觀測(cè)序列 和模型 ,如何有效的計(jì)算在給定模型條件下產(chǎn)生觀測(cè)序列O的概率

    2.Baum-Welch算法求出最優(yōu)解 :

    (1)初始化

    (2)迭代計(jì)算

    (3)最后計(jì)算

    3.Viterbi算法解出最佳狀態(tài)轉(zhuǎn)移序列:

    已知觀測(cè)序列 和模型 ,如何選擇在某種意義上最佳的狀態(tài)序列。

    (1)初始化

    (2)迭代計(jì)算:

    4.根據(jù)最佳狀態(tài)序列對(duì)應(yīng)的九給出候選音節(jié)或聲韻母

    5.通過語(yǔ)言模型形成詞和句子

    2 基于NL6621嵌入式硬件設(shè)計(jì)

    語(yǔ)音識(shí)別的硬件平臺(tái)主要包括中央處理器NL6621,可讀寫存儲(chǔ)器,聲卡芯片vs1003以及一些設(shè)備,硬件體系結(jié)構(gòu)如圖2所示。

    主系統(tǒng)使用新岸線公司的NL6621。MCU采用的最高主頻為160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,軟AP,WiFi保護(hù)設(shè)置以及WMM-PS和WPA/WPA2安全協(xié)議。codec芯片是vs1003,它與核心控制器NL6621的數(shù)據(jù)通信是通過SPI總線方式進(jìn)行的。它集成了麥克風(fēng)輸入接口,音頻輸出接口,對(duì)話筒輸入或者線路輸入進(jìn)行IMA ADPCM編碼,能有效的接受和播放音頻信息。

    硬件電路實(shí)現(xiàn):VS1003通過xCS、xDCS引腳的置高或低來(lái)確認(rèn)是哪一個(gè)接口處于傳送狀態(tài)。通過串行命令接口(SCI)和串行數(shù)據(jù)接口(SDI)來(lái)接收NL6621的控制命令和數(shù)據(jù),通過SCI HDAT1來(lái)獲取語(yǔ)音流;VS1003的功能控制,如初始化、軟復(fù)位、暫停、音量控制、播放時(shí)間的讀取等,均是通過SCI口寫入特定寄存器實(shí)現(xiàn)的。兩條SCI指令之間要通過DREQ引腳信號(hào)判斷上一次處理是否完成。

    3 基于NL6621嵌入式軟件設(shè)計(jì)

    軟件設(shè)計(jì)主要包括兩部分實(shí)現(xiàn)軟件控制嵌入式系統(tǒng)和基于HMM技術(shù)的語(yǔ)音識(shí)別算法編寫,基本的軟件架構(gòu)如圖3所示。

    針對(duì)嵌入式系統(tǒng)控制部分,包括硬件初始化以及采集音頻信號(hào)。主要是使用NL6621提供的軟件開發(fā)包,利用SDK編寫應(yīng)用程序,包括硬件管腳初始化,波特率匹配,錄音文件配置,WiFi配置,錄音,音頻文件格式轉(zhuǎn)化、程序編寫完成后需要用燒寫工具進(jìn)行燒寫。系統(tǒng)啟動(dòng)后,先初始化硬件模塊。然后系統(tǒng)開始工作,通過語(yǔ)音輸入設(shè)備MIC采集語(yǔ)音,并通過聲卡VS1003輸入語(yǔ)音。當(dāng)系統(tǒng)監(jiān)聽到語(yǔ)音輸入,開始語(yǔ)音識(shí)別,判斷識(shí)別是否正確,若正確,將命令發(fā)送給執(zhí)行設(shè)備,入耳不正確,給出相應(yīng)

    篇5

    一、引言

    語(yǔ)音作為語(yǔ)言的聲學(xué)體現(xiàn),也是人類進(jìn)行信息交流最自然、和諧的手段。與機(jī)械設(shè)各進(jìn)行語(yǔ)音的溝通,讓機(jī)器可以明白人類在說(shuō)什么,并理解這是人類長(zhǎng)期的夢(mèng)想。語(yǔ)音識(shí)別技術(shù),也被稱為自動(dòng)語(yǔ)音識(shí)別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。語(yǔ)音識(shí)別技術(shù)的應(yīng)用包括語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航、室內(nèi)設(shè)備控制、語(yǔ)音文檔檢索、簡(jiǎn)單的聽寫數(shù)據(jù)錄入等。語(yǔ)音識(shí)別技術(shù)與其他自然語(yǔ)言處理技術(shù)如機(jī)器翻譯及語(yǔ)音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。

    二、語(yǔ)音信號(hào)分析與特征提取

    1.基于發(fā)音模型的語(yǔ)音特征。(1)發(fā)音系統(tǒng)及其模型表征。其發(fā)聲過程就是由肺部進(jìn)行收縮,并進(jìn)行壓縮氣流由支氣管通過聲道和聲門引起的音頻振蕩所發(fā)生的。氣流通過聲門時(shí)使得聲帶的張力剛好使聲帶發(fā)生比較低的頻率的振蕩,從而形成準(zhǔn)周期性的空氣脈沖,空氣脈沖激勵(lì)聲道便會(huì)產(chǎn)生一些濁音;聲道的某處面積比較小,氣流沖過時(shí)便會(huì)產(chǎn)生湍流,會(huì)得到一種相似噪聲的激勵(lì),對(duì)應(yīng)的則是摩擦音;聲道完全閉合并建立起相應(yīng)的氣壓,突然進(jìn)行釋放就是爆破音。(2)語(yǔ)音信號(hào)線性預(yù)測(cè)倒譜系數(shù)。被廣泛應(yīng)用的特征參數(shù)提取技術(shù)的就是線性預(yù)測(cè)分析技術(shù),很多成功的應(yīng)用系統(tǒng)都是選用基于線性預(yù)測(cè)技術(shù)進(jìn)而提取的LPC倒譜系數(shù)作為應(yīng)用系統(tǒng)的特征。LPC倒譜就是復(fù)倒譜。復(fù)倒譜就是信號(hào)通過z進(jìn)行變換以后再取其對(duì)數(shù),求反z變換所得到的譜。線性預(yù)測(cè)分析方法其實(shí)就是一種譜的估計(jì)方法,所以其聲道模型系統(tǒng)函數(shù)H(z)反映的就是聲道頻率激勵(lì)和信號(hào)的譜包絡(luò),對(duì)IHg(z)作反z變換就可以得出其復(fù)倒譜系數(shù)。改復(fù)倒譜系數(shù)是依據(jù)線性預(yù)測(cè)模型直接獲得的,而又被稱為L(zhǎng)PC倒譜系數(shù)(LPCC)。

    2.基于聽覺模型的語(yǔ)音特征。(1)聽覺系統(tǒng)模型。一是人類的聽覺系統(tǒng)對(duì)于聲音頻率高低和聲波實(shí)際的頻率高低不是線性的關(guān)系,它對(duì)不同聲音頻率信號(hào)的敏感度是不一樣的,也可看成是對(duì)數(shù)關(guān)系。二是關(guān)于掩蔽效應(yīng)指的就是聲音A感知的閉值因?yàn)榱硗獾纳碛暗某霈F(xiàn)出現(xiàn)增大的現(xiàn)象。其生理依據(jù)主要是頻率群,對(duì)頻率群進(jìn)行劃分會(huì)出現(xiàn)許多的很小的部分,每一個(gè)部分都會(huì)對(duì)應(yīng)一個(gè)頻率群,掩蔽效應(yīng)就發(fā)生在這些部分過程中。所以在進(jìn)行相應(yīng)的聲學(xué)測(cè)量時(shí),頻率刻度一般取非線性刻度。語(yǔ)音識(shí)別方面,主要的非線性頻率刻度有Mel刻度、對(duì)數(shù)刻度和Kon~nig刻度。其中Mel刻度被廣泛的應(yīng)用,其是最合理的頻率刻度。(2)語(yǔ)音信號(hào)Mcl頻率倒譜系數(shù)。Mel頻率倒譜系數(shù)利用人們耳朵的聽覺特性,在頻域?qū)㈩l率軸變換為Mcl頻率刻度,再變換到倒譜域得到倒譜系數(shù)。MFCC參數(shù)的計(jì)算過程:

    篇6

    1 語(yǔ)音識(shí)別技術(shù)原理

    語(yǔ)音識(shí)別是為了讓機(jī)器“懂”我們的語(yǔ)言,準(zhǔn)確無(wú)誤地識(shí)別出我們發(fā)出語(yǔ)音內(nèi)容,并且做出符合語(yǔ)音內(nèi)容的一系列動(dòng)作,執(zhí)行我們的意圖。分析人類語(yǔ)言交流通信的過程,可以啟發(fā)我們的研究思路。對(duì)人類語(yǔ)音通信流程[1-2]分析如圖1。

    由人類語(yǔ)音通信流程框圖可以看出,人類發(fā)出語(yǔ)音過程如圖左半部分,語(yǔ)音理解過程如圖右半部分。語(yǔ)音識(shí)別包括兩種含義,一是:將人類說(shuō)的話轉(zhuǎn)換成文字,二是:在充分理解口述語(yǔ)音的基礎(chǔ)上,不僅僅是將語(yǔ)音轉(zhuǎn)換為文字信息,而且對(duì)語(yǔ)音內(nèi)容也要作出正確響應(yīng)[3]。在此,本文認(rèn)為語(yǔ)音識(shí)別和語(yǔ)音理解意義等同,所以可用圖1右側(cè)部分流程可將語(yǔ)音識(shí)別過程。

    目前語(yǔ)音識(shí)別技術(shù)應(yīng)用中大部分都是小詞匯量,詞語(yǔ)間相互獨(dú)立基于簡(jiǎn)單模板匹配工作原理的識(shí)別模式。針對(duì)這種典型的語(yǔ)音識(shí)別模式,原理流程路線圖[4]如圖2所示:

    1.1 基于發(fā)音模型的語(yǔ)音信號(hào)產(chǎn)生模型

    語(yǔ)音信號(hào)的產(chǎn)生是語(yǔ)音識(shí)別技術(shù)的基石,在語(yǔ)音信號(hào)處理的大部分過程中對(duì)語(yǔ)音信號(hào)產(chǎn)生模型有很強(qiáng)的依賴性。本文研究過程中,首先對(duì)人類發(fā)音過程進(jìn)行了解:人類發(fā)音流程是首先肺部收縮,迫使氣流通過聲門和聲道引起音頻震蕩產(chǎn)生[3]。根據(jù)人的聲道三種不同激勵(lì)方式,分別對(duì)應(yīng)產(chǎn)生了三種被大家熟知的發(fā)音類型,分別是濁音,摩擦音或清音,爆破音。

    語(yǔ)音信號(hào)可看做由線性系統(tǒng)受到激勵(lì)信號(hào)的激勵(lì)輸出產(chǎn)生。如圖3是基于發(fā)音模型的語(yǔ)音信號(hào)產(chǎn)生模型流程圖:

    如圖3建立的語(yǔ)音信號(hào)產(chǎn)生模型中認(rèn)為濁音是周期為N0的沖激信號(hào),且N0=fs/F0(其中F0是基音頻率,fs是采樣頻率)。清音認(rèn)為是一個(gè)均值為0,幅值是正態(tài)分布的波形信號(hào)。參數(shù)Av,Au分別用來(lái)調(diào)節(jié)濁音和清音的幅值。

    從已有語(yǔ)音識(shí)別技術(shù)研究結(jié)果可知,窗函數(shù)類型眾多,使用不同形式的窗函數(shù)對(duì)短時(shí)分析處理語(yǔ)音信號(hào)結(jié)果有很大的影響。已知目前應(yīng)用最廣泛的窗函數(shù)是漢明窗,結(jié)合仿真實(shí)驗(yàn)分析可以看出:高斯窗函數(shù)的橫向主瓣寬度最小,但其縱向旁瓣高度最高;漢明窗函數(shù)的橫向主瓣寬度最寬,縱向旁瓣高度是三種窗函數(shù)中最低的。

    2.3 端點(diǎn)檢測(cè)

    語(yǔ)音信號(hào)的起始點(diǎn)是語(yǔ)音信號(hào)處理的關(guān)鍵分界點(diǎn),端點(diǎn)檢測(cè)的目的就是找到連續(xù)語(yǔ)音信號(hào)中的信號(hào)起始點(diǎn)。常用的端點(diǎn)檢測(cè)方法有兩種,分別是短時(shí)平均能量和短時(shí)過零率[6]。當(dāng)下流行的端點(diǎn)檢測(cè)方法是短時(shí)平均能量和短時(shí)過零率兩者的結(jié)合,稱這種方法為雙門限端點(diǎn)檢測(cè)算法[7]。

    在實(shí)際問題中通常采用兩者結(jié)合解決問題。本文同樣是采用兩者結(jié)合的方法,利用短時(shí)過零率方法檢測(cè)語(yǔ)音信號(hào)波形穿越零電平的次數(shù),既代表的是清音;用短時(shí)平均能量方法計(jì)算第y幀語(yǔ)音信號(hào)的短時(shí)平均能量E(y),既代表的是濁音,進(jìn)而實(shí)現(xiàn)可靠的端點(diǎn)檢測(cè)。

    3 特征提取

    目前特征是語(yǔ)音信號(hào)預(yù)處理中的重要步驟。在實(shí)際特征提取中,較常采用的參數(shù)是線性預(yù)測(cè)倒譜系數(shù)(LPCC)和Mel倒譜系數(shù)(MFCC)。二者采用的均是時(shí)域轉(zhuǎn)換到倒譜域上,但是出發(fā)思路兩者不同。線性預(yù)測(cè)倒譜系數(shù)(LPCC)以人類發(fā)聲模型為基礎(chǔ),采用線性預(yù)測(cè)編碼(LPC)技術(shù)求倒譜系數(shù);Mel倒譜系數(shù)(MFCC)以人類聽覺模型為基礎(chǔ),通過離散傅利葉變換(DFT)進(jìn)行變換分析。

    其中k表示第k個(gè)濾波器,Hm(k)表示第k個(gè)mel濾波器組,f(m)為中心頻率,m=1,2,…K,K表示濾波器個(gè)數(shù)。

    經(jīng)過仿真實(shí)驗(yàn)分析比較,可以分析得出Mel倒譜系數(shù)(MFCC)參數(shù)較線性預(yù)測(cè)倒譜系數(shù)(LPCC)參數(shù)的優(yōu)點(diǎn),優(yōu)點(diǎn)如下:

    (1)語(yǔ)音低頻信號(hào)是語(yǔ)音信息的聚集區(qū),高頻信號(hào)相對(duì)低頻語(yǔ)音信號(hào)更容易受到周圍環(huán)境等的干擾。Mel倒譜系數(shù)(MFCC)將線性頻標(biāo)轉(zhuǎn)化為Mel頻標(biāo),強(qiáng)調(diào)語(yǔ)音的低頻信息,從而突出了有利于識(shí)別的信息,屏蔽了噪聲的干擾[8]。LPCC參數(shù)是基于線性頻標(biāo)的,所以沒有這一特點(diǎn);

    (2)MFCC參數(shù)無(wú)任何假設(shè)前提,在各種語(yǔ)音信號(hào)預(yù)處理情況下均可使用,但是LPCC參數(shù)首先假定所處理的語(yǔ)音信號(hào)是AR信號(hào),對(duì)于動(dòng)態(tài)特性較強(qiáng)的輔音,這個(gè)假設(shè)并不嚴(yán)格成立[8];

    (3)MFCC參數(shù)提取過程中需要經(jīng)過FFT變換,我們可以順便獲得語(yǔ)音信號(hào)頻域上的全部信息,不需要多花費(fèi)時(shí)間處理,有利于端點(diǎn)檢測(cè)、語(yǔ)音分段等算法實(shí)現(xiàn)[8]。

    4 訓(xùn)練與識(shí)別

    訓(xùn)練和識(shí)別是語(yǔ)音識(shí)別的中心內(nèi)容,有很多專家學(xué)者研究了一系列成果。語(yǔ)音識(shí)別實(shí)質(zhì)是模式匹配的過程,而對(duì)分類器和分類決策的設(shè)計(jì)[9]又是模式匹配的核心。在現(xiàn)有的分類器設(shè)計(jì)[10-11]中,經(jīng)常使用的有:動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)分類器、基于人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)分類器、基于高斯混合模型(GMM)分類器、基于Bayes規(guī)則的分類器、基于HMM分類器[12]等。

    本文重點(diǎn)討論語(yǔ)音信號(hào)預(yù)處理中技術(shù)及實(shí)現(xiàn),對(duì)訓(xùn)練和識(shí)別技術(shù)不再做研究描述。

    【參考文獻(xiàn)】

    [1]尹巖巖.基于語(yǔ)音識(shí)別與合成的低速率語(yǔ)音編碼研究[D].上海師范大學(xué),2013.

    [2]偉偉.通信系統(tǒng)中語(yǔ)音質(zhì)量評(píng)價(jià)的研究[D].北京郵電大學(xué),2014.

    [3]朱淑琴.語(yǔ)音識(shí)別系統(tǒng)關(guān)鍵技術(shù)研究[D].西安電子科技大學(xué),2004.

    [4]王偉臻.基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別研究[D].浙江大學(xué),2008.

    [5]鐘林鵬.說(shuō)話人識(shí)別系統(tǒng)中的語(yǔ)音信號(hào)處理技術(shù)研究[D].電子科技大學(xué),2013.

    [6]周剛,周萍,楊青.一種簡(jiǎn)單的噪聲魯棒性語(yǔ)音端點(diǎn)檢測(cè)方法[J].測(cè)控技術(shù),2015,(02):31-34.

    [7]薛勝堯.基于改進(jìn)型雙門限語(yǔ)音端點(diǎn)檢測(cè)算法的研究[J].電子設(shè)計(jì)工程,2015,(04):78-81.

    [8]惠博.語(yǔ)音識(shí)別特征提取算法的研究及實(shí)現(xiàn)[D].西北大學(xué),2008.

    [9]張寧.基于決策樹分類器的遷移學(xué)習(xí)研究[D].西安電子科技大學(xué),2014.

    篇7

    中圖分類號(hào):TN912.34 文獻(xiàn)標(biāo)識(shí)碼:A

    1語(yǔ)音識(shí)別技術(shù)

    1.1語(yǔ)音識(shí)別技術(shù)簡(jiǎn)介

    語(yǔ)音識(shí)別技術(shù)主要分為兩類,一是語(yǔ)音意義的識(shí)別,一種是目標(biāo)聲識(shí)別。第一個(gè)被稱為語(yǔ)音識(shí)別,它是根據(jù)聲音的成詞特點(diǎn)對(duì)聲音進(jìn)一步分析,主要應(yīng)用在人工智能,人機(jī)對(duì)話和快速輸入等領(lǐng)域。通過訪問聲音的特征,從目標(biāo)語(yǔ)音中進(jìn)行提取,該項(xiàng)技術(shù)可以區(qū)分多目標(biāo)語(yǔ)音的種類,確定目標(biāo),主要用于戰(zhàn)場(chǎng)目標(biāo)識(shí)別領(lǐng)域,海上偵察系統(tǒng),預(yù)警系統(tǒng),軍事聲納識(shí)別,車輛聲音識(shí)別,火車預(yù)警系統(tǒng),動(dòng)物個(gè)體的語(yǔ)音識(shí)別和家庭安全系統(tǒng)等。

    科技研究人員通過對(duì)語(yǔ)音信號(hào)處理技術(shù)進(jìn)行深入的研究,結(jié)果發(fā)現(xiàn):人的聽覺系統(tǒng)的聲音配合具有獨(dú)特的優(yōu)勢(shì),它能準(zhǔn)確地提取目標(biāo)的聲音特征,準(zhǔn)確地辨別聲音的方向和內(nèi)容分類,所以基于仿生聽覺系統(tǒng)的目標(biāo)聲識(shí)別技術(shù)備受現(xiàn)代前沿科技的關(guān)注。針對(duì)目標(biāo)聲音識(shí)別系統(tǒng)的研究工作成為了現(xiàn)代語(yǔ)音識(shí)別技術(shù)研究的一個(gè)熱門方向,不少科技研究人員正在積極探索先進(jìn)可行的仿生學(xué)理論,特征提取技術(shù)和語(yǔ)音識(shí)別技術(shù)。

    1.2語(yǔ)音識(shí)別技術(shù)的研究現(xiàn)狀

    語(yǔ)音識(shí)別技術(shù)主要是通過對(duì)監(jiān)測(cè)數(shù)據(jù)的聲音特性分析,得到聲音特性的樣本文件。語(yǔ)音識(shí)別技術(shù)是一種非接觸技術(shù),用戶可以很自然地接受。但語(yǔ)音識(shí)別技術(shù)和其他行為識(shí)別技術(shù)具有共同的缺點(diǎn),即輸入樣本的變化太大,所以很難完成一些精確的匹配,聲音也會(huì)伴隨著速度,音質(zhì)的變化而影響到信號(hào)的采集和結(jié)果的比較。

    在語(yǔ)音識(shí)別中,語(yǔ)音識(shí)別是最早也是比較成熟的領(lǐng)域。隨著越來(lái)越多的應(yīng)用需求,識(shí)別聲音并不局限于語(yǔ)音識(shí)別,人們開始深入研究目標(biāo)識(shí)別技術(shù)的非語(yǔ)音識(shí)別,該項(xiàng)技術(shù)已經(jīng)參照了成熟的語(yǔ)音識(shí)別技術(shù)的一部分,但由于各自的應(yīng)用環(huán)境和實(shí)際的音頻特征之間的差異,該技術(shù)還存在一些差異。

    1.3語(yǔ)音識(shí)別技術(shù)的實(shí)際應(yīng)用

    在民用方面,目標(biāo)聲音識(shí)別系統(tǒng)可以應(yīng)用于門禁系統(tǒng),網(wǎng)絡(luò)安全,認(rèn)證,智能機(jī)器人,動(dòng)物語(yǔ)音識(shí)別,電子商務(wù)和智能交通等領(lǐng)域。在智能交通領(lǐng)域,利用來(lái)自車輛識(shí)別模型的運(yùn)動(dòng)音頻信號(hào),可以實(shí)現(xiàn)交通信息的智能化管理。在智能機(jī)器人領(lǐng)域,機(jī)器人目標(biāo)聲音識(shí)別系統(tǒng)可以作為機(jī)器人的耳朵,通過環(huán)境聲音識(shí)別并確定聲音的方位,然后再反應(yīng)外界的聲音,因此可以將其當(dāng)作家庭自動(dòng)化服務(wù)系統(tǒng)和安全系統(tǒng)。在動(dòng)物的語(yǔ)音識(shí)別領(lǐng)域,可以根據(jù)害蟲聲特征來(lái)區(qū)分害蟲種類,根據(jù)不同的害蟲采取不同的措施。在網(wǎng)絡(luò)應(yīng)用領(lǐng)域,在關(guān)于各種在線服務(wù)支持的語(yǔ)音識(shí)別技術(shù)新項(xiàng)目開發(fā)中,可以提高網(wǎng)絡(luò)的服務(wù)質(zhì)量,給人們的生活帶來(lái)方便?,F(xiàn)在,美國(guó),德國(guó)和日本都開了電話銀行,語(yǔ)音代替原來(lái)的密碼和使用印章,簡(jiǎn)化了工作服務(wù)流程,提高工作效率。

    在軍事上,目標(biāo)聲音識(shí)別技術(shù)來(lái)自于第二次世界大戰(zhàn),在探測(cè)敵人的炮火和潛艇時(shí),起著重要的識(shí)別和定位作用。但由于計(jì)算機(jī)技術(shù),信號(hào)處理技術(shù),光電檢測(cè)和雷達(dá)檢測(cè)技術(shù)快速的發(fā)展,使聲探測(cè)技術(shù)發(fā)展得十分緩慢。直到現(xiàn)代的戰(zhàn)爭(zhēng),研發(fā)了使用于戰(zhàn)爭(zhēng)中的三維信息,全方位定向,反欺詐、欺騙、干擾和反偵察、監(jiān)視,在隱身與反隱身的現(xiàn)代戰(zhàn)爭(zhēng)中為國(guó)家的國(guó)防事業(yè)做出了不可磨滅的杰出貢獻(xiàn)。通過電,磁,光學(xué)和雷達(dá)探測(cè)技術(shù)和主動(dòng)檢測(cè)技術(shù)來(lái)完成偵察任務(wù)已經(jīng)不能滿足現(xiàn)代戰(zhàn)爭(zhēng)的需求。在武裝直升機(jī)技術(shù)成熟的當(dāng)代,隱形轟炸機(jī)和其他高科技武器都有了反射功率,抗電磁干擾,反輻射的功能,特別是快速發(fā)展的數(shù)字技術(shù)和計(jì)算機(jī)技術(shù),迫使各國(guó)為了實(shí)現(xiàn)對(duì)目標(biāo)的定位跟蹤和噪聲識(shí)別而重新開始研究被動(dòng)聲探測(cè)技術(shù),關(guān)注聲檢測(cè)技術(shù)。在未來(lái)戰(zhàn)爭(zhēng)中,武器裝備發(fā)展的一個(gè)重要趨勢(shì)是智能化、小型化,一個(gè)重要的特點(diǎn)是具備目標(biāo)識(shí)別的能力,并根據(jù)不同的對(duì)象使用不同的攻擊方法。

    2聽覺系統(tǒng)

    為了設(shè)計(jì)一個(gè)更精確的目標(biāo)聲音識(shí)別系統(tǒng),越來(lái)越多的學(xué)者開始深入研究仿生學(xué)領(lǐng)域。通過研究發(fā)現(xiàn),人類的聽覺系統(tǒng)在聲音的物理方面具有獨(dú)特的優(yōu)勢(shì),聲音特征可以準(zhǔn)確提取目標(biāo)識(shí)別中聲音的方向,種類和含量,而且還可以提高抗噪聲能力,所以基于人基于語(yǔ)音識(shí)別技術(shù)的聽覺系統(tǒng)已經(jīng)成為目前的研究熱點(diǎn)。

    人類聽覺仿生學(xué)是模仿人耳的聽覺系統(tǒng)和生理功能,并通過建立數(shù)學(xué)模型,根據(jù)數(shù)學(xué)分析原理得到的聽覺系統(tǒng)。它涉及聲學(xué),生理學(xué),信號(hào)處理,模式識(shí)別和人工智能等學(xué)科,是一個(gè)跨學(xué)科研究領(lǐng)域的綜合應(yīng)用。該技術(shù)已在軍事,交通,銀行,醫(yī)療治療的許多方面取得了重要應(yīng)用,是人類實(shí)現(xiàn)智能生命的重要研究課題之一。

    人類聽覺系統(tǒng)的處理能力大大超過目前的聲音信號(hào)處理水平。從人類聽覺系統(tǒng)的心理和生理特點(diǎn)視角,許多研究人員對(duì)接聽過程中的語(yǔ)音識(shí)別進(jìn)行深入的研究。目前,許多學(xué)者提出了不同的聽覺模型,這些模型大多是一些基于語(yǔ)音識(shí)別和語(yǔ)音質(zhì)量評(píng)價(jià)系統(tǒng)的聽覺模型,模擬人耳聽覺功能的生理結(jié)構(gòu),這些應(yīng)用處理方法大大提高了系統(tǒng)的性能。

    篇8

    中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)29-0155-04

    Research Status and Development Trend of Russian Speech Recognition Technology

    MA Yan-zhou

    (PLA University of Foreign Languages, Luoyang 471003, China)

    Abstract: Abstract: Technological advance of speech recognition facilitates intelligent human-computer interactions. And applications of speech recognition technology have made human communications easier and more instantaneous. Starting with a look at the past and the present of Russian speech recognition, this paper attempts to conduct a detailed analysis on fundamental principles of speech recognition, speech recognition technology based on Hammond theoretical groundwork for consecutive vast-vocabulary speech recognition. The paper also demonstrates steps for establishing models in Russian acoustics and speeches. As to technological barriers in speech recognition, it probes into possible way out strategies. Finally, it predicts future development direction and application prospects for Russian speech recognition technology.

    Key words: speech recognition; hmm;russian acoustic models; russian language models

    俄語(yǔ)(Русскийязык)[1]是俄羅斯和聯(lián)合國(guó)的官方語(yǔ)言,也是我國(guó)少數(shù)民族正式語(yǔ)言。在前蘇聯(lián)和俄羅斯使用,俄語(yǔ)在蘇聯(lián)時(shí)期具有很重要的地位,直到現(xiàn)在仍然有些獨(dú)聯(lián)體國(guó)家在廣泛使用,雖然這些國(guó)家已經(jīng)開始強(qiáng)調(diào)本地語(yǔ)言的重要性,但在這些國(guó)家之間依然使用俄語(yǔ)進(jìn)行交流。全球有超過一億四千萬(wàn)把俄語(yǔ)作為母語(yǔ)使用,有近四千五百萬(wàn)人以第二語(yǔ)言使用,使用俄語(yǔ)媒體的有3億多人。我國(guó)俄羅斯族使用俄語(yǔ)進(jìn)行交流,聚集地分布在新疆地區(qū)的阿勒泰、伊犁、塔城及內(nèi)蒙古呼倫貝爾市的額爾古納、滿洲里等地,

    語(yǔ)音識(shí)別(Speech Recognition)[2]是指在各種情況下,識(shí)別出語(yǔ)音的內(nèi)容,讓機(jī)器聽懂人說(shuō)的話,根據(jù)其信息而執(zhí)行人的不同意圖。它是一門交叉學(xué)科,涉及與計(jì)算機(jī)、語(yǔ)音語(yǔ)言學(xué)、通信、信號(hào)處理、數(shù)理統(tǒng)計(jì)、神經(jīng)心理學(xué)人工智能、和神經(jīng)生理學(xué)等學(xué)科。能夠能滿足不同需要的語(yǔ)音識(shí)別系統(tǒng)的實(shí)現(xiàn)已經(jīng)成為可能,它的前提是模式識(shí)別、信號(hào)處理技術(shù)、計(jì)算機(jī)技術(shù)和聲學(xué)技術(shù)等的發(fā)展。近年來(lái),軍事、交通等領(lǐng)域,尤其在計(jì)算機(jī)、人工智能等領(lǐng)域得到廣泛應(yīng)用。

    俄語(yǔ)語(yǔ)音識(shí)別是一個(gè)有巨大潛力的研究方向,不僅能夠?yàn)槿藗兊纳a(chǎn)生活、日常交往提供極大的便捷性和高效性,而且在政治、軍事、經(jīng)濟(jì)等各個(gè)領(lǐng)域都有著重要的研究?jī)r(jià)值和應(yīng)用前景。本文著重介紹語(yǔ)音識(shí)別發(fā)展歷程、闡述俄語(yǔ)語(yǔ)音識(shí)別關(guān)鍵技術(shù)、分析俄語(yǔ)語(yǔ)音識(shí)別未來(lái)的發(fā)展趨勢(shì)。

    1 俄語(yǔ)語(yǔ)音識(shí)別的現(xiàn)狀

    俄語(yǔ)連續(xù)語(yǔ)音識(shí)別取得快速發(fā)展,利益于技術(shù)的進(jìn)步。隨著語(yǔ)音識(shí)別在技術(shù)層面的不斷突破與創(chuàng)新,對(duì)英語(yǔ)的識(shí)別慢慢成熟,然后逐漸擴(kuò)展到其他語(yǔ)種如漢語(yǔ)、俄語(yǔ)等。

    1.1語(yǔ)音識(shí)別技術(shù)的發(fā)展

    20世紀(jì)50年代,語(yǔ)音識(shí)別的研究開始借助機(jī)器來(lái)實(shí)現(xiàn)。1952年,一個(gè)特定人獨(dú)立數(shù)字識(shí)別系統(tǒng)[3]由貝爾(Bell)實(shí)驗(yàn)室的Davis、Diddulph和Balashelk首次研制,該系統(tǒng)成功識(shí)別10個(gè)英語(yǔ)數(shù)字。1959年,英格蘭的Fry和Denes利用譜分析技術(shù)和模板匹配技術(shù),提高了音素的識(shí)別精度,建立了一個(gè)能夠識(shí)別9個(gè)輔音和4個(gè)元音的識(shí)別系統(tǒng)。20世紀(jì)60年代,經(jīng)過Faut和Stevens的努力,語(yǔ)音生成理論初步形成。動(dòng)態(tài)規(guī)劃方法[4]由蘇聯(lián)的Vintsyuk提出,并實(shí)現(xiàn)了對(duì)兩段語(yǔ)音進(jìn)行對(duì)齊。70年代取得一系列重大突破,基本實(shí)現(xiàn)孤立詞識(shí)別。俄羅斯推進(jìn)了模板匹配思想在語(yǔ)音識(shí)別中的應(yīng)用;利用動(dòng)態(tài)規(guī)劃方法實(shí)現(xiàn)語(yǔ)音識(shí)別也由日本的科學(xué)家實(shí)驗(yàn)成功。20世紀(jì)80年代,語(yǔ)音識(shí)別研究的一個(gè)主要特點(diǎn)是由模板匹配方法向統(tǒng)計(jì)建模方法的轉(zhuǎn)變,特別是隱馬爾可夫模型[5-6]。盡管HMM眾所周知,但是直到20世紀(jì)80年代中期HMM模型才廣泛被世界各地的語(yǔ)音識(shí)別實(shí)驗(yàn)室熟悉和采納。另一個(gè)新方向是利用神經(jīng)網(wǎng)絡(luò)解決語(yǔ)音識(shí)別問題,促進(jìn)了該技術(shù)在語(yǔ)音識(shí)別領(lǐng)域的應(yīng)用[7-9]。20世紀(jì)80年代后期,在DAPRA的支持下,對(duì)大詞匯連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研制也取得了顯著的成果,研究機(jī)構(gòu)主要有CMU、BBN、林肯實(shí)驗(yàn)室、MIT、AT&T貝爾實(shí)驗(yàn)室。

    20世紀(jì)90年代以來(lái),語(yǔ)音識(shí)別開始實(shí)用化研究,并取得了突破性的進(jìn)展。其中算法的研究取得了非常明顯的效果,并提升了系統(tǒng)的性能,如最大似然線性回歸(Maximum Likelihood Linear Regression, MLLR),最大后驗(yàn)概率準(zhǔn)則估計(jì)(MaximumA-Posteriori Estimation, MAP),以及用于模型參數(shù)綁定的決策樹狀態(tài)聚類等算法,這些算法的不斷優(yōu)化,也使得應(yīng)用于實(shí)際的語(yǔ)音識(shí)別不斷出現(xiàn)。最具有有代表性的系統(tǒng)有:Dragon System公司的NaturallySpeaking,Nuance公司的Nuance Voice Platform語(yǔ)音平臺(tái),IBM公司推出的ViaVoice, Sun的VoiceTone,Microsoft的Whisper,等。在美國(guó)國(guó)家標(biāo)準(zhǔn)和技術(shù)研究所(Nationa lInstitute of standardsand Technology,NIST) 和DARPA的不斷推動(dòng)下,各個(gè)研究機(jī)構(gòu)不斷嘗試語(yǔ)音識(shí)別任務(wù),目的是不斷提高識(shí)別的性能。進(jìn)入21世紀(jì),在向廣度和深度兩方面,自動(dòng)語(yǔ)音識(shí)別得到了更為廣泛的研究。魯棒性語(yǔ)音識(shí)別,進(jìn)行了了細(xì)致的調(diào)研,特別是在置信度和句子確認(rèn)方面非常有效,尤其對(duì)處理病句。在21世紀(jì)的前10年,信息技術(shù)領(lǐng)域最重要的十大科技發(fā)展技術(shù)之一就有語(yǔ)音識(shí)別技術(shù)的一席之地,人機(jī)接口關(guān)鍵的語(yǔ)音識(shí)別技術(shù),已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè),它的實(shí)用化研究將成為未來(lái)的方向。

    1.2俄語(yǔ)語(yǔ)音識(shí)別技術(shù)的發(fā)展

    語(yǔ)音技術(shù)的研究主要集中在幾個(gè)主要的語(yǔ)言,如英語(yǔ),法語(yǔ),西班牙語(yǔ),漢語(yǔ)和西班牙語(yǔ),一些其他語(yǔ)言尤其是東歐語(yǔ)言很少受到注意。但是近幾年在俄羅斯,捷克,波蘭,塞爾維亞,克羅地亞等俄語(yǔ)區(qū)對(duì)俄語(yǔ)語(yǔ)音技術(shù)的研究活動(dòng)正在穩(wěn)步上升。

    俄羅斯科學(xué)院緊跟世界語(yǔ)音識(shí)別技術(shù)的發(fā)展,結(jié)合俄語(yǔ)自身的獨(dú)有發(fā)音特點(diǎn)進(jìn)行了卓有成效的研究并取得了一系列的成果。在開發(fā)聲學(xué),詞匯和語(yǔ)言模型時(shí)采取特別重視俄語(yǔ)的細(xì)節(jié),對(duì)于聲學(xué)模型,采用知識(shí)和基于統(tǒng)計(jì)的方法來(lái)創(chuàng)建幾個(gè)不同的音素集10。對(duì)于語(yǔ)言模型(LM),從不同網(wǎng)站自動(dòng)收集新聞文本語(yǔ)料,用統(tǒng)計(jì)分析的方法將訓(xùn)練文本數(shù)據(jù)和語(yǔ)法相結(jié)合,計(jì)算不同情況下n-gram中單詞的頻率,優(yōu)化n-gram模型,以建立更好的n-gram模型[11]。在基本語(yǔ)音識(shí)別單元的問題上采用距離最小信息不匹配的原則,建立語(yǔ)素級(jí)單元,顯著減少誤差概率[12]。

    語(yǔ)料庫(kù)是語(yǔ)音識(shí)別最基本的支撐,文本語(yǔ)料和口語(yǔ)語(yǔ)料都是一個(gè)語(yǔ)料庫(kù)不可或缺的組成部分,任缺其一則語(yǔ)料庫(kù)就不能反映該語(yǔ)言的完整信息,也沒有辦法在此基礎(chǔ)上進(jìn)行大詞匯、非特定人連續(xù)俄語(yǔ)語(yǔ)音識(shí)別的研究[13]。俄羅斯對(duì)語(yǔ)料庫(kù)的研究起步比較晚,在20世紀(jì)一直落后于世界語(yǔ)料庫(kù)的發(fā)展,缺乏系統(tǒng)的理論研究和先進(jìn)的實(shí)踐成果。但近十年來(lái),隨著俄羅斯國(guó)家語(yǔ)料庫(kù)建立和不斷完善,俄語(yǔ)語(yǔ)音技術(shù)的研究正在慢慢興起并取得了一些矚目的成就。

    國(guó)內(nèi)對(duì)俄語(yǔ)語(yǔ)音的研究主要集中在教學(xué)方面。使用統(tǒng)計(jì)的方法,基于HMM對(duì)俄語(yǔ)語(yǔ)音進(jìn)行建模和識(shí)別研究,目前還沒有發(fā)現(xiàn)相關(guān)的文獻(xiàn)記錄。

    2 語(yǔ)音識(shí)別技術(shù)

    語(yǔ)音識(shí)別系統(tǒng)根據(jù)角度、范圍、性能等差別,有以下的分類。

    根據(jù)詞匯量的大小分可為小詞匯量(10至100)、中詞匯量(100至500)和大詞匯量(大于500)。根據(jù)發(fā)音方式可分為孤立詞(isolated word)識(shí)別、連接詞(connected word)識(shí)別、連續(xù)語(yǔ)音(continuous word)識(shí)別等。根據(jù)說(shuō)話人特征可分為特定(speaker-dependent)說(shuō)話人和非特定(speaker-independent)說(shuō)話人。根據(jù)語(yǔ)音識(shí)別的方法不同進(jìn)行了模板匹配、隨機(jī)模型和概率語(yǔ)法分析等分類方法。

    2.1 語(yǔ)音識(shí)別基本原理

    通過計(jì)算機(jī)的輔助功能把輸入的語(yǔ)音信號(hào)變換為對(duì)應(yīng)的文本和命令,并且能夠接受人類的語(yǔ)音、理解人類的意圖,是語(yǔ)音識(shí)別技術(shù)研究的根本目的。語(yǔ)音識(shí)別系統(tǒng)核心是一套語(yǔ)音取樣、識(shí)別、匹配的模式匹配系統(tǒng)[2],基本原理如圖1所示。

    語(yǔ)音識(shí)別系統(tǒng)由三個(gè)基本單元組成,它包含特征提取、模式匹配和參考模式庫(kù),雖然它是模式識(shí)別系統(tǒng),但它的結(jié)構(gòu)要比普通的模式識(shí)別系統(tǒng)要復(fù)雜,因?yàn)檎Z(yǔ)音所包含的信息是復(fù)雜多樣的語(yǔ)言信息,結(jié)構(gòu)也是多變的。首先對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行預(yù)處理,預(yù)處理包括適當(dāng)放大信號(hào)功率并對(duì)增益進(jìn)行有效控制,之后進(jìn)行反混疊濾波以消除信號(hào)的干擾;然后將模擬信號(hào)轉(zhuǎn)化為數(shù)字信號(hào)即數(shù)字化處理,便于存儲(chǔ)和處理;然后進(jìn)行特征提取,并使用一些參數(shù)來(lái)表示的語(yǔ)音信號(hào)的特性;最后對(duì)其進(jìn)行識(shí)別。語(yǔ)音識(shí)別又分為兩階段:訓(xùn)練和識(shí)別。在訓(xùn)練階段,利用特征參數(shù)表示語(yǔ)音信號(hào)的相應(yīng)特征,得到標(biāo)準(zhǔn)數(shù)據(jù)即模板,將模板構(gòu)建成一個(gè)數(shù)據(jù)庫(kù)即模板庫(kù);在識(shí)別階段,將語(yǔ)音特征與模板庫(kù)中的每一個(gè)模板進(jìn)行比較,找到了最相似的參考模板,這就是識(shí)別的結(jié)果。

    2.2 HMM模型技術(shù)

    語(yǔ)音識(shí)別早期采用的有矢量量化(Vector quantization, VQ)技術(shù)、動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping, DTW)技術(shù)等,從處理難度上看,最簡(jiǎn)單的是小詞匯量、特定人、孤立詞的語(yǔ)音識(shí)別,最難解決的是大詞匯量、非特定人、連續(xù)語(yǔ)音識(shí)別。當(dāng)今語(yǔ)音識(shí)別系統(tǒng)采用的主流算法是HMM模型技術(shù)。

    HMM模型的狀態(tài)不能被直接觀察到,但可以通過觀測(cè)向量序列來(lái)觀察到,這些向量都是通過某些特定的概率密度分布來(lái)表現(xiàn)為各種狀態(tài)的,每個(gè)觀測(cè)向量都是由一個(gè)狀態(tài)序列產(chǎn)生的,這些狀態(tài)序列具有相應(yīng)的概率密度分布。HMM是一個(gè)雙重隨機(jī)過程:具有一定狀態(tài)數(shù)量的隱馬爾可夫鏈和顯示隨機(jī)函數(shù)集。HMM的基本問題及解決算法6-9

    1)評(píng)估問題(前向算法)。

    現(xiàn)有觀測(cè)序列O=O1O2O3…Ot以及模型參數(shù)λ=(π,A,B),如何計(jì)算觀測(cè)序列的概率,進(jìn)一步可對(duì)該HMM做出相關(guān)評(píng)估。利用forward算法分別以每個(gè)HMM產(chǎn)生給定觀測(cè)序列O的概率進(jìn)行計(jì)算,然后從其中選出最優(yōu)秀的HMM模型。

    經(jīng)典應(yīng)用例子就是語(yǔ)音識(shí)別。在HMM的語(yǔ)音識(shí)別描述中,每個(gè)單詞對(duì)應(yīng)一個(gè)HMM,每個(gè)觀測(cè)序列全部由一個(gè)單詞的語(yǔ)音來(lái)構(gòu)成,單詞的識(shí)別可以通過評(píng)估而選出最可能的HMM,此HMM由產(chǎn)生觀測(cè)序列所代表的讀音實(shí)現(xiàn)。

    2)解碼問題(Viterbi算法)

    現(xiàn)有觀測(cè)序列O=O1O2O3…Ot以及模型參數(shù)λ=(π,A,B),如何尋找最優(yōu)的隱含狀態(tài)序列。此類問題比較關(guān)注馬爾科夫模型中的隱含狀態(tài),在這些狀態(tài)中雖然不能直接觀測(cè),但價(jià)值更大,可以利用Viterbi算法來(lái)解決。

    實(shí)際例子是進(jìn)行分詞,分詞問題可以用HMM來(lái)解決。這句話的分割方法可以看做是一個(gè)隱式的狀態(tài),而這句話可以被視為一個(gè)給定的條件,從而找出基于HMM的可能正確的分割方法。

    3)訓(xùn)練問題(Baum-Welch算法即前向后向算法)

    此時(shí)HMM的模型參數(shù)λ=(π,A,B)未知,對(duì)這些參數(shù)進(jìn)行調(diào)整,使得觀測(cè)序列O=O1O2O3…Ot的概率最大,使用Reversed Viterbi算法以及Baum-Welch算法可以解決。

    2.3 大詞匯量連續(xù)語(yǔ)言識(shí)別

    在語(yǔ)音識(shí)別研究中難度和挑戰(zhàn)性最大為課題應(yīng)該是基于大詞匯量的、非特定人的連續(xù)語(yǔ)音識(shí)別[13]。在詞匯量大于1000詞的時(shí)候,比較容易混淆的詞數(shù)量增加,誤識(shí)率約為基于小詞匯量的、特定人的孤立詞識(shí)別系統(tǒng)的50倍左右。而且還帶來(lái)兩個(gè)重要的、不易解決的問題:語(yǔ)流的切分和連續(xù)語(yǔ)音的發(fā)音變化。此時(shí)采用統(tǒng)一框架可以有效解決這個(gè)問題。大詞匯量連續(xù)語(yǔ)音識(shí)別總體框架[14]如圖2所示。

    俄語(yǔ)語(yǔ)音信號(hào)分析后,形成特征向量,并通過字典識(shí)別模型,然后,根據(jù)語(yǔ)言模型的語(yǔ)法,將輸入的語(yǔ)音與模板匹配,在句子層面進(jìn)行組合。從俄語(yǔ)聲學(xué)模型、俄語(yǔ)語(yǔ)言模型敘述大詞匯量連續(xù)語(yǔ)音識(shí)別的過程。

    2.3.1聲學(xué)模型

    設(shè)計(jì)俄語(yǔ)語(yǔ)音識(shí)別系統(tǒng)底層相應(yīng)的HMM子詞單元模型,需要充分考慮俄語(yǔ)聲學(xué)和語(yǔ)音學(xué)的特征。俄語(yǔ)基本聲學(xué)單元的選擇是聲學(xué)建模過程中一個(gè)基本而重要的問題。在俄語(yǔ)連續(xù)語(yǔ)音識(shí)別中,可供選擇的基本單元包括詞、音節(jié)、元輔音等。識(shí)別基本單元的選擇一般基于語(yǔ)音學(xué)知識(shí)。

    俄語(yǔ)字母是語(yǔ)音的書面形式,每個(gè)俄語(yǔ)字母都有自己的字母名稱。元音字母的名稱和讀音相同,輔音字母的名稱是在該輔音后加一個(gè)元音[15-16]。如字母с的名稱為эс,字母б的名稱為бэ等。字母名稱通常用于讀某些縮寫詞。俄語(yǔ)字母共有33個(gè)字母如表1所示。

    根據(jù)俄語(yǔ)詞的發(fā)音特征、音節(jié)的發(fā)音特征和字母的發(fā)音特征,選擇音素作為子詞單元,然后就可以進(jìn)行HMM訓(xùn)練,首先用一種很粗糙的方法進(jìn)行初始分段,然后向前向后算法或K-均值算法用于多次迭代,自動(dòng)收斂到一個(gè)最佳的模型,并實(shí)現(xiàn)了一個(gè)合理的子詞分割。這樣就可以初步完成俄語(yǔ)的聲學(xué)建模,建設(shè)一個(gè)俄語(yǔ)語(yǔ)音參考模式庫(kù)。

    2.3.2 統(tǒng)計(jì)語(yǔ)言模型

    自然語(yǔ)言處理問題必然要乃至統(tǒng)計(jì)語(yǔ)言模型[17],如語(yǔ)音識(shí)別、機(jī)器翻譯、分詞、詞性標(biāo)注等等。統(tǒng)計(jì)語(yǔ)言模型是計(jì)算概率的模型,即。使用語(yǔ)言模型,可以確定一個(gè)單詞序列的概率,或給定一個(gè)單詞的數(shù)目,它可以預(yù)測(cè)下一個(gè)最有可能的單詞。

    那么如何計(jì)算一個(gè)句子的概率呢?給定句子(詞語(yǔ)序列),它的概率可以表示為:

    由于上式中的參數(shù)過多,因此需要近似的計(jì)算方法。下面介紹適用于俄語(yǔ)的n-gram統(tǒng)計(jì)語(yǔ)言模型。

    n-gram模型即n-1階馬爾科夫模型,首先假設(shè):當(dāng)前詞的出現(xiàn)概率僅僅與前面n-1個(gè)詞相關(guān)。因此(1)式可以近似為:

    當(dāng)n值為1、2、3時(shí),n-gram模型分別稱為unigram、bigram和trigram語(yǔ)言模型。n-gram模型的參數(shù)就是條件概率。N取值越大,模型越準(zhǔn)確但計(jì)算越復(fù)雜計(jì)算量越大。在俄語(yǔ)語(yǔ)言模型的建立過程中,采用最多是二元模型和三元模型。

    2.3.3 連續(xù)語(yǔ)音識(shí)別系統(tǒng)的性能評(píng)測(cè)

    評(píng)定連續(xù)語(yǔ)音識(shí)別系統(tǒng)的優(yōu)劣,觀測(cè)系統(tǒng)的性能,一般都是針對(duì)不同的識(shí)別任務(wù),不同的任務(wù)單詞庫(kù)和任務(wù)語(yǔ)句庫(kù),需要不同的評(píng)價(jià)標(biāo)準(zhǔn)。如果要想粗略地評(píng)估某個(gè)系統(tǒng),可以從兩個(gè)方面去考慮,一是系統(tǒng)識(shí)別任務(wù)的難易程度即復(fù)雜性;另一個(gè)是采用該系統(tǒng)的識(shí)別系統(tǒng)的識(shí)別方法對(duì)該難度的識(shí)別任務(wù)的識(shí)別效果即識(shí)別率。在連續(xù)語(yǔ)音識(shí)別系統(tǒng)中,通過對(duì)音素、音節(jié)或詞的識(shí)別率進(jìn)行識(shí)別性能評(píng)價(jià),常用的系統(tǒng)參數(shù)是正確率(正確率),錯(cuò)誤率和識(shí)別準(zhǔn)確率。

    其中的正確數(shù)、轉(zhuǎn)換數(shù)、插入數(shù)和脫落數(shù),采用主觀的方法來(lái)目測(cè),馬可以通過統(tǒng)計(jì)的方法來(lái)得到。

    2.4 HTK工具

    語(yǔ)音識(shí)別過程涉及的算法復(fù)雜,其中最為著名的HTK由劍橋大學(xué)研發(fā),主要用來(lái)建立基于HMM的大規(guī)模連續(xù)語(yǔ)音識(shí)別系統(tǒng)。該軟件集為開放源代碼,可以在UNIX/Linux和Windows環(huán)境下運(yùn)行。HTK提供了一系列命令函數(shù)用于語(yǔ)音識(shí)別,包括一系列的運(yùn)行庫(kù)和工具,使用基于ASNIC模塊化設(shè)計(jì),可以實(shí)現(xiàn)語(yǔ)音錄制、分析、標(biāo)示、HMM的訓(xùn)練、測(cè)試和結(jié)果分析。整個(gè)HTK的工作過程包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練和識(shí)別過程。

    3 語(yǔ)音識(shí)別的應(yīng)用

    隨著計(jì)算機(jī)技術(shù)的進(jìn)步、算法的不斷優(yōu)化、信息處理技術(shù)的智能化,俄語(yǔ)語(yǔ)音識(shí)別技術(shù)的發(fā)展會(huì)越來(lái)越光明。應(yīng)用的范圍也會(huì)越來(lái)越廣,可能會(huì)出現(xiàn)一些新的應(yīng)用。

    1)俄語(yǔ)語(yǔ)音信息檢索

    網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的迅速發(fā)展,數(shù)據(jù)量急劇增多,如何在海量數(shù)據(jù)中挑選出有用的信息,并進(jìn)行相應(yīng)的分類和檢索,對(duì)合理地利用信息資源具有重要的意義。多媒體檢索技術(shù)應(yīng)運(yùn)而生。

    2)俄語(yǔ)發(fā)音自學(xué)技術(shù)

    非母語(yǔ)語(yǔ)言學(xué)習(xí)成為目前教育領(lǐng)域的一個(gè)熱點(diǎn),而自學(xué)是語(yǔ)言學(xué)習(xí)的一個(gè)有效途徑,它具有不受時(shí)間和空間限制、靈活方便的特點(diǎn),一種稱為計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)的技術(shù)誕生了。有幾個(gè)普通問題和關(guān)鍵技術(shù)是必須要考慮和解決的:標(biāo)準(zhǔn)發(fā)音語(yǔ)料庫(kù)和非標(biāo)準(zhǔn)發(fā)音語(yǔ)料庫(kù)、學(xué)習(xí)者發(fā)音的分級(jí)標(biāo)準(zhǔn)、語(yǔ)音對(duì)齊、衡量發(fā)音質(zhì)量的評(píng)判標(biāo)準(zhǔn)和發(fā)音矯正。

    3)基于俄語(yǔ)語(yǔ)音情感處理

    人與人的交流,除了語(yǔ)言信息外,非語(yǔ)言信息也起著非常重要的作用,包含在語(yǔ)音信號(hào)中的情感因素[18],也反映了信息的一個(gè)方面。情感的分析和識(shí)別也是一個(gè)非常困難的研究方向。

    4)嵌入式俄語(yǔ)語(yǔ)音識(shí)別技術(shù)

    后PC時(shí)代智能終端的飛速發(fā)展,為人機(jī)之間的自然、快捷交互提供了可能。當(dāng)前嵌入式語(yǔ)音識(shí)別的應(yīng)用領(lǐng)域還比較有限,未來(lái)應(yīng)用可能會(huì)更加廣泛。

    4 總結(jié)

    語(yǔ)音識(shí)別技術(shù)的實(shí)用研究是一項(xiàng)極具挑戰(zhàn)性的工作,雖然經(jīng)歷了近半個(gè)世紀(jì)的發(fā)展,取得了一些突破性的進(jìn)展。語(yǔ)音識(shí)別技術(shù)在俄語(yǔ)方面的應(yīng)用更是如此,不僅要解決語(yǔ)音識(shí)別技術(shù)本身的問題,還要解決高質(zhì)量的俄語(yǔ)語(yǔ)音語(yǔ)料庫(kù)和文本語(yǔ)料庫(kù)的問題,同時(shí)還要解決各種算法與俄語(yǔ)適應(yīng)和匹配等其他問題,如俄語(yǔ)自然語(yǔ)言的識(shí)別與理解、俄語(yǔ)語(yǔ)音信息的變化范圍與幅度、俄語(yǔ)語(yǔ)音的清晰度、俄語(yǔ)語(yǔ)音發(fā)音與環(huán)境噪聲及上下文的影響等等。雖然面臨諸多困難,但是隨著人類文明的不斷發(fā)展與科技的不斷進(jìn)步,相信這些問題會(huì)在不久的將來(lái)逐一得到解決,展現(xiàn)在人們面前的是更加流暢、更加智能的人機(jī)交互界面。

    參考文獻(xiàn)

    [1] 趙力.語(yǔ)音信號(hào)處理 [M].北京:機(jī)械工業(yè)出版社,2011:191-215.

    [2] 韓紀(jì)慶,張磊,鄭鐵然.語(yǔ)音信號(hào)處理[M].北京:清華大學(xué)出版社,2013:241-255.

    [3] Karpov,K. Markov,I. Kipyatkova, et al.Large Vocabulary Russian Speech Recognition Using Syntactico-statistical Language Modeling[J].Speech Communication,2014,56(1):213-228.

    [4] Alex Waibel,ToshiyukiHanazawa,Geoffrey Hinton, et al.Phoneme Recognition Using Time-delay Neural Networks[J].Acoustics, Speech and Signal Processing, IEEE Transactions on,1989,37(3):328-339.

    [5] KH Davis,RBiddulph,SBalashek.Automatic Recognition of Spoken Digits[J].The Journal of the Acoustical Society of America,1952,24(6):637-642.

    [6] Lawrence Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition [J].Proceedings of the IEEE, 1989, 77(2):257-286.

    [7] Leonard E Baum,JAEagon.An Inequality with Applications to Statistical Estimation for Probabilistic Functions of Markov Processes and to a Model for Ecology[J].Bull. Amer. Math. Soc, 1967, 73(3):360-363.

    [8] Leonard E Baum,TedPetrie,GeorgeSoules, et al.A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains[J].The Annals of Mathematical Statistics,1970(1):164-171.

    [9] Leonard E Baum.An Equality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of Markov Processes [J].Inequalities, 1972, 3(1):1-8.

    [10] ВВ Пилипенко.Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных[J].Искусственный интеллект,2006(3):548-557.

    [11] ВВ Савченко,ДЮ Акатьев,НВ Карпов.Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра[J].Изв. вузов России. Радиоэлектр оника,2007(4):35-42.

    [12] ВВ Савченко.Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в метрике Кульбака-Лейблера[J].Известия ВУЗов России.CРадиоэлектроника,2011(3):9-19.

    [13] ВВ Савченко.Фонема как элемент информационной тео рии восприятия речи[J].Известия ВУЗов России.CРадиоэ лектроника,2008(4):3-11.

    [14] ВЛ Розалиев.Построение модели эмоций по речи человека[J].Г л а в н ы й р е д а к т о р с б о р н и к а" Известия ВолгГТУ" д-р хим. наук проф. член-корр. РАН ИА Новаков, 2007(1):65.

    [15] ВЯ Чучупал,КА Маковкин,АВ Чичагов.К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи[J].Искусственный интеллект,2002,4(1):575-579.

    篇9

    語(yǔ)音識(shí)別技術(shù)目前在嵌入式系統(tǒng)中的應(yīng)用主要為語(yǔ)音命令控制,它使得原本需要手工操作的工作用語(yǔ)音就可以方便地完成。語(yǔ)音命令控制可廣泛用于家電語(yǔ)音遙控、玩具、智能儀器及移動(dòng)電話等便攜設(shè)備中。使用語(yǔ)音作為人機(jī)交互的途徑對(duì)于使用者來(lái)說(shuō)是最自然的一種方式,同時(shí)設(shè)備的小型化也要求省略鍵盤以節(jié)省體積。

    嵌入式設(shè)備通常針對(duì)特定應(yīng)用而設(shè)計(jì),只需要對(duì)幾十個(gè)詞的命令進(jìn)行識(shí)別,屬于小詞匯量語(yǔ)音識(shí)別系統(tǒng)。因此在語(yǔ)音識(shí)別技術(shù)的要求不在于大詞匯量和連續(xù)語(yǔ)音識(shí)別,而在于識(shí)別的準(zhǔn)確性與穩(wěn)健性。

    對(duì)于嵌入式系統(tǒng)而言,還有許多其它因素需要考慮。首先是成本,由于成本的限制,一般使用定點(diǎn)DSP,有時(shí)甚至只能考慮使用MPU,這意味著算法的復(fù)雜度受到限制;其次,嵌入式系統(tǒng)對(duì)體積有嚴(yán)格的限制,這就需要一個(gè)高度集成的硬件平臺(tái),因此,SoC(System on Chip)開始在語(yǔ)音識(shí)別領(lǐng)域嶄露頭角。SoC結(jié)構(gòu)的嵌入式系統(tǒng)大大減少了芯片數(shù)量,能夠提供高集成度和相對(duì)低成本的解決方案,同時(shí)也使得系統(tǒng)的可靠性大為提高。

    語(yǔ)音識(shí)別片上系統(tǒng)是系統(tǒng)級(jí)的集成芯片。它不只是把功能復(fù)雜的若干個(gè)數(shù)字邏輯電路放入同一個(gè)芯片,做成一個(gè)完整的單片數(shù)字系統(tǒng),而且在芯片中還應(yīng)包括其它類型的電子功能器件,如模擬器件(如ADC/DAC)和存儲(chǔ)器。

    筆者使用SoC芯片實(shí)現(xiàn)了一個(gè)穩(wěn)定、可靠、高性能的嵌入式語(yǔ)音識(shí)別系統(tǒng)。包括一套全定點(diǎn)的DHMM和CHMM嵌入式語(yǔ)音識(shí)別算法和硬件系統(tǒng)。

    1 硬件平臺(tái)

    本識(shí)別系統(tǒng)是在與Infineon公司合作開發(fā)的芯片UniSpeech上實(shí)現(xiàn)的。UniSpeech芯片是為語(yǔ)音信號(hào)處理開發(fā)的專用芯片,采用0.18μm工藝生產(chǎn)。它將雙核(DSP+MCU)、存儲(chǔ)器、模擬處理單元(ADC與DAC)集成在一個(gè)芯片中,構(gòu)成了一種語(yǔ)音處理SoC芯片。這種芯片的設(shè)計(jì)思想主要是為語(yǔ)音識(shí)別和語(yǔ)音壓縮編碼領(lǐng)域提供一個(gè)低成本、高可靠性的硬件平臺(tái)。

    該芯片為語(yǔ)音識(shí)別算法提供了相應(yīng)的存儲(chǔ)量和運(yùn)算能力。包括一個(gè)內(nèi)存控制單元MMU(Memory Management Unit)和104KB的片上RAM。其DSP核為16位定點(diǎn)DSP,運(yùn)算速度可達(dá)到約100MIPS.MCU核是8位增強(qiáng)型8051,每?jī)蓚€(gè)時(shí)鐘周期為一個(gè)指令周期,其時(shí)鐘頻率可達(dá)到50MHz。

    UniSpeech芯片集成了2路8kHz采樣12bit精度的ADC和2路8kHz采樣11bit的DAC,采樣后的數(shù)據(jù)在芯片內(nèi)部均按16bit格式保存和處理。對(duì)于語(yǔ)音識(shí)別領(lǐng)域,這樣精度的ADC/DAC已經(jīng)可以滿足應(yīng)用。ADC/DAC既可以由MCU核控制,也可以由DSP核控制。

    2 嵌入式語(yǔ)音識(shí)別系統(tǒng)比較

    以下就目前基于整詞模型的語(yǔ)音識(shí)別的主要技術(shù)作一比較。

    (1)基于DTW(Dynamic Time Warping)和模擬匹配技術(shù)的語(yǔ)音識(shí)別系統(tǒng)。目前,許多移動(dòng)電話可以提供簡(jiǎn)單的語(yǔ)音識(shí)別功能,幾乎都是甚至DTM和模板匹配技術(shù)。

    DTW和模板匹配技術(shù)直接利用提取的語(yǔ)音特征作為模板,能較好地實(shí)現(xiàn)孤立詞識(shí)別。由于DTW模版匹配的運(yùn)算量不大,并且限于小詞表,一般的應(yīng)用領(lǐng)域孤立數(shù)碼、簡(jiǎn)單命令集、地名或人名集的語(yǔ)音識(shí)別。為減少運(yùn)算量大多數(shù)使用的特征是LPCC(Linear Predictive Cepstrum Coefficient)運(yùn)算。

    DTW和模板匹配技術(shù)的缺點(diǎn)是只對(duì)特定人語(yǔ)音識(shí)別有較好的識(shí)別性能,并且在使用前需要對(duì)所有詞條進(jìn)行訓(xùn)練。這一應(yīng)用從20世紀(jì)90年代就進(jìn)入成熟期。目前的努力方向是進(jìn)一步降低成本、提高穩(wěn)健性(采用雙模板)和抗噪性能。

    (2)基于隱含馬爾科夫模型HMM(Hidden Markov Model)的識(shí)別算法。這是Rabiner等人在20世紀(jì)80年代引入語(yǔ)音識(shí)別領(lǐng)域的一種語(yǔ)音識(shí)別算法。該算法通過對(duì)大量語(yǔ)音數(shù)據(jù)進(jìn)行數(shù)據(jù)統(tǒng)計(jì),建立識(shí)別條的統(tǒng)計(jì)模型,然后從待識(shí)別語(yǔ)音中提取特征,與這些模型匹配,通過比較匹配分?jǐn)?shù)以獲得識(shí)別結(jié)果。通過大量的語(yǔ)音,就能夠獲得一個(gè)穩(wěn)健的統(tǒng)計(jì)模型,能夠適應(yīng)實(shí)際語(yǔ)音中的各種突況。因此,HMM算法具有良好的識(shí)別性能和抗噪性能。

    基于HMM技術(shù)的識(shí)別系統(tǒng)可用于非特定人,不需要用戶事先訓(xùn)練。它的缺點(diǎn)在于統(tǒng)計(jì)模型的建立需要依賴一個(gè)較大的語(yǔ)音庫(kù)。這在實(shí)際工作中占有很大的工作量。且模型所需要的存儲(chǔ)量和匹配計(jì)算(包括特征矢量的輸出概率計(jì)算)的運(yùn)算量相對(duì)較大,通常需要具有一定容量SRAM的DSP才能完成。

    在嵌入式語(yǔ)音識(shí)別系統(tǒng)中,由于成本和算法復(fù)雜度的限制,HMM算法特別CHMM(Continuous density HMM)算法尚未得到廣泛的應(yīng)用。

    (3)人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial Neural Network)。ANN在語(yǔ)音識(shí)別領(lǐng)域的應(yīng)用是在20世紀(jì)80年代中后期發(fā)展起來(lái)的。其思想是用大量簡(jiǎn)單的處理單元并行連接構(gòu)成一種信息處理系統(tǒng)。這種系統(tǒng)可以進(jìn)行自我更新,且有高度的并行處理及容錯(cuò)能力,因而在認(rèn)知任務(wù)中非常吸引人。但是ANN相對(duì)于模式匹配而言,在反映語(yǔ)音的動(dòng)態(tài)特性上存在重大缺陷。單獨(dú)使用ANN的系統(tǒng)識(shí)別性能不高,所以目前ANN通常在多階段識(shí)別中與HMM算法配合使用。

    3 基于HMM的語(yǔ)音識(shí)別系統(tǒng)

    下面詳細(xì)介紹基于HMM的語(yǔ)音識(shí)別系統(tǒng)。首先在UniSpeech芯片上實(shí)現(xiàn)了基于DHMM的識(shí)別系統(tǒng),然后又在同一平臺(tái)上實(shí)現(xiàn)了基于CHMM的識(shí)別系統(tǒng)。

    3.1 前端處理

    語(yǔ)音的前端處理主要包括對(duì)語(yǔ)音的采樣、A/D變換、分幀、特片提取和端點(diǎn)檢測(cè)。

    模擬語(yǔ)音信號(hào)的數(shù)字化由A/D變換器實(shí)現(xiàn)。ADC集成在片內(nèi),它的采樣頻率固定為8kHz。

    特征提取基于語(yǔ)音幀,即將語(yǔ)音信號(hào)分為有重疊的若干幀,對(duì)每一幀提取一次語(yǔ)音特片。由于語(yǔ)音特征的短時(shí)平穩(wěn)性,幀長(zhǎng)一般選取20ms左右。在分幀時(shí),前一幀和后一幀的一部分是重疊的,用來(lái)體現(xiàn)相鄰兩幀數(shù)據(jù)之間的相關(guān)性,通常幀移為幀長(zhǎng)的1/2。對(duì)于本片上系統(tǒng),為了方便做FFT,采用的幀長(zhǎng)為256點(diǎn)(32ms),幀移為128點(diǎn)(16ms)。

    特征的選擇需要綜合考慮存儲(chǔ)量的限制和識(shí)別性能的要求。在DHMM系統(tǒng)中,使用24維特征矢量,包括12維MFCC(Mel Frequency Cepstrum Coefficient)和12維一階差分MFCC;在CHMM系統(tǒng)中,在DHMM系統(tǒng)的基礎(chǔ)上增加了歸一化能量、一階差分能量和二階差分能量3維特征,構(gòu)成27維特征矢量。對(duì)MFCC和能量分別使用了倒譜均值減CMS(Cepstrum Mean Subtraction)和能量歸一化ENM(Energy Normalization)的處理方法提高特征的穩(wěn)健性。

    3.2 聲學(xué)模型

    在HMM模型中,首先定義了一系列有限的狀態(tài)S1…SN,系統(tǒng)在每一個(gè)離散時(shí)刻n只能處在這些狀態(tài)當(dāng)中的某一個(gè)Xn。在時(shí)間起點(diǎn)n=0時(shí)刻,系統(tǒng)依初始概率矢量π處在某一個(gè)狀態(tài)中,即:

    πi=P{X0=Si},i=1..N

    以后的每一個(gè)時(shí)刻n,系統(tǒng)所處的狀態(tài)Xn僅與前一時(shí)刻系統(tǒng)的狀態(tài)有關(guān),并且依轉(zhuǎn)移概率矩陣A跳轉(zhuǎn),即:

    系統(tǒng)在任何時(shí)刻n所處的狀態(tài)Xn隱藏在系統(tǒng)內(nèi)部,并不為外界所見,外界只能得到系統(tǒng)在該狀態(tài)下提供的一個(gè)Rq空間隨機(jī)觀察矢量On。On的分布B稱為輸出概率矩陣,只取決于Xn所處狀態(tài):

    Pxn=Si{On}=P{On|Si}

    因?yàn)樵撓到y(tǒng)的狀態(tài)不為外界所見,因此稱之為“穩(wěn)含馬爾科夫模型”,簡(jiǎn)稱HMM。

    在識(shí)別中使用的隨機(jī)觀察矢量就是從信號(hào)中提取的特征矢量。按照隨機(jī)矢量Qn的概率分布形時(shí),其概率密度函數(shù)一般使用混合高斯分布擬合。

    其中,M為使用的混合高斯分布的階數(shù),Cm為各階高期分布的加權(quán)系數(shù)。此時(shí)的HMM模型為連續(xù)HMM模型(Continuous density HMM),簡(jiǎn)稱CHMM模型。在本識(shí)別系統(tǒng)中,采用整詞模型,每個(gè)詞條7個(gè)狀態(tài)同,包括首尾各一個(gè)靜音狀態(tài);每個(gè)狀態(tài)使用7階混合高斯分布擬合。CHMM識(shí)別流程如圖1所示。

    由于CHMM模型的復(fù)雜性,也可以假定On的分布是離散的。通常采用分裂式K-Mean算法得到碼本,然后對(duì)提取的特征矢量根據(jù)碼本做一次矢量量化VQ(Vector Quantization)。這樣特征矢量的概率分布上就簡(jiǎn)化為一個(gè)離散的概率分布矩陣,此時(shí)的HMM模型稱為離散HMM模型(Discrete density HMM),簡(jiǎn)稱DHMM模型。本DHMM識(shí)別系統(tǒng)使用的碼本大小為128。DHMM識(shí)別流程如圖2所示。

    DHMM雖然增加了矢量量化這一步驟,但是由于簡(jiǎn)化了模型的復(fù)雜度,從而減少了占用計(jì)算量最大的匹配計(jì)算。當(dāng)然,這是以犧牲一定的識(shí)別性能為代價(jià)。

    筆者先后自己的硬件平臺(tái)上完成了基于DHMM和CHMM的識(shí)別系統(tǒng)。通過比較發(fā)現(xiàn),對(duì)于嵌入式平臺(tái)而言,實(shí)現(xiàn)CHMM識(shí)別系統(tǒng)的關(guān)鍵在于芯片有足夠運(yùn)算太多的增加。因?yàn)樵~條模型存儲(chǔ)在ROM中,在匹配計(jì)算時(shí)是按條讀取的。

    3.3 識(shí)別性能

    筆者使用自己的識(shí)別算法分別對(duì)11詞的漢語(yǔ)數(shù)碼和一個(gè)59詞的命令詞集作了實(shí)際識(shí)別測(cè)試,識(shí)別率非常令人滿意,如表1所示。

    表1 漢語(yǔ)數(shù)碼識(shí)別率

    DHMMCHMM特征矢量維數(shù)2427識(shí)別率93.40%98.28%識(shí)別速度(11詞)10ms50ms模型大?。?個(gè)詞條)1.5KB<5.5KB碼本6KB無(wú)對(duì)于59詞命令詞集的識(shí)別,還增加了靜音模型。由于基線的識(shí)別率已經(jīng)很高,所以靜音模型的加入對(duì)于識(shí)別率的進(jìn)一步提高作用不大,如表2所示。但靜音模型的加入可以降低對(duì)端點(diǎn)判斷的依賴。這在實(shí)際使用中對(duì)系統(tǒng)的穩(wěn)健性有很大的提高。

    表2 59詞命令詞集識(shí)別率

    篇10

    DOIDOI:10.11907/rjdk.162740

    中圖分類號(hào):TP319

    文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2017)005005703

    0引言

    隨著智能自動(dòng)化技術(shù)的迅速發(fā)展[14],智能化研究越來(lái)越受到人們關(guān)注,在日常生活中的應(yīng)用需求也日益增多[56]。在書房、辦公室等場(chǎng)所中,書籍一般是由人工查找并取出的,在一定程度上影響了人們查閱書籍的時(shí)效性。如果能設(shè)計(jì)一種識(shí)別語(yǔ)音查找并推出書籍的書架,將解決人們?cè)跁恐袑?duì)書籍定位難、查找耗時(shí)長(zhǎng)等問題。

    在圖書查閱過程中,書籍定位是較為常見的問題之一。針對(duì)這類問題,張郁松等[7]以物聯(lián)網(wǎng)圖書館智能書架的結(jié)構(gòu)化、通用化設(shè)計(jì)為目標(biāo),利用超高頻(UHF)射頻識(shí)別(RFID)技術(shù),設(shè)計(jì)了一種具有實(shí)時(shí)檢測(cè)與定位功能的智能書架,較好地提高了書架工作效率;舒遠(yuǎn)仲等[8]基于改進(jìn)的RFID室內(nèi)定位技術(shù)設(shè)計(jì)了一款應(yīng)用于圖書館中的智能書架系統(tǒng),將書架定位到每一層,精確到書架的最小單元格,并且降低了系統(tǒng)的復(fù)雜度和成本,較為有效地提高了讀者借閱效率和館員工作效率。

    隨著射頻技術(shù)的不斷發(fā)展,圖書館等場(chǎng)所中對(duì)圖書的定位方式有很大改善,但是由于條件限制,語(yǔ)音識(shí)別定位書架在圖書館等禁止喧嘩場(chǎng)所禁止使用。在可喧嘩環(huán)境下,如家庭、辦公室等場(chǎng)所中,語(yǔ)音識(shí)別可作為簡(jiǎn)單易用、無(wú)需接觸、無(wú)需攜帶外部設(shè)備的定位方法,具有較好的應(yīng)用前景。本系統(tǒng)首先將書籍信息存儲(chǔ)到可擴(kuò)展標(biāo)記語(yǔ)言(XML)中,然后通過語(yǔ)音識(shí)別將語(yǔ)音信息與文本信息進(jìn)行匹配,最后將定位結(jié)果發(fā)送至控制中心,通過電機(jī)執(zhí)行動(dòng)作完成推出書籍功能。

    1硬件平臺(tái)架構(gòu)

    本系統(tǒng)采用UPAtom510平臺(tái)作為系統(tǒng)的語(yǔ)音識(shí)別終端,同時(shí)采用STC89C52單片機(jī)[9]作為系統(tǒng)的控制中心。由于系統(tǒng)功能需求,開發(fā)平臺(tái)需要擴(kuò)展外部設(shè)備。因此,除選用UPAtom510平臺(tái)和STC89C52單片機(jī)外,還需外接話筒、TB6600步進(jìn)電機(jī)驅(qū)動(dòng)模塊與42BYGH47401A步進(jìn)電機(jī),作為整個(gè)系統(tǒng)的硬件平臺(tái)架構(gòu)。

    系統(tǒng)采用UPAtom510平臺(tái)作為識(shí)別終端,該平臺(tái)是北京博創(chuàng)科技有限公司針對(duì)嵌入式系統(tǒng)和微機(jī)原理課程研發(fā)的教學(xué)與實(shí)驗(yàn)平臺(tái)。目前在UPAtom510上已經(jīng)成功移植了Ubuntu、WinCE和Windows XP等操作系統(tǒng)。根據(jù)系統(tǒng)功能需求,在該平臺(tái)上搭建了Ubuntu操作系統(tǒng),并使用QT開發(fā)工具完成了人機(jī)交互界面的開發(fā)。UPAtom510平臺(tái)底板如圖1所示。

    電機(jī)選用42BYGH47401A步進(jìn)電機(jī)[1011],該電機(jī)為兩項(xiàng)四線步進(jìn)電機(jī),電流1.5A,輸出力矩0.55Nm。此模塊有兩種用途:書籍定位以及將書籍從書架中推出,方便用戶取書。

    本系統(tǒng)采用TB6600步進(jìn)電機(jī)驅(qū)動(dòng)器,它具有如下特性:輸入電壓為DC9~42V,可以驅(qū)動(dòng)42BYGH47401A步進(jìn)電機(jī)正常轉(zhuǎn)動(dòng);含有撥碼開關(guān),針對(duì)不同電流要求,具有不同選擇;模塊上集成大面積散熱片,具有較好的散熱效果,可滿足實(shí)際應(yīng)用需求。

    智能書架的硬件連接仿真結(jié)果如圖2所示,智能書架的模擬三視效果如圖3所示。

    2系統(tǒng)框架設(shè)計(jì)

    本系統(tǒng)的框架設(shè)計(jì)主要利用話筒采集語(yǔ)音信息,并將語(yǔ)音傳遞給UPAtom510平臺(tái),UPAtom510平臺(tái)經(jīng)過語(yǔ)音識(shí)別后,將書籍位置信息發(fā)送給STC89C52單片機(jī),單片機(jī)根據(jù)書籍位置信息給電機(jī)驅(qū)動(dòng)器發(fā)送控制命令,電機(jī)驅(qū)動(dòng)器控制電機(jī)轉(zhuǎn)動(dòng),帶動(dòng)整個(gè)智能書架運(yùn)行。書架在書籍定位后將書籍推出,使得該書架具有智能化、人性化的特點(diǎn)。系統(tǒng)框架如圖4所示。

    3語(yǔ)音識(shí)別方法設(shè)計(jì)

    目前,常見的電子產(chǎn)品中的語(yǔ)音識(shí)別均由單片機(jī)(MCU)或數(shù)字信號(hào)處理(DSP)作為硬件平臺(tái)來(lái)實(shí)現(xiàn)。這一類語(yǔ)音識(shí)別[1217]產(chǎn)品主要采用孤立詞識(shí)別,一般有如下兩種方案:一種是使用隱馬爾科夫統(tǒng)計(jì)模型(HMM)框架設(shè)計(jì)的非特定人群識(shí)別,另一種是基于動(dòng)態(tài)規(guī)劃(DP)原理的特定人群識(shí)別。這兩種方法在應(yīng)用上各有優(yōu)缺點(diǎn)。

    篇11

    1.引言

    語(yǔ)音識(shí)別的研究工作始于20世紀(jì)50年代,1952年Bell實(shí)驗(yàn)室開發(fā)的Audry系統(tǒng)是第一個(gè)可以識(shí)別10個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)。隱馬爾可夫模型是20世紀(jì)70年代引入語(yǔ)音識(shí)別理論的,它的出現(xiàn)使得自然語(yǔ)音識(shí)別系統(tǒng)取得了實(shí)質(zhì)性的突破。目前大多數(shù)連續(xù)語(yǔ)音的非特定人語(yǔ)音識(shí)別系統(tǒng)都是基于HMM模型的。[1]

    一般來(lái)說(shuō),語(yǔ)音識(shí)別的方法有三種:基于聲道模型和語(yǔ)音知識(shí)的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。語(yǔ)音識(shí)別一個(gè)根本的問題是合理的選用特征。特征參數(shù)提取的目的是對(duì)語(yǔ)音信號(hào)進(jìn)行分析處理,去掉與語(yǔ)音識(shí)別無(wú)關(guān)的冗余信息,獲得影響語(yǔ)音識(shí)別的重要信息,同時(shí)對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮。非特定人語(yǔ)音識(shí)別系統(tǒng)一般側(cè)重提取反映語(yǔ)義的特征參數(shù),盡量去除說(shuō)話人的個(gè)人信息;而特定人語(yǔ)音識(shí)別系統(tǒng)則希望在提取反映語(yǔ)義的特征參數(shù)的同時(shí),盡量也包含說(shuō)話人的個(gè)人信息。

    而隨著時(shí)頻技術(shù)的研究發(fā)展,使人們?cè)谶M(jìn)行信號(hào)處理時(shí),可以將語(yǔ)音信號(hào)分解在一組完備的正交基上。從而,語(yǔ)音信號(hào)的能量在分解以后將分散分布在不同的基上。但是,語(yǔ)音信號(hào)是一種典型的非平穩(wěn)信號(hào),其性質(zhì)隨時(shí)間快速變化,在兩個(gè)不同的時(shí)間瞬間,在同一個(gè)頻率鄰域內(nèi),信號(hào)可以有完全不同的能量分布。因此,有必要找到一種精確表示語(yǔ)音信號(hào)時(shí)頻結(jié)構(gòu),便于特征提取的方法。[2]

    立足于此,本文提出,通過平移窗口,用余弦基乘以窗口函數(shù),構(gòu)造出局部余弦基,分離不同時(shí)間區(qū)間,很適合于逼近語(yǔ)音信號(hào)。本文使用這種具有活動(dòng)窗口特性的局部余弦基表示語(yǔ)音信號(hào)。為了減少計(jì)算量,并進(jìn)一步提高局部余弦基原子時(shí)頻分布的分辨率,采用匹配追蹤(MP)算法分解信號(hào),并結(jié)合時(shí)頻分析技術(shù)得到最優(yōu)局部余弦基原子的魏格納-維利分布(WVD)[2],從而得到信號(hào)精確的時(shí)頻結(jié)構(gòu)[3],進(jìn)行特征提取。此外,結(jié)合語(yǔ)音信號(hào)的美爾頻率倒譜系數(shù)(MFCC)一起作為該信號(hào)的特征向量,通過隱馬爾科夫(HMM)模型進(jìn)行識(shí)別。實(shí)驗(yàn)證明。這種多參數(shù)語(yǔ)音識(shí)別算法提高了識(shí)別的準(zhǔn)確度和速度。

    2.局部余弦基建模

    通過光滑地劃分時(shí)間序列為任意長(zhǎng)度的子區(qū)間(如圖1),可使每一個(gè)時(shí)間段分別由重疊正交基表示,而整個(gè)時(shí)間序列的基函數(shù)又構(gòu)成時(shí)頻平面的正交鋪疊,因此局部余弦變換對(duì)在不同時(shí)間段有不同的波形的語(yǔ)音信號(hào)有很強(qiáng)的針對(duì)性。

    圖1 重疊窗口劃分時(shí)間軸

    Figure1 lapped window divides time axis

    圖1中為重疊窗口函數(shù)[3]:

    (1)

    式中為單調(diào)遞增的輪廓函數(shù),定義為[3]:

    (2)

    局部余弦函數(shù)族構(gòu)成了實(shí)數(shù)軸上平方可積函數(shù)空間的規(guī)范正交基:

    (3)

    式中為窗口支集伸縮參數(shù);為第P段時(shí)間起點(diǎn);n()表示正交基序列號(hào)。

    語(yǔ)音信號(hào)可表示為:

    (4)

    是余弦基原子,。其中是窗口支集邊界參數(shù),為窗口支集伸縮參數(shù),是輪廓函數(shù)的尺度參數(shù),這保證了窗口支集只與相鄰的具有適當(dāng)對(duì)稱性的窗口重合,達(dá)到局部余弦基精確覆蓋整個(gè)時(shí)頻平面的目的。

    3.匹配追蹤法選取最佳基

    由Mallat和Zhang引入的匹配追蹤算法運(yùn)用貪婪技巧減少了計(jì)算的復(fù)雜性。它從局部余弦基構(gòu)成的冗余字典中一個(gè)一個(gè)挑選向量,每一步都使信號(hào)的逼近更為優(yōu)化。

    MP算法將信號(hào)分解成一簇時(shí)頻原子的線性表達(dá),這些原子選自高冗余度的函數(shù)字典中,且最好地符合內(nèi)在結(jié)構(gòu)。假設(shè)函數(shù)集是Hilbert空間中一個(gè)完備字典,滿足,最優(yōu)的M階近似為:

    (5)

    設(shè)由M個(gè)時(shí)頻函數(shù)近似的信號(hào)與的誤差最小,表達(dá)式如下:

    (6)

    其中代表所選函數(shù)的索引。

    首先按照某個(gè)選擇函數(shù)(與的內(nèi)積最大)逐個(gè)挑選出時(shí)頻函數(shù),分解為:,設(shè)初始輸入信號(hào)為初始?xì)埐钚盘?hào),表示f(t)在方向上近似后的冗余部分。

    假設(shè)已有表示經(jīng)過前M-1次迭代后,中未表達(dá)部分:選定為最匹配的時(shí)頻函數(shù),按如下公式分解為:

    (7)

    由于每步中與正交,如果字典是完備的,則迭代收斂于f,滿足:

    (8)

    這樣,可估算出(4)式中局部余弦基原子的參數(shù)。

    文獻(xiàn)[4]中提出,選出最匹配信號(hào)的基,對(duì)每一個(gè)基求出其WVD分布,信號(hào)的WVD分布就表示其最優(yōu)基的WVD的線性組合,這樣就消除了交叉項(xiàng)的影響。由此得到的WVD分布:

    (9)

    是局部余弦基字典中被選中的最優(yōu)基的WVD分布。將等式左邊第二項(xiàng)交叉項(xiàng)組合去除,這樣在時(shí)頻面上就得到了干凈的時(shí)頻表示:

    (10)

    在語(yǔ)音信號(hào)稀疏分解過程中,每步分解都要從過完備原子庫(kù)中選出與待分解語(yǔ)音信號(hào)或語(yǔ)音信號(hào)分解殘余最為匹配的原子,原子是由參數(shù)公式(4)決定的。因此語(yǔ)音信號(hào)稀疏分解所得原子的參數(shù)可作為語(yǔ)音信號(hào)的特征。此外,根據(jù)公式(10),使用匹配追蹤法選取的最佳基的WVD分布,含有該語(yǔ)音信號(hào)重要且獨(dú)特的信息,也可作為該語(yǔ)音信號(hào)的特征。

    4.基于HMM的語(yǔ)音識(shí)別算法

    特征提取基于語(yǔ)音幀,即將語(yǔ)音信號(hào)分為有重疊的若干幀,對(duì)每一幀提取一次語(yǔ)音特片。由于語(yǔ)音特征的短時(shí)平穩(wěn)性,幀長(zhǎng)一般選取20ms左右。在分幀時(shí),前一幀和后一幀的一部分是重疊的,用來(lái)體現(xiàn)相鄰兩幀數(shù)據(jù)之間的相關(guān)性,通常幀移為幀長(zhǎng)1/2。本文為了方便做MP,采用的幀長(zhǎng)為512點(diǎn)(32ms),幀移為256點(diǎn)(16ms)。特征的選擇需要綜合考慮存儲(chǔ)量的限制和識(shí)別性能的要求。通常的語(yǔ)音識(shí)別系統(tǒng)使用24維特征矢量,包括12維MFCC和12維一階差分MFCC。本文提出的多參數(shù)語(yǔ)音識(shí)別算法,在此基礎(chǔ)上增加了原子參數(shù)公式(4)和最佳基的WVD分布公式(10),這兩維特征,構(gòu)成26維特征矢量。對(duì)MFCC和語(yǔ)音信號(hào)能量的WVD分布分別使用了倒譜均值減CMS(Ceps-trum Mean Subtraction)和能量歸一化ENM(Energy Normalization)的處理方法提高特征的穩(wěn)健性[5]。

    在HMM模型中,首先定義了一系列有限的狀態(tài)S1,…,SN,系統(tǒng)在每一個(gè)離散時(shí)刻n只能處在這些狀態(tài)當(dāng)中的某一個(gè)Xn。在時(shí)間起點(diǎn)n=0時(shí)刻,系統(tǒng)依初始概率矢量π處在某一個(gè)狀態(tài)中,即:

    (11)

    以后的每一個(gè)時(shí)刻n,系統(tǒng)所處的狀態(tài)Xn僅與前一時(shí)刻系統(tǒng)的狀態(tài)有關(guān),并且依轉(zhuǎn)移概率矩陣A跳轉(zhuǎn),即:

    (12)

    且滿足:

    (13)

    系統(tǒng)在任何時(shí)刻n所處的狀態(tài)Xn隱藏在系統(tǒng)內(nèi)部,并不為外界所見,外界只能得到系統(tǒng)在該狀態(tài)下提供的一個(gè)Rq空間隨機(jī)觀察矢量On。On的分布P稱為輸出概率矩陣,只取決于On所處狀態(tài):

    (14)

    因?yàn)樵撓到y(tǒng)的狀態(tài)不為外界所見,因此稱之為“隱含馬爾科夫模型”,簡(jiǎn)稱HMM。在識(shí)別中使用的隨機(jī)觀察矢量就是從信號(hào)中提取的特征矢量。按照隨機(jī)矢量Qn的概率分布形時(shí),其概率密度函數(shù)一般使用混合高斯分布擬合。

    (15)

    其中,M為使用的混合高斯分布的階數(shù);Cm為各階高斯分布的加權(quán)系數(shù)。此時(shí)的HMM模型為連續(xù)HMM模型(Continuous density HMM),簡(jiǎn)稱CHMM模型[6]。在本識(shí)別系統(tǒng)中,采用孤立詞模型,每個(gè)詞條7個(gè)狀態(tài),同時(shí)包括首尾各一個(gè)靜音狀態(tài);每個(gè)狀態(tài)使用3階混合高斯分布擬合。

    5.仿真實(shí)驗(yàn)

    5.1 提取最佳基的WVD分布特征矢量

    構(gòu)建局部余弦基字典,使用MP算法選取語(yǔ)音信號(hào)“A”的最佳基。如圖2所示。得到的時(shí)頻圖既保留了余弦基原子高時(shí)頻聚集性的優(yōu)點(diǎn),又削弱了WVD作為二次型時(shí)頻表示所固有的交叉項(xiàng)的影響,得到了干凈的時(shí)頻面。其結(jié)果更精確的反映出語(yǔ)音信號(hào)在頻率、音強(qiáng)方面的特征,具有良好的時(shí)頻聚集性。

    圖2 “A“信號(hào)的WVD分布

    Figure2 WVD of“A”

    5.2 孤立詞識(shí)別

    在語(yǔ)音識(shí)別實(shí)驗(yàn)中,采用信號(hào)長(zhǎng)度為1024的200個(gè)實(shí)際語(yǔ)音信號(hào)樣本,其中100個(gè)用于訓(xùn)練,100個(gè)用于測(cè)試。該實(shí)驗(yàn)用以識(shí)別出語(yǔ)音信號(hào)”A”。實(shí)驗(yàn)利用WaveCN2.0錄音系統(tǒng)進(jìn)行樣本采集,采樣率為8kHz。得到語(yǔ)音信號(hào)的有效部分后,提取樣本信號(hào)的MFCC參數(shù)作為語(yǔ)音信號(hào)的特征參數(shù)之一。Mel濾波器的階數(shù)為24,fft變換的長(zhǎng)度為256,采樣頻率為8kHz。MFCC的相關(guān)波形見圖3。

    圖3 “A“信號(hào)的MFCC波形

    Figure3 MFCC Waveform of“A”

    然后利用MP算法將樣本信號(hào)分解為300個(gè)原子,將所得原子的參數(shù)和最佳基的WVD分布,作為該語(yǔ)音信號(hào)的特征參數(shù)之二。見圖2。通過HMM進(jìn)行識(shí)別。

    在實(shí)驗(yàn)中,設(shè)語(yǔ)音”A”類值為1,其他的語(yǔ)音類值為-1。HMM模型的狀態(tài)數(shù)為7,高斯混合數(shù)為3。由第4節(jié)HMM訓(xùn)練的定義可知,重估過程中的輸出概率是隨著重估次數(shù)的遞增而增加的,圖4列出了“A”模型訓(xùn)練期間重估次數(shù)與總和輸出概率的log值之間的關(guān)系。由圖可以看出,“A”模型重估20次算法收斂,并且,輸出概率與重估次數(shù)成正比趨勢(shì)。

    圖4 重估次數(shù)與總和輸出概率

    Figure4 Iterations of EM and output like lihood

    對(duì)語(yǔ)音進(jìn)行上述HMM訓(xùn)練之后,將其模型參數(shù)存貯,獲得了識(shí)別的HMM模型庫(kù)。在識(shí)別階段,對(duì)100個(gè)測(cè)試用數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,以檢驗(yàn)本文系統(tǒng)的識(shí)別效果。如表1所示識(shí)別精度為89%,平均識(shí)別時(shí)間約為1.313秒,實(shí)驗(yàn)結(jié)果表明,系統(tǒng)識(shí)別率和運(yùn)算速度都比較理想。

    表1 識(shí)別結(jié)果

    語(yǔ)音類型 識(shí)別次數(shù) 識(shí)別結(jié)果 識(shí)別精度

    A 其它

    A 100 92 8 92%

    增加了局部余弦基原子的參數(shù)和最佳基的WVD分布作為特征參數(shù),較單純的使用MFCC作為特征參數(shù)進(jìn)行HMM模型訓(xùn)練,識(shí)別率有一定提高,見表2。

    表2 結(jié)果比較

    特征參數(shù) 識(shí)別率%

    MFCC、和特征參數(shù) 92

    MFCC 89.5

    6.結(jié)語(yǔ)

    本文在傳統(tǒng)基于HMM模型的語(yǔ)音識(shí)別基礎(chǔ)上,通過匹配追蹤算法,提取出最佳基的原子參數(shù)和WVD分布。二者與MFCC一起,作為本文提出的多參數(shù)語(yǔ)音識(shí)別算法的特征向量。然后選擇了大量孤立詞樣本進(jìn)行仿真實(shí)驗(yàn),針對(duì)非特定人孤立詞進(jìn)行語(yǔ)音識(shí)別。結(jié)果表明,基于HMM和匹配追蹤的多參數(shù)語(yǔ)音識(shí)別算法,可提高語(yǔ)音識(shí)別的速度和準(zhǔn)確度,有一定的實(shí)用性。但是,由于算法的復(fù)雜性增加,運(yùn)算量相應(yīng)增大,簡(jiǎn)化算法運(yùn)算量仍是需要深入研究的課題。

    參考文獻(xiàn)

    [1]何方偉,青木由直.DP動(dòng)態(tài)匹配算法實(shí)現(xiàn)語(yǔ)音的實(shí)時(shí)識(shí)別[J].數(shù)據(jù)采集與處理,vol.4,no.1,Mar,1989.

    [2]R.R.Coifman,M.V.Wickerhauser.Entropy-based algorithms for best basis selection[J].IEEE Trans.Info.Theory,38(2):713-718,March 1992.

    [3]S Mallat,Z Zhang.Matching Pursuit with Time-Frequency Dictionaries[J].IEEE Trans.Signal Processing,1993,41(12):3397-3415.