廣播電視音頻監(jiān)測(cè)技術(shù)研究

2013年09月16日未知瀏覽量：0

廣播電視的不問斷和安全播出始終是廣播電視機(jī)構(gòu)要完成的首要任務(wù)。隨著基于電子管、晶體管等設(shè)備的退役和計(jì)算機(jī)軟硬件技術(shù)、微電子技術(shù)和數(shù)字化技術(shù)的應(yīng)用普及，廣播電視設(shè)備的故障率已經(jīng)降到了非常低的水平，在節(jié)目播出過程中由于設(shè)備故障造成的停播、錯(cuò)播現(xiàn)象已很少發(fā)生。近年來，信號(hào)的安全播出問題，尤其是信號(hào)的被干擾、被破壞和被插播的現(xiàn)象屢見不鮮。廣播電視的安全監(jiān)測(cè)技術(shù)逐漸成為廣播電視制播技術(shù)的研究焦點(diǎn)。本文將針對(duì)以上問題加以探討，并對(duì)解決問題所用到的關(guān)鍵技術(shù)和算法進(jìn)行簡(jiǎn)要的分析和論述。

1監(jiān)測(cè)業(yè)務(wù)和技術(shù)的現(xiàn)狀及分類

目前國(guó)內(nèi)大多數(shù)廣播電視臺(tái)站的自動(dòng)監(jiān)測(cè)系統(tǒng)都只針對(duì)音頻信號(hào)的質(zhì)量好壞和信號(hào)的有無進(jìn)行監(jiān)測(cè)，而對(duì)于音頻信號(hào)的來源及內(nèi)容等安全方面的監(jiān)測(cè)任務(wù)則更多地采用循環(huán)播放、人工監(jiān)聽的方式…。人工方式不僅效率低，而且不及時(shí)。應(yīng)州于廣播電視安全監(jiān)測(cè)系統(tǒng)的音頻信號(hào)監(jiān)測(cè)技術(shù)從業(yè)務(wù)層面上可分為音頻的內(nèi)容監(jiān)測(cè)和音頻的質(zhì)量監(jiān)測(cè)。音頻的內(nèi)容監(jiān)測(cè)主要是對(duì)采集的信息的收集、整理、解析和應(yīng)用等過程中所出現(xiàn)的錯(cuò)誤、疏漏、不當(dāng)及不和諧、敏感信息的檢查和把關(guān)，它關(guān)注的是音頻所表述的具體內(nèi)容。音頻的質(zhì)量監(jiān)測(cè)主要是對(duì)已經(jīng)制作完成的廣播電視節(jié)目在音頻信號(hào)的生成、處理、傳輸和收發(fā)過程中出現(xiàn)的干擾、噪聲、電平過低、中斷和信源突變等狀況所進(jìn)行的實(shí)時(shí)監(jiān)控和更正，它注重的是音頻信號(hào)的質(zhì)量及來源的正確性。二者雖然針對(duì)的業(yè)務(wù)層面不同，卻彼此依賴相互聯(lián)系。音頻內(nèi)容的好壞會(huì)直接影響到音頻質(zhì)量的高低，音頻質(zhì)量的高低也會(huì)直接影響終端聽眾對(duì)信息內(nèi)容的獲取量和正確率?？傊?，對(duì)音頻內(nèi)容和質(zhì)量的監(jiān)測(cè)都是為了保證聽眾能收到正確、優(yōu)質(zhì)和不間斷的音頻信號(hào)。目前，可應(yīng)用于音頻信號(hào)監(jiān)測(cè)任務(wù)的技術(shù)可分為音頻比對(duì)技術(shù)、音頻識(shí)別技術(shù)、數(shù)字水印技術(shù)這三大類。

2音頻比對(duì)技術(shù)

音頻比對(duì)技術(shù)是利用數(shù)字音頻的時(shí)域或頻域特征或?qū)傩詠矸治鰞啥我纛l序列的相似度，再相似度的大小來判斷這兩段音頻序列播放的是否是相同或相似的內(nèi)容。其大概流程如圖1所示。首先，將要處理的2路音頻序列通過多路音頻采集卡采集到設(shè)備中，并進(jìn)行濾波、增益補(bǔ)償?shù)忍幚?；其次，將得到?路音頻信號(hào)進(jìn)行模數(shù)轉(zhuǎn)換，再對(duì)得到的數(shù)字信號(hào)進(jìn)行壓縮處理；然后，提取2路信號(hào)的特征參數(shù)或者屬性；最后，比較提取出來的參數(shù)或者屬性，得出2路音頻信號(hào)的相似度，再由相似度來判斷2路信號(hào)是否相同或者相似。濾波和增益補(bǔ)償?shù)阮A(yù)處理是為了濾除音頻中的噪盧、干擾脈沖及平衡音頻的電平差等。

壓縮處理是為了減少音頻中相關(guān)性較低和不相關(guān)的參數(shù)，減少后續(xù)工作量，提高處理的實(shí)時(shí)性(目前比較流行的壓縮算法是利用小波函數(shù)壓縮)。參數(shù)和屬性的提取是從音頻流中以幀為單位提取出2路音頻的質(zhì)心、均方根、Mel倒譜系數(shù)以及音高、振幅、帶寬、能量等。音頻比對(duì)是利用上一步提取的參數(shù)或?qū)傩赃M(jìn)行計(jì)算和比較，將比較結(jié)果同預(yù)先設(shè)定的閾值進(jìn)行對(duì)比，得出最終結(jié)果。音頻比對(duì)技術(shù)在實(shí)現(xiàn)時(shí)不考慮音頻的具體內(nèi)容，它只注重音頻序列的關(guān)鍵參數(shù)和屬性的相似度。目前對(duì)音頻技術(shù)的應(yīng)用需求更多的還是涉及到音頻的語意和具體內(nèi)容方面，這項(xiàng)技術(shù)的適用領(lǐng)域相對(duì)來說比較小，但是它基本上能滿足廣播電視的質(zhì)量監(jiān)測(cè)的任務(wù)需求。

3音頻識(shí)別技術(shù)

音頻識(shí)別技術(shù)主要以語音為研究對(duì)象，許多資料亦稱之為語音識(shí)別技術(shù)。它是指讓系統(tǒng)依據(jù)語音和人聲的特性、事先建立好的語音模板庫(kù)或人類的大腦神經(jīng)系統(tǒng)的活動(dòng)原理對(duì)人們發(fā)出的聲音或者保存的語音數(shù)據(jù)進(jìn)行逐字逐句識(shí)別并轉(zhuǎn)化為文本、對(duì)語音的特征語意進(jìn)行判斷和響應(yīng)或者執(zhí)行特定的命令任務(wù)的技術(shù)。從說話者異同方面，可以將語音識(shí)別系統(tǒng)分為特定人語音識(shí)別系統(tǒng)、非特定人語音識(shí)別系統(tǒng)和多人語音識(shí)別系統(tǒng)。從語音的產(chǎn)生和輸入的方式，可以將語音識(shí)別系統(tǒng)分為孤立詞語音識(shí)別系統(tǒng)、連接詞語音識(shí)別系統(tǒng)和連續(xù)語音識(shí)別系統(tǒng)。

從語音包含的詞匯量大小，可以將語音識(shí)別系統(tǒng)分為小詞匯量語音識(shí)別系統(tǒng)、中等詞匯量語音識(shí)別系統(tǒng)和大詞匯量語音識(shí)別系統(tǒng)。語音識(shí)別技術(shù)從方法和實(shí)現(xiàn)層面總體可以分為三種：基于語音基元的共有特性和聲學(xué)屬性的方法，基于模板的建立和匹配的方法，基于人工神經(jīng)網(wǎng)絡(luò)的方法。聲學(xué)屬性的方法又細(xì)分為基于動(dòng)態(tài)時(shí)間規(guī)整方法(DTW)的語音識(shí)別技術(shù)、基于隱馬爾可夫理論(HMM)的語音識(shí)別技術(shù)和基于矢量量化算法(VQ)的語音識(shí)別技術(shù)等?；谀０迤ヅ涞恼Z音識(shí)別技術(shù)大致流程如圖2所示。其中自“參數(shù)屬性提取”之前的處理過程與上文介紹的音頻比對(duì)技術(shù)的過程基本相同，此處不再贅述。提取參數(shù)之后需要先使用一定的訓(xùn)練算法對(duì)提取出來的參數(shù)進(jìn)行訓(xùn)練以建立聲學(xué)模板庫(kù)，有了聲學(xué)模板庫(kù)就可以對(duì)輸入的語音數(shù)據(jù)進(jìn)行識(shí)別了。識(shí)別的過程就是將輸人的語音的特征或參數(shù)同模板庫(kù)進(jìn)行計(jì)算和比較，得出最終結(jié)果?，F(xiàn)在人們研究和使用的較多的語音識(shí)別的主流技術(shù)是基于隱馬爾可夫理論(HMM)的語音識(shí)別技術(shù)，它可以勝任大詞匯量、非特定人和連續(xù)的語音識(shí)別任務(wù)，并且識(shí)別準(zhǔn)確率已基本達(dá)到了實(shí)用水平。相比之下，基于人工神經(jīng)網(wǎng)絡(luò)的語音識(shí)別技術(shù)的應(yīng)用前景則更被人們看好，但它是一門尚處于實(shí)驗(yàn)探索階段的新興技術(shù)。音頻識(shí)別技術(shù)更注重于音頻的語義和內(nèi)容，所以它基本上能滿足廣播電視的內(nèi)容監(jiān)測(cè)的任務(wù)需求。

4數(shù)字水印技術(shù)

數(shù)字水印技術(shù)是指在不影響質(zhì)量和不易被發(fā)覺和篡改并且可以被授權(quán)者識(shí)別出來的要求下將水印(防偽)信息嵌入到圖像和音視頻等的原始數(shù)字?jǐn)?shù)據(jù)中，以實(shí)現(xiàn)數(shù)字作品的版權(quán)確認(rèn)和保護(hù)。數(shù)字水印技術(shù)隸屬于信息隱藏學(xué)，早期主要用于圖像處理技術(shù)，后來擴(kuò)展到了文本和視頻領(lǐng)域，最近人們又開始研究將其應(yīng)用到音頻信號(hào)中。數(shù)字水印技術(shù)一般包含嵌人過程和提取驗(yàn)證過程，其大概的流程如圖3和圖4所示。數(shù)字水印在技術(shù)實(shí)現(xiàn)上通常分為可見水印(明文水印)技術(shù)和不可見水印(盲水印)技術(shù)。由于容易被察覺和受到攻擊，可見水印技術(shù)目前已經(jīng)不再被人們看好。不可見水印技術(shù)有著不影響原始數(shù)據(jù)的質(zhì)量和不易被察覺等的優(yōu)點(diǎn)，正逐漸成為人們研究的熱點(diǎn)。不可見水印技術(shù)的實(shí)現(xiàn)方法大體可以分為在空間域中實(shí)現(xiàn)的方法和在變換域中實(shí)現(xiàn)的方法兩種。

在空間域中實(shí)現(xiàn)的方法是在時(shí)域內(nèi)直接對(duì)信號(hào)的值進(jìn)行修改并嵌入水印信息，這種方法有著計(jì)算簡(jiǎn)單、計(jì)算量小和兼容有損壓縮的信號(hào)和濾波的信號(hào)等優(yōu)點(diǎn)，但為了保持水印的隱蔽性，它能嵌入的水印的信息量極為有限。在變換域中實(shí)現(xiàn)的方法是先將信號(hào)進(jìn)行一定的變換，如快速傅里葉變換、離散小波變換、Z變換和離散余弦變換等，然后再將水印嵌入變換后的信號(hào)中。與在空間域中實(shí)現(xiàn)的方法相比，這種方法有著隱蔽性強(qiáng)、容易結(jié)合、可嵌入的水印信息量大和兼容壓縮數(shù)據(jù)等優(yōu)點(diǎn)；不足之處是計(jì)算復(fù)雜而且計(jì)算量大，不適用于大數(shù)據(jù)量和對(duì)實(shí)時(shí)性要求高的系統(tǒng)。

5小結(jié)

要實(shí)現(xiàn)廣播電視音頻的誤播、錯(cuò)播和停播等緊急情況的及時(shí)響應(yīng)處理，一個(gè)高效的方法是借助于計(jì)算機(jī)技術(shù)和數(shù)字音頻處理技術(shù)來實(shí)現(xiàn)。與人工方式相比，計(jì)算機(jī)處理具有高效率、高精度、及時(shí)性和速度快等優(yōu)點(diǎn)。可應(yīng)用于廣播電視安全監(jiān)測(cè)系統(tǒng)的音頻信號(hào)監(jiān)測(cè)的技術(shù)大致分為三類。從以上的分析可以看出，音頻比對(duì)技術(shù)更適用于廣播電視音頻的質(zhì)量監(jiān)測(cè)，數(shù)字水印技術(shù)和語音識(shí)別技術(shù)更適用于廣播電視音頻的內(nèi)容監(jiān)測(cè)。目前，音頻水印技術(shù)尚未完全成熟，語音識(shí)別技術(shù)中也只有基于模板的建立和匹配這一類方法進(jìn)入了實(shí)用階段。一個(gè)適合于當(dāng)前廣播電視音頻內(nèi)容和質(zhì)量監(jiān)測(cè)系統(tǒng)的技術(shù)組合應(yīng)該是音頻比對(duì)技術(shù)和語音識(shí)別技術(shù)中的基于模板的建立和匹配技術(shù)。