robot bg

speech to text 1

語音辨識英文稱為Speech to text,其為電腦比對聲學特徵 (以中文為例,如:爆破音、摩擦音、爆擦音、鼻音。),進而將說話者的發音內容轉化為文字的技術。語音辨識早在1980年代就由美國麻省理工學院的實驗室發起研究,但苦於辨識率不高,一直沒辦法應用在商業用途。直到2012年,科學家用深度神經網路(Deep neural network, DNN)的計算方式,取代傳統高斯分配計算,語音辨識的辨識率才大幅提升至可以商轉應用的程度,並在近幾年受到國際間大型企業的關注與重視。

 

語音辨識是由多重維度構成的,其中最重要也最容易理解的就是聲學模型及語言模型,我們可以把聲學模型想像成是系統在判斷發音,把語言模型想像成是系統在判斷文法。而系統判斷出的每個結果,皆會伴隨一個信心水準,舉例來說,當我發出「ㄗ ㄒㄩㄣˊ」這兩個音時,系統會比對「ㄗ ㄒㄩㄣˊ」可能是那些字,系統若覺得像「資訊」的機率是60%,而像「諮詢」的機率是90%,那系統就會回傳給我「諮詢」這兩個文字。了解語音辨識系統背後的運行方式是很重要的,尤其多數人剛接觸語音辨識時,都容易將語音辨識系統與翻譯畫上等號,但其實語音辨識如同剛剛所說,是在做特徵的比對。

 

語音辨識系統有沒有辦法從錯誤的辨識結果中自動學習,也是大多數人會問的問題,「知錯能改,善莫大焉」固然是一件非常棒的事,可惜如同剛剛所提到,語音辨識系統在返回文字給我們閱讀時,一定是返回信心水準最高的那個項目,所以語音辨識系統根本不知錯,它總是認為自己是對的!「自動知錯能改」這件事,對現階段的語音辨識系統只能說是不管用的,若想要語音辨識系統下次不要再犯同樣的錯誤,我們只能教會它。

 

至於要教會語音辨識系統又是一個難題了,第一,中文是全世界最難辨識的語言,因為中文大約有四百個常用的發音,可是這四百個發音對應的卻是大約五千個常用字,舉個例子,當我發出「ㄅㄨˋ」這個音,對應的可是有「部」、「布」、「步」、「佈」、「簿」、「鈽」、「埠」這麼多字,再加上每個地區都有自己的方言、獨特的口音,要語音辨識系統做出正確的文字比對,是需要花費很大的功夫的。

 

目前在台灣,用於商業用途的語音辨識在調教辨識引擎時,便是先跟需要語音辨識這樣需求的單位要一百至兩百個錄音小時的音檔,接著由人工的方式一通一通的聽取這些音檔,並在每個音段上標記正確的文字,再反饋給語音辨識系統做學習,而由人工聽取並登打文字的過程,我們稱之為標音,這個工作需要非常仔細且富有效率地聽打,雖然辛苦,卻有著重要的價值。

 

看完語音辨識的由來及背後的運作方式,是否對語音辨識更加有興趣了呢?筆者之後會持續與各位分享商業上的語音辨識應用,以幫助大家了解語音辨識能對企業帶來多大的效益。

 

作者:德鴻科技 售前顧問 Freya