语言模型训练与调适技术於课件

资源描述

語言模型訓練與調適技術於中文大詞彙連續語音辨識之初步研究摘要n語言模型(language model,LM)是用來擷取自然語言中的特徵，諸如前後文的資訊(contexture information)、語意資訊(semantic information)、主題資訊(topic information)等，利用這些資訊用來判斷詞句發生的可能性。n其用途可在語音辨識、手寫辨識、輸入法(input method editor,IME)、資訊檢索(information retrieval,IR)等。n語言模型訓練q訓練語料(training corpus)，背景語言模型(background LM)q統計式語言模型：N連語言模型(N-gram LM)q語意資訊：潛藏語意分析(latent semantic analysis,LSA)q主題資訊：主題混合模型(topic mixture model,TMM)摘要n訓練語料與測試語料間的不一致性(mismatch)q蒐集時間、領域(domain)、主題(topic)q語言模型調適n語言模型調適的目的q利用與辨識任務相關的資訊來彌補上述的不一致性q調適語料(adaptation corpus)n內容較訓練語料少n同時期(contemporary)、同領域(in-domain)摘要n語言模型調適方法q以最大事後機率為基礎n詞頻數混合法(count merging)、模型插補法(model interpolation)、動態快取模型法(dynamic caching model)q以限制為基礎n最大熵值法(maximum entropy,ME)、最小鑑別資訊法(minimum discrimination information,MDI)n主要研究成果q主題混合模型q最大熵值法大綱n語言模型的訓練n語言模型的調適n實驗環境設定及實驗結果n結論統計式語言模型n統計式語言模型(statistical language model,SLM)n語言模型P產生長度n之詞序列(word sequence)W的機率(量化接受度)n參數量非常龐大(|V|i)，必須作簡化qN連語言模型q三連語言模型 niiiniiinnnhwPwwwPwwwwPwwPwPwwwPwPwwwPWP111121312112121|,.,|,|,.,|,.,.,history)(word之歷史詞序列為iiwh niiNiiwwwPWP111,.,|niiiiwwwPwwPwPWP312121,|統計式語言模型n三連語言模型的估測q最大相似度估測法(maximum likelihood estimation,MLE)n語言模型平滑化(smoothing)q資料稀疏性(data sparseness)q本論文採用Katz 模型平滑化技術nN連語言模型所能擷取的資訊被N的值所限定121212,|iiiiiiiiwwCwwwCwwwP語意資訊觸發對n觸發對(trigger pair)q長距離詞與詞之間的語意相依資訊q歷史詞序列hi中包含與詞wi相同語意的詞，如wj，則稱wj觸發wiq估測觸發對n平均交互資訊(average mutual information,AMI)q自我觸發(self-trigger)jijijijijijijijijijijijijiwPwPwwPwwPwPwPwwPwwPwPwPwwPwwPwPwPwwPwwPwwAMI,log,log,log,log,語意資訊潛藏語意分析n詞與文件矩陣(term-document matrix)n奇異值分解(singular value decomposition,SVD)q詞向量與文件向量無法比較q將詞與文件投影到較低維的潛藏語意空間n加入新的文件(fold-in)jjiijincw,11Nd1Nv潛藏語意分析n應用於語言模型機率估測q更新歷史詞序列所形成的向量q餘弦估測(cosine measure)n與N連語言模型合併1|,|iiiidwPhwPS STiiiiiindnnd0101112/112/112/112/11,cos|SvSuvSuSvSudwPiiTiiiiii wiiNiiiiiiNiiLNiiwPdwPwwwPwPdwPwwwPhwP111111|,.,|,.,|主題資訊n主題資訊(topic information)q語意分類(semantic classification)的應用n線性混合模型(linear mixture model)n主題分類模型(topic classification model)KkiikkiihwPhwP1|KkikkiiihtPtwPhwP1|主題混合模型n主題混合模型(topic mixture model,TMM)q每一個文章皆為一個混合模型q主題一連語言模型(topic unigram)q主題在各文章中的權重1|TqPnKnTqP|2|TqPnNnqqqqQ.21iDTP|1iDTP|2iKDTP|NnKkikkniDTPTqPDQP11|主題混合模型n應用於語言模型機率估測n與N連語言模型結合q模型插補法q機率調整(probability scaling)KkikkiiiTMMhTPTwPhwP1|121211 iiiBGwiTMMiiiAdaptwwwPHwPwwwPiNjjBGwjTMMiijBGiBGwiTMMiiiBGiiiAdaptwPHwPwwwPwPHwPwwwPwwwPii11212122 語言模型調適的架構n訓練語料q背景語言模型qN連語言模型n調適語料q與測試語料同時期或領域相同q大小較小q不限定為N連語言模型訓練語料調適語料背景語言模型iiBhwP|抽取調適資訊語言模型調適調適後語言模型iihwP|最大事後機率法n最大事後機率法(maximum a posterior,MAP)n詞頻數混合法n模型插補法n動態快取模型法n模型插補法延伸kAkBikAikBkihChCwhCwhChwP|kiAkiBkihwPhwPhwP|1|ichcheiiBiiwPhwPhwP1|iinniiiiiihwPhwPhwPhwP|.|2211最大熵值法n每一個資訊來源都會引發一群限制(a set of constraint)，限制的交集區域代表滿足所有限制的機率分佈，其中擁有最大熵值的分佈為最大熵值法的解。滿足所有限制的機率分佈之集合IIS演算法都收斂直到所有的返回步驟的值更新將求得可由式其中由下式中解得進行以下運算對每一個的初始值設為所有最佳參數輸出與訓練語料的機率分布個特徵輸入 2 3.b.)30.3(,exp a.2.1.,:,:1#2121iiiiiniih,wih,w#iiiiinnw|hPwhffh,wfh,wPh,wfh,wfw|hPhPwhpfffn：，實驗nSet 1：廣播新聞q訓練語料:中央社2000年和2001年新聞(一億七千萬中文字 character)q調適語料:中央社2002年8月到10月新聞(五千萬中文字)q測試語料:2002年9月之廣播新聞，3.7小時nSet 2：公視新聞(MATBN)q訓練語料:中央社2001年和2002年新聞(一億五千萬中文字)q調適語料:公視新聞(MATBN)3528則新聞q測試語料:20003年外場記者，1.5小時基礎實驗nSet 1nSet 2字錯誤率複雜度Baseline15.51%670.23字錯誤率複雜度Baseline25.72%667.23詞頻數混合法nSet 1nSet 2字錯誤率複雜度=1 12.98%(16.31%)367.34(45.19%)字錯誤率複雜度=125.2%(2.02%)675.46(-1.23%)=324.98%(2.88%)634.43(4.92%)

展开阅读全文

语言模型训练与调适技术於课件

最新文档