语言模型训练与调适技术於.ppt

上传人:xt****7 文档编号:4012954 上传时间:2019-12-30 格式:PPT 页数:22 大小:115.55KB
返回 下载 相关 举报
语言模型训练与调适技术於.ppt_第1页
第1页 / 共22页
语言模型训练与调适技术於.ppt_第2页
第2页 / 共22页
语言模型训练与调适技术於.ppt_第3页
第3页 / 共22页
点击查看更多>>
资源描述
語言模型訓練與調適技術於中文大詞彙連續語音辨識之初步研究 摘要 語言模型 languagemodel LM 是用來擷取自然語言中的特徵 諸如前後文的資訊 contextureinformation 語意資訊 semanticinformation 主題資訊 topicinformation 等 利用這些資訊用來判斷詞句發生的可能性 其用途可在語音辨識 手寫辨識 輸入法 inputmethodeditor IME 資訊檢索 informationretrieval IR 等 語言模型訓練訓練語料 trainingcorpus 背景語言模型 backgroundLM 統計式語言模型 N連語言模型 N gramLM 語意資訊 潛藏語意分析 latentsemanticanalysis LSA 主題資訊 主題混合模型 topicmixturemodel TMM 摘要 訓練語料與測試語料間的不一致性 mismatch 蒐集時間 領域 domain 主題 topic 語言模型調適語言模型調適的目的利用與辨識任務相關的資訊來彌補上述的不一致性調適語料 adaptationcorpus 內容較訓練語料少同時期 contemporary 同領域 in domain 摘要 語言模型調適方法以最大事後機率為基礎詞頻數混合法 countmerging 模型插補法 modelinterpolation 動態快取模型法 dynamiccachingmodel 以限制為基礎最大熵值法 maximumentropy ME 最小鑑別資訊法 minimumdiscriminationinformation MDI 主要研究成果主題混合模型最大熵值法 大綱 語言模型的訓練語言模型的調適實驗環境設定及實驗結果結論 統計式語言模型 統計式語言模型 statisticallanguagemodel SLM 語言模型P產生長度n之詞序列 wordsequence W的機率 量化接受度 參數量非常龐大 V i 必須作簡化N連語言模型三連語言模型 統計式語言模型 三連語言模型的估測最大相似度估測法 maximumlikelihoodestimation MLE 語言模型平滑化 smoothing 資料稀疏性 datasparseness 本論文採用Katz模型平滑化技術N連語言模型所能擷取的資訊被N的值所限定 語意資訊 觸發對 觸發對 triggerpair 長距離詞與詞之間的語意相依資訊歷史詞序列hi中包含與詞wi相同語意的詞 如wj 則稱wj觸發wi估測觸發對平均交互資訊 averagemutualinformation AMI 自我觸發 self trigger 語意資訊 潛藏語意分析 詞與文件矩陣 term documentmatrix 奇異值分解 singularvaluedecomposition SVD 詞向量與文件向量無法比較將詞與文件投影到較低維的潛藏語意空間加入新的文件 fold in 潛藏語意分析 應用於語言模型機率估測更新歷史詞序列所形成的向量餘弦估測 cosinemeasure 與N連語言模型合併 主題資訊 主題資訊 topicinformation 語意分類 semanticclassification 的應用線性混合模型 linearmixturemodel 主題分類模型 topicclassificationmodel 主題混合模型 主題混合模型 topicmixturemodel TMM 每一個文章皆為一個混合模型主題一連語言模型 topicunigram 主題在各文章中的權重 主題混合模型 應用於語言模型機率估測與N連語言模型結合模型插補法機率調整 probabilityscaling 語言模型調適的架構 訓練語料背景語言模型N連語言模型調適語料與測試語料同時期或領域相同大小較小不限定為N連語言模型 最大事後機率法 最大事後機率法 maximumaposterior MAP 詞頻數混合法模型插補法動態快取模型法模型插補法延伸 最大熵值法 每一個資訊來源都會引發一群限制 asetofconstraint 限制的交集區域代表滿足所有限制的機率分佈 其中擁有最大熵值的分佈為最大熵值法的解 滿足所有限制的機率分佈之集合 IIS演算法 實驗 Set1 廣播新聞訓練語料 中央社2000年和2001年新聞 一億七千萬中文字character 調適語料 中央社2002年8月到10月新聞 五千萬中文字 測試語料 2002年9月之廣播新聞 3 7小時Set2 公視新聞 MATBN 訓練語料 中央社2001年和2002年新聞 一億五千萬中文字 調適語料 公視新聞 MATBN 3528則新聞測試語料 20003年外場記者 1 5小時 基礎實驗 Set1Set2 詞頻數混合法 Set1Set2
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!