地名的自动辨识课件

上传人:494895****12427 文档编号:240951565 上传时间:2024-05-20 格式:PPT 页数:33 大小:2.36MB
返回 下载 相关 举报
地名的自动辨识课件_第1页
第1页 / 共33页
地名的自动辨识课件_第2页
第2页 / 共33页
地名的自动辨识课件_第3页
第3页 / 共33页
点击查看更多>>
资源描述
中國地名、組織機構名稱和英譯名的自動辨識R94921023 周彥呈中國地名、組織機構名稱和英譯名的自動辨識R94921023 1Outlinen地名的自動辨識n組織機構名稱的自動辨識n英譯名的自動辨識Outline地名的自動辨識2Outlinen n地名的自動辨識n組織機構名稱的自動辨識n英譯名的自動辨識Outline地名的自動辨識3地名的自動辨識n n資源n地名辨識系統地名的自動辨識資源4地名的自動辨識n資源n中國地名庫(收錄中華人民共和國地名錄)n中國地名用字庫n中國地名用詞庫(Ex:水庫、名勝、苗族)n二元同現庫(Ex:中國大陸)n並列聯繫詞庫(、和 與 並引入可信度)n地名指示詞詞庫(在、到、位於、城市、地區)word position basic weight地名的自動辨識資源5中國地名用字庫n收錄全部中國地名庫的用字n因為用字不集中n中國地名庫地名用字在真實文本中的覆蓋情況:可達95%中國地名用字庫收錄全部中國地名庫的用字6中國地名用字庫n紀錄n該字在地名中出現在中國地名庫的首中尾的次數n該字在地名中出現在真實語料的地名的首中尾的次數(與中國地名庫有出入所以須紀錄)n該字在真實語料中出現的次數n該字做地名首中尾字的使用程度n可以訓練n例:也、沂n(地名出現在首字此數相同,實際使用”也”高出很多)中國地名用字庫紀錄7地名的自動辨識n資源n n地名辨識系統地名的自動辨識資源8地名的自動辨識n地名辨識系統n地名識別規則庫n中國地名辨識系統地名的自動辨識地名辨識系統9地名識別規則地名識別規則10地名識別規則地名識別規則11中國地名辨識系統結構圖中國地名辨識系統結構圖12地名辨識範例n1.分詞地名辨識範例1.分詞13地名辨識範例n2.Ps(w)、Pm(w)、Pe(w)n Threshold T1=0.005 T2=0.005 T1=0.007地名辨識範例2.Ps(w)、Pm(w)、Pe(w)14地名辨識範例n3.選出”菜戶營橋”n4.收集上下文:位於、下n5.推理:用規則確認,左右界確定菜戶營橋n中國地名評測語料封閉測試nReturn rate=93.8%n正確率=86.7%地名辨識範例3.選出”菜戶營橋”15地名的自動辨識的困難n數量大、無規律n出現情況複雜n到北京、到十二月、到湖鄉n中國民間藝術之鄉n港、澳同胞n湖北京山縣n有眼不識泰山n老北京最喜歡吃的n地名長短:滬vs雙江拉估族佤族布朗族傣族自治縣地名的自動辨識的困難數量大、無規律16Outlinen地名的自動辨識n n組織機構名稱的自動辨識n英譯名的自動辨識Outline地名的自動辨識17組織機構名稱的自動辨識n組織機構名稱的語法性質和語意特性n組織機構名稱自動辨識演算法n組織機構名稱分析系統n組織機構名稱分析系統的改進組織機構名稱的自動辨識組織機構名稱的語法性質和語意特性18語法性質和語意特性n名詞(大部分)|形容詞|序數詞|動詞+機構中心語(名詞)n分類n地名:北京大學n人名:中山大學n學科專業、部門系統:電子工業部、教育委員會n研究、生產、經營對象:軟件研究所n上述綜合:白求恩醫科大學n大機構、團體、組織、職業:中國人民解放軍外語學院、中國發明家學會n專造的機構名:復旦大學、四通公司n創辦工作方式:某某集團、某某股份公司語法性質和語意特性名詞(大部分)|形容詞|序數詞|動詞+19語法性質和語意特性n|+n越是反映事物固定內在本質的定語越靠近中心詞n各機構可進一步規範:高校名稱的構造規則-+”大學/學院/院.等”語法性質和語意特性|20組織機構名稱自動辨識演算法組織機構名稱自動辨識演算法21組織機構名稱分析系統組織機構名稱分析系統22組織機構名稱分析系統的改進n附加規則1:首詞為地名且後接有地名人名機構團體或專造名則該地名不包括在高效名稱中。Ex:上海復旦大學、美國華盛頓大學n附加規則2:表示地區方位的方位詞(東南西北中)可視為地名或地名的組成部份。Ex:中央音樂學院、中南工業大學n附加規則3:高校修飾語不能只含有國家或更大區域的名稱。Ex:中國高中X組織機構名稱分析系統的改進附加規則1:首詞為地名且後接有地名23組織機構名稱分析系統的改進n前後界定位均正確者nReturn rate=93.8%n正確率=86.7%n後界定位正確者nReturn rate=99.1%n正確率=99.4%組織機構名稱分析系統的改進前後界定位均正確者24Outlinen地名的自動辨識n組織機構名稱的自動辨識n n英譯名的自動辨識Outline地名的自動辨識25英語譯名的自動辨識n英語譯名識別的當用資源n英語譯名的自動識別算法英語譯名的自動辨識英語譯名識別的當用資源26英語譯名識別的當用資源n英語姓名譯名用字表(英語姓名譯名手冊)nCC-Only-HeadEx:包牛nCC-Not-HeadEx:子琴nCC-Only-Tail Ex:生雄nCC-Not-Tail Ex:卓強n聯想表 Ex:其-奇 汗-漢英語譯名識別的當用資源英語姓名譯名用字表(英語姓名譯名手冊)27英語姓名譯名用字表英語姓名譯名用字表28英語譯名的自動識別算法英語譯名的自動識別算法29英語譯名的自動識別算法n範例:他對諾貝爾醫學與生理獎獲得者休伯和書塞爾教授的研究成果作出修正n靠用字表得出:諾貝爾、生理、得者休伯、書塞爾n生-CC-Not-Head 得,者-CC-Not-Head英語譯名的自動識別算法範例:他對諾貝爾醫學與生理獎獲得者休伯30英語譯名的自動識別算法n範例:任命雷鳥本利斯塔為海軍新聞發布官n靠用字表得出:雷鳥本利斯塔為n為-CC-Not-Tail英語譯名的自動識別算法範例:任命雷鳥本利斯塔為海軍新聞發布31英語譯名的自動識別實測n十萬句隨機抽取1500句含譯名的句子n真實譯名有2103個n找到2574個潛在譯名裡面1806個正確譯名nReturn rate=88%n正確率=72%n可用新英語詞典附錄的常用英語姓名表來提高Return rate和正確率英語譯名的自動識別實測十萬句隨機抽取1500句含譯名的句子32suahThank yousuah33
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!