语言资源观与课件

上传人:痛*** 文档编号:241793842 上传时间:2024-07-24 格式:PPT 页数:41 大小:133KB
返回 下载 相关 举报
语言资源观与课件_第1页
第1页 / 共41页
语言资源观与课件_第2页
第2页 / 共41页
语言资源观与课件_第3页
第3页 / 共41页
点击查看更多>>
资源描述
语言资源观与中国的语言资源监测与研究语言资源观的提出是近年来国家语言文字界提出的新观点。它将促使我们对自己的母语状况进行更自觉的认识、研究、利用和保护。2005年度的语言监测报告是我国“语言生活绿皮书”的第一次年度报告。回顾、剖析这次年度报告,将在给我们的语言文字生活和有关政策的制订带来有益的启示。国家语言资源观的提出语言是一种资源,是和国家的国土资源、海洋资源、矿产资源、森林资源、人口资源等一样性质重要的国家资源。在信息社会,语言是信息的载体,国家语言资源更是一种特殊的至关重要的国家资源。国家必须依法对国家语言资源实行管理,必要和条件成熟时还要进行资源普查和抽调。国家国土、矿产资源是不可再生的资源,森林、人口是可再生的国家资源。国家语言资源也是可再生的资源,并且是不断产生变异的可再生国家资源,因此必须进行动态管理。袁贵仁的讲话(2005-6-30平面媒体中心成立大会)创办“国家语言资源监测与研究中心”,是综合考虑建国几十年来语言文字工作和语言文字应用研究情况后提出来的。语言资源是一种重要的国家资源,新中国成立以来,语言文字应用研究、语言文字信息处理技术等都取得了长足进展,但其中定性的成分比较多。时代发展到今天,我们应该对中国的语言国情有更多定量的了解,需要掌握大量的数据;需要对语言资源实施动态统计分析研究,逐步加强动态管理,进而进行开发利用。1中央领导同志非常关注社会语言生活,多次做出重要批示,成立国家语言资源监测与研究中心,是落实领导同志批示的重要举措。该项目作为系列工程已列入教育部新教育振兴行动计划。平面媒体语言资源监测与研究中心是该项目规划的中心之一,今后还将陆续建立有声媒体、网络媒体、教育教材、海外华人社区4个监测与研究中心。每个中心都将建设一个动态流通语料库和相应的监测管理系统,利用现代化信息处理手段,对现代汉语进行动态定量分析和统计,对大众传媒、图书杂志和互联网上出现的外语词、流行语、新词语以及现代汉语中其他新变异、新现象进行监测、分析与研究,2成果以“语言生活绿皮书”等形式定期或不定期向社会发布。此类研究成果,一方面可以作为国家语言文字方针、政策制定和调整的参考,同时,也可以为群众正确使用祖国语言文字提供咨询服务,加强规范引导,积极有效地促进社会语言生活健康发展。3希望能把中心办成科学和开放的中心。所谓科学,是指研究方法、研究手段以及管理要现代化,符合科学的运作机制,不断提高成果的学术含量。所谓开放,就是要研究成员对外开放,要动员全国的力量来开展研究,就是要研究成果向社会开放,为社会提供服务,实现资源的整合和共享。4教育部与高校共建:1.平面媒体分中心(北京语言大学,2004-6-30)2.网络媒体分中心(华中师大,2005-2-20)3.海外华语分中心(暨南大学,2005-2)4.教育教材分中心(厦门大学,2005-6-19)5.有声媒体分中心(北京传媒大学,2005-10)教育教材语言分中心性质与任务随着人类科学技术知识更新换代频繁,有必要对语言生活进行较大规模调查,实施动态监测与发布。并在此基础上对语言信息进行研究,为相关的语言文字规范的制定提供量化的依据。语言作为一种国家资源,随着经济社会生活的发展变化而变化。教育教材中的语言状况是整个社教育教材中的语言状况是整个社会语言生活中一个重要内容,它对整个民族的母会语言生活中一个重要内容,它对整个民族的母语教学、第二语言教学乃至所有的知识教育体系,语教学、第二语言教学乃至所有的知识教育体系,都会产生极为重要的作用。都会产生极为重要的作用。国家语言资源监测与研究中心(教育教材)的成立,标志着可以对教育教材的语言现象进行实时的动态监测、分析和研究,可以最迅速、最广泛地了解语言现象的动态变化,为国家的语言政策、语言规划和语言教育等提供参考依据,从而更积极有效地促进和引导社会语言生活健康发展。教育教材语言中心的任务教育教材语言中心的任务1.对教育教材语言资源的收集、建库、整理和加工;2.对教育教材语言资源的应用情况进行监测和客观的描述;3.向国家有关部门提供咨询,为制定标准和规范提供依据和参考。研究领域在建设语料库的基础上,向社会逐年公布教育教材语言的监测与研究的调查报告。必要时可作为中国语言国情报告的附录公布。主要包括:1基础教育语文教材语言研究2基础教育多学科教材语言研究3对外汉语教材语言研究4历代教育教材语言研究5国外教育教材语言研究6现代汉语通用词量与分级研究7辞书语言研究8国家有关部门下达的其他有关研究工作调查语料分平面媒体、网络媒体、有声媒体三种类型进行,分别对中国大陆的主流报纸、新闻网站、广播电视节目的大规模真实文本的字、词语、标点、符号进行了调查与统计。调查语料共计892,034个文本文件,909,449,610字(包括标点符号及西文字母,不包括不可见字符693个,共计出现22,879次),其中纯汉字共计732,162,049字。汉字统计结果总字符数:909,449,610总字符种数:8,777总字数:732,162,049字种数:8225 汉字使用情况媒体总字数字种数共用字种数 独用字种数报刊425,808,902813456071705网络280,507,8406370560740广播电视25,845,3075763560745总计732,162,04982255607汉字对语料的覆盖情况覆盖率达到80%的字种数达到90%的字种数达到99%的字种数全部语料5819342315词语统计结果分析2005年报刊、网络、广播电视语料中词语使用情况:分词单位的总数:489,240,995总词语数:416,090,995(不包括标点、符号、纯西文分词单位后的词语总量)总词种数:1,651,749字母词语的种数:24,277字母词语的出现次数 64,447词语总数达165万,数量巨大。其中大部分是人名(61万)、地名(23万)组织机构名(59万)、时间名(10万),分别占到总数的37%、14%、35%、6%。其他综合类只有11万条,占总数的7%,其中大部分是语文词。词语数频次累积频率4,1791233180%11,213289890%12,805236391%14,780188792%17,262148993%20,454113694%24,78781095%31,11053396%41,44030597%62,02513398%134,6642599%1,651,7441100%各频次段的使用词语数 频次词语数占词语总数的比率1868,24452.47%2255,53215.44%3107,2306.48%466,6154.03%541,4242.50%6-10101,2216.12%11-2063,9173.86%21-10077,3104.67%10073,2564.43%各文本数段的使用词语数 文本数词语数占词语总数的比率1967,20158.56%2243,72514.76%399,1916.01%456,3943.41%535,2122.13%6-1080,8614.90%11-2049,0592.97%21-10060,8113.68%10059,2953.59%一万条高频词本调查语料为7亿字,用软件分词处理后得到带词性标注的分词单位180多万条,归并词性标注后得到不重复的分词单位1,651,749条。累积频率达90%的只用了11213条。对这11213条高频词略作了调整,对以下五类作了排除:1)人名类。人名均未收入,如刘翔、布什、姚明、王某、李某。有270余条。2)地名类。地名一般不收,包括风景名胜地等,如“黄山、九寨沟”,有150余条。符合以下条件的保留:国名和地区名。直辖市名和特别行政区。概指性的地名,如“华北”“江南”“亚太地区”。重要突发事件的发生地,如朝鲜半岛。3)组织机构等专名类。机构名、企业名、品牌名一般不收,有230余条。符合以下条件的保留:国际、洲际的机构,如“联合国安理会”“东盟”。重要机构名,如“中共中央”“国务院”“人大”“中共中央”。重要新闻事件的有关专名,如“山西炒房团”。4)数字类。表具体数量的不收,如“八十”“三天”“8点”。未收的有200余条。基数词和序数词、意义概指或泛指的数字词保留,如“一、二、三、四、五、六、七、八、九、十、百、千、万、亿”“第一、第二”“星期一”“近来”“昔日”“上千”等。5)非词或分词有误的。如“今版街区”“投行”,有12条。列入本高频词表的有10356条。其中绝大部分是词,也包含有语素词和固定短语,本表统一以“词语”称之。它们皆具有高频、通用的特点。每个词语带有反映出“词”“频次”“出现文本数”“频率”“累积频率”等五项信息。对外汉语教材语料调查对象当前使用范围较广,较有代表性的两套对外汉语教材:北京大学出版社1993年版汉语初级教程(1-3册),16至80课,共65课课文。北京语言大学出版社1999年版本科一年级系列汉语教程(1-3册),共100课课文。两个版本的课文都是各自体系中的初级汉语课本,都承担着精读课主干课程的功能。对两套教材共165篇课文中出现的字、词和标点符号进行了统计。统计内容包括“频次”“出现文本数”“频率”“累积频率”。“频次”为出现的次数;“出现文本数”为出现的课文数,本调查的文本总数为165个。1本次考察是针对课文内容进行,课后练习以及辅助阅读材料都未作为考察对象。2统计分两部进行,一是对软件的带标注的分词结果进行统计,为了保证与使用同一软件分词结果的可比性,对分词结果一般不进行人工干预。第二步则是对合并了词性的“词”进行统计,汉字使用情况汉字总数为:78414,北大版汉字总数为22709,北语版汉字总数为55705。汉字种数:1847,北大版字种1031个,北语版字种1778个。字总数字种数 共有的字独有的字北大版 22709103196269北语版 557051778962816全部784141847/与3500常用字表对比,本字表中不见于一级常用字,存在于2500-3500之中的字有97个。在3500常用字之外的有37个。存在于次常用字的97个字 哎癌澳芭彬糙橙瓷歹瞪碟妒镀敦尔啡氛卦逛郭函憾撼杭侯葫焕恍嫉辑寂灸咖楷筷揽缆蕾莉痢聊琳凌琉伦洛玛曼媒陌寞娜奈呐帕烹彭啤屁频聘屏歧谴秦寝刹霎珊拭涮硕胎碳屉婉谓吻涡晰厢镶谐恤涯抑寓豫猿砸噪杖账稚衷拄综 存在于3500常用字之外的31个字:镑嚓禅沓迪尬尴铬嗨跤阄咔愣遛嘛髦瑙妮哦啪嘭淇哇惟咦颐荫俑竽圳篆 词语总数:53240,北大版15049,北语版38191。词种数:6065,北大版2188,北语版5335。地词性标注合并后得到的词语数是:词语总数:5322,北大版1968,北语版4712。其中两套教材共有1358,北大版独有610,北语版独有3354。教材带词性标注的词语数合并词性标注的词语数词语总数词种数词种数 共有独有北大版 15049218819681358610北语版 381915335471213583354总数5324060655322对5322条词语,作了一些排除。排除的主要有以下几类:数字词,如“1203”“1946年”“80分”“两年”“一万二千”,有280余条。人名,如“安娜”“安妮”“玛丽”“山本”“王伟国”“关建平”“小张”,有70余条。但不包括历史名人,如“孔子”“孟子”“司马迁”。组织机构名,如“中央戏剧学院”“国际广播电台”“北京胡同文化发展公司”“大三元酒家”“托福”,有40余条。地名,如“香山公园”“西双版纳”“四季青乡”“颐和园”等,有60余条。但不包括国名、直辖市、特别行政区等。排除后还有词语4851条。教育教材语言的调查字:使用度词:频次、文本数、频率、累积频率 补充:词性、义项、义频、句例句:句型、句长、句子成分、句子关系篇章:文体、长度、作者、时代对象语言叙述语言思考与练习1.什么是语言资源?它是在什么背景下提出的?为什么要进行语言资源的监测与研究?2.这一研究的目的与意义是什么?3.语言资源与一般的语言使用有着怎样的关系?
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!