资源描述
HS动态作文语料库”语料标注及代码说明“ HS动态作文语料库”从字、词、句、篇、标点符号等角度,对所收入的作文语 料中存在的外国人使用汉语的中介语偏误进行全面标注。1 、字处理(包括标点符号)C:错字标记,用于标示考生写的不成字的字。用C代表错字,在C前填写正 确的字。例如:地球C(球”是错字)、这C。:别字标记,用于标示把甲字写成乙字的情况。 别字包括同音的、不同音而只是 形似的、既不同音也不形似但成字的等等。把别字移至中B的后面,并在前填写 正确的字。例如:提B题高、考虑B虎。L:漏字标记,用于标示作文中应有而没有的字。用L表示漏掉的字,并在L前 填写所漏掉的字。例如:后悔L,表示 悔”在原文中是漏掉的字。农L药,表示 农”在原文中是漏掉的字。D:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至 D中D的 后面。例如:我的D的,表示括号中的 的”是多余的字(原文中写了两个 的”。F:繁体字标记,用于标示繁体字。把繁体字移至F中F的后面,并在F前填写 简体字。例如:记忆F憶、单F單纯、养F養分丁份。1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先 标繁体字标记,再标别字标记。例如:俭朴F樸B僕。2)繁体字写错了,标为:后F後C。Y:异体字标记,用于标示异体字。把异体字移至丫中丫的后面,并在Y前填写 简体字。例如:偏 丫徧、沉丫沈。P:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至P中P的后面,并在P前填写简体字。例如:缘Py u a分、保护Ph词# :无法识别的字的标记, 用于标示无法识别的字。每个不可识别的字用一个 # 表示。例如:更#保存自己的生命,BC:错误标点标记,用于标示使用错误的标点符号。把错误标点移至BC中BC的后面,并在BC前填写正确的标点符号。例如:勤奋、 BC, 刻苦的精神。BQ:空缺标点标记,用于标示应用标点符号而未用的情况。把BQ插入空缺标点 之处,并在BQ中BQ的后面填与所缺的标点符号。 例如:周围的环境很安静 BQ, 生活也非常平凡。BD:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至 BD中BD的后面。例如:我家周围的BD,美丽风景。2、词处理:(包括成语)CC:错词标记,用于标示错误的词和成语。包括4种情况:1)把词的构成成分与错顺序的。把写错的词移至CC中 CC的后面,并在CC前填写正确的词。 例如:首先CC先首卜众所周知CC众所知周。2)该用甲词而用乙词的。这种情况类似别字,但属于用词层面上的错误。 标示方法同上。例如:虽然现在还没有实现CC实践,它在CC对价格方面有点贵,所以没得到广大消费者的支持 CC持支。3)生造词。指考生自造的、或某些外语中可能有而汉语中不存在的词。 例如:农作物CC农产物/农物卜 农产品CC农作品但长期来看造成环境污染,破坏自然生态 CC目态,绿色食品的好处在于吃这些食品后在身体里没有农药的残留量CC潜留量。4)词语搭配错误。包括词性、音节等方面的搭配错误。例如:最好的办法是两个都保持CC走去平衡。我也回CC1回去沈阳。吃这种东西会CC1可以得CC1得到病CC1疾病。CLH:离合词错误标记,用于标示各种和离合词相关的错误。标在有错误的离 合词的后边,表示前边的离合词用法有误。例如:我快要毕业CLH大学CQ 了。虽然这么L多年都没见面CLH过,我对哈尔滨CJ-zy很感兴趣。有观光CLH哈尔滨的宿愿。W:外文词标记,用于标示以外文词代替汉语词的情况。 把外文词移至W中W 的后面,并在W前填写相应的汉语词。在 W和外文词之间填写汉语词的字数。 例如:非洲W2Africa卜爵士乐W3jazz。教我工作的方法 W2ABC。CQ:缺词标记,用于标示作文中应有而没有的词。 在缺词之处加此标记,并在 CQ冲CQ的后面填写所缺的词。例如:这就CQ要由有关部门和政策管理制度来控制。有的农民CQ在不使用化肥和农药的情B精况下BD,养农作物,CD:多词标记,用于标示作文中不应有而有的词。把多余的词移至CD中CD的后面。例如:然后肯德基的收入有所增加CD 了 。中国政府应该采取良好的措施来管理农业CD方面, 但我觉得CD按照上面所写的方法是现在很多人或国家用的方法。 词处理中需要注意下列问题:1)因介词、方位词等的缺少或多余造成的结构不完整,助词的错用、多用、漏 用,词性误用等,均视为词的错误。例如:随着社会CQ的发展,人们CQ对吃的东西很重视。在这个过程CQ中特别是非洲CD的话,问题很大的。2)结构助词“的” 、“地”、“得”混用:按错词处理。例如:按照人们的要求不用化肥和农药的话,产量会大大地 CC的下降。 我认为当你很饿的时候,什么东西都吃得CC的下。孩子们饿得CC地大哭小叫,3)该用汉语数字而用阿拉伯数字的,一律按错词处理。例如:那应该怎样解决呢?所以我想出了一 CC1个办法,少用化肥和农药。把“十五”写成了“一五”,应把“一五”整体按错词处理,而不能仅仅把 “一”处理为 别字。4)错词、多词、成分赘余的一个标注符号中可以包括两个或两个以上的词。例如:我想任何人CC每一个都不要有浪费食品的习惯,(每/一/个)没有CC2重视做未经污染的食品就是绿色食品。(重视/做/未/经)5) 原文字数和改后字数不一致的,须在括号中CC之后且紧靠CC处加一个阿拉 伯数字,表明改后的字数。例如:战Pzha n争中最困难的人是没有力气的孩子和老人CC5老弱子。所以我认为首先农民可以使用天然肥料CC4化肥,代替化肥来种植农作物 6)不清楚或无法理解的词用CY标示,表示存疑”标在该词的后面。例如:虽然这么L多年都没见面CLH过,但我和他们的忆惯CY是忘不了的。3、句处理:CJ :病句标记,用于标示错误的句子。一般标在有错误的句子之后、该句标点 之前,并用小写汉语拼音字母简要标明病句的错误类型。例如:他把那本书看 CJba。我认为我们先尽量地 B 的产出农作物给他们,先给他们不挨饿 CJjy。 如果有人批评这是太奢侈CJxw句子错误类型代码:CJba: 把字句错误CJbei :被字句错误CJbi :比字句错误CJl :连字句错误CJy :有字句错误CJs:是字句错误CJsd:是的”句错误CJcx:存现句错误CJjy :兼语句错误CJld :连动句错误CJshb:双宾语句错误CJxw :形容词谓语句错误CJ- :句子成分残缺错误标记,用于标示由于成分残缺造成的病句。在短横后 边标明所缺成分的名称,该名称用小写代码表示;在小写代码之后填写所缺的具 体词语。标在成分残缺之处。例如:为了增加CC满足粮食,CJ-zhuy人们使用了化肥和农药,这样产量就会大大提高。这样的活动CJ-sy开展以来,肯德基的垃B拉圾C总量大大降低。那两种CC个东西就容易伤害人类的CJ-dy健康系统。从具体CJ-zxy情况来看,CJ+ :句子成分多余错误标记,用于标示由于成分多余(赘余)造成的病句。 后边用小写代码标明多余成分的名称,并把所多余的具体词语移至该名称的后 面。标在成分多余之处。例如:这是我们CJ+dy(故人的责任。而且研究CJ+buy下去产量能提高的办法。而且 CJ+zy正在还死去好多人。句子成分采用层次分析法的观点,共 8种:CJ-/+zhuy :主语残缺或多余CJ-/+wy :谓语残缺或多余CJ-/+sy:述语残缺或多余CJ-/+by :宾语残缺或多余CJ-/+buy :补语残缺或多余CJ-/+dy :定语残缺或多余CJ-/+zy :状语残缺或多余CJ-/+zxy:中心语残缺或多余CJX:语序错误标记,用于标示由于语序错误造成的病句。标在语序错误的词 语的后边。如果是相邻的两个成分语序错误,按照自然顺序,把CJX标在前一个 成分的后边。例如:大多数CJX这些人生活CC2活在很不好的地方, 可是这两个问题同时CJX要解决非常不容易, 现在每个人很重视健康,受欢迎CJX绿色食品。CJZR:句式杂糅错误标记,用于标示把两种不同句式、两种不同说法混在一起 的病句。标在句子末尾,标点之前。例如: 这个问题不可能一两年解决的问题 CJZR。 现在,全世界流行是绿色食品 CJZR。 每次吃对身体有害于健康的东西 CJZR。 因为,人们的必生存之一中最重要的是饮食 CJZR, CJcd :重叠错误标记,用于标示句中词语的重叠错误,包括重叠方式上的错误, 也包括不该用而用重叠,或该用而不用重叠的情况。标在出现重叠错误的词语之 后。例如:而对生产者来说,尽量不用化肥和农药,在出货之前,进C行洗洗CJcd还有我们CQ应对绿色食品研究研究CJcd。CJgd :固定格式错误标记,用于标示固定格式搭配上的错误。 例如:“一 就 ”缺少“一”或者“就”。现代社会应当认 保护自己,尊重其他人”为口号CJgdWWJ :未完句标记,用于标示没写完的半截子的句子。标在未完成句的末尾 处。例如:只是全球 WWJ 最后国家政府不考虑经济问题、积 WWJ 不知道什么时候会普及起来,但是我认为这还是不是个 WWJCJ? :句处理存疑标志,用于标示错误类型不清楚的、或错误类型标注很不方 便的、或句义不明且有语法错误的的病句。标在存疑病句之后、该句标点之前。例如:地球上,有的地方还在 饥饿”来艰苦CJ? 。 还要想每个人的健康是帮助饥饿人的办法越来多健康的人会越来多帮饥饿的人CJ?。把化肥可以取代CC代取用草、剩饭做的自然肥料CJ? ,把农药也可以取代CC 代取喜欢吃害虫的动物 CJ?。4、篇章处理:(包括复句)CP :篇章错误标记,用于标示篇章错误。大括号的前半和后半分别表示有错 误的篇章的起点和终点,在起点处标CP,在终点处标P。即:CP。P所谓篇章错误, 主要指句子和句子之间在衔接方面的错误。 最典型的情况是每个 单句都正确,但作为一个整体来看则句子相互之间缺乏联系, 不能构成一个紧凑、 自然、流畅的成段表达。 而产生这种情况的原因, 可能是语义方面的, 也可能是 连接方式方面的。例如:CP我们经过了漫长的历史,一些没有用的人死于历史中,挨饿其实是可以克服的。P(前后句意义上无关)CP吸烟对孩子们CJ-sy有不好的影响,这一观念他会不会知道呢?所以我早就 不理他了。 P(用了表示因果关系的连词,但句子之间并不存在因果关系)CP 目前,随着人们生活水平CQ的提高,CJ-zhuy人们CD就对饮食品很重视。 就CJXCC用未经污染的农产品加工的食品叫做 绿色食品”。P (前后句之间缺少过渡句)CP我以前看报纸的时候,有一篇关于农药的文章。他说,一般的食品,比如说, 米,蔬菜、水果等CD的东西,好好儿洗一下就行了,不用担B但心。P (“他”指称不明,使两句之间失去联系)5、其他相关问题说明:1)标注的顺序优先原则: 从大到小,即:篇 句词字。 篇章错误中含有句、词、字错误的,错句中包含词、字错误的,词中包含字的错 误的,均应按照从大到小的顺序依次处理,分别标注。对同一个错误,能按篇章错误处理的即按篇章错误处理,否则按句式错误处理, 其次按句子成分错误处理,再次按词的错误处理,最后按字的错误处理。 从句式的角度看,把字句缺 “把”、被字句缺 “被”、有字句缺 “有”、是字句缺“是”、 是的”句缺 的”等,均按特殊句式错误处理,而不按成分残缺或缺词处理。 换句话说,有些错误虽然可以按句子成分错误或错词处理, 但如果是涉及某种特殊 句式的问题,则一般优先按句式错误处理。从词的角度看, 句中所缺之词如果涉及某种句式, 则标为错句;虽然不涉及句式, 但可以充当某种句子成分, 则应按成分残缺处理; 与句式、 成分都无关的才按缺 词处理。例如:如果我的祖国CC母国是西方的先进国的话,我选 绿色食品”。CP如果我不是 西方先进国的人,而且缺少粮食国家的人的话 BQ, 不选“绿色食品 ” QB。 P (复句中关联词语的使用错误按篇章错误处理,而不视为错词或别字) 我对这个问题以下几个观点 CJy。(该句应为有字句,所以按错句处理,而不按缺述语或缺词处理) 对于非洲来说 CC来看,这是还不够CJxw。(汉语中形谓句无需用 “是”,所以按错句处理,而不按多述语或多词处理) 我认为这种CD的现象,在很多人身上CJ-zy都会有的。(“都”可以做状语,所以按成分残缺处理,而不按缺词处理)从CC对现在的情况来说,让大家去吃 绿色食品”是太早了 CC的。(正确的说法并不是 是的”句,因而按错词处理,不视为错句)目前 CC目先、祖国 CC母国。(“目先”、 “母国”,作为词是不存在的, 属用词层面上的错误, 所以按错词处理, 而不视为别字)现在各个B各国家都有 绿色食品”(考生知道有 “各个”一词,但误将 “个”写成了 “各”,所以按别字处理,而不视为 错词)2)同一个错误有两种标注方法的, 可以把两种标法都标上, 中间用斜竖线分开。 例如:随着现代化CJ-dy科技的/CJ-zxy的发展电子邮件是很方便 CJxw/CJsd!3)无需处理的情况:分段错误,指该分而未分段、或不该分而分段的情况。不予处理。内容上有错误, 或表意不清楚, 或修饰语太长, 但语法上不错的句子, 都不必处 理。例如:我认为吃 绿色食品”会损害CC害人类的健康,也会造C成污染。那是因为在绿 色食品中含有CC有含很多化学CQ物质,如化肥和农药。(对“绿色食品 ”的概念理解错误)这也是个令人深思的问题, 我觉得这个问题比绿色食品的问题重要得多。 不挨饿 的重要性绝比不上绿色食品问题,我认为不挨饿是第一位的。(前后句观点自相矛盾) 有高机系的国家也可以帮助还很落后的国家决解这个问题。( “高级系 ”概念不清) 我们常常能看到贫穷而且没有吃的粮食而在山上找上一般的人不能吃的东西吃 的人。(定语太长,表达罗嗦,但意思不错)
展开阅读全文