语料库课程(一)笔记解析课件

上传人:沈*** 文档编号:244527810 上传时间:2024-10-04 格式:PPT 页数:127 大小:26.41MB
返回 下载 相关 举报
语料库课程(一)笔记解析课件_第1页
第1页 / 共127页
语料库课程(一)笔记解析课件_第2页
第2页 / 共127页
语料库课程(一)笔记解析课件_第3页
第3页 / 共127页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,语料库在外语教学研究中的应用研修班,8.1-8.3,8.1,上午,一、基本概念,真正的研究要用语料库来验证结果,Ts Text (readable), Type,类符,Token,形符 (语料库容量),Cs concordance,索引,collocation (,词汇层面的搭配,), colligation (,类联接,), context,(一)梁茂成,二、为什么要研究语料库语言学,1,)使语言学研究更具科学性,2,)可验证,不是玩具,3,)大数据,更具说服力,4,),enables you to look at a lot of language at once,(二)李文中,Brown-Raw,语料库范例,Span,跨距 (,KWIC,,一般左,5,右,5,),检索,排序,(sort),,以,necessarily,为例,观,察得出结论:经常与,not,连用。,Why concordancing?,上下看强形式搭配,左右看综合分析用法。,基本概念,type,(独特词形),,token,,,KW,/,SW,/,Node word,span (,一个,span,可视作一个,mini text),collocates (,观察从,collocationcolligationsemantic meaning),cotext, context, co-occurrence(,同现,),,,recurrence(,复现,),8.1,上午,Words cluster as people do,e.g. Search: no attempt,用法,Regex:,bnobsbattempts?(ed/ing)b,观察,collocation and co-occurrence,作业:,hair:,单数与复数的隐喻,body metaphor,(三)许家金,PowerConc,设计原则,most powerful,least effort,doing more with less,8.1,上午,基本操作,N-gram list,:,n,词词表,Hits,:相当于,Token,概念,Items,:相当于,Type,概念,Size,:包括单词、符号、数字,Filter mode,:过滤掉不需要的,: data,min10,即过滤掉频率,各自特点,观察与参照(,5,倍)比较,-,主题词),Log-likelihood,(对数似然值),3.84,sig. P0.05,,存在显著性差异,5.,解释结果,6.,讨论,具体操作,1,)准备语料:,把语料放入两个文件夹,spokendata, writtendata,2,)赋码:,用,treetagger,赋码,3,)改文件名,Powerconc,无法打开,.pos,文件,所以要用,PowerGREP,批量改文件名。,选择文件夹,右键“,search with PowerGREP”search type“rename files” search,”(S+.txt).pos,” replacement “,$1,”rename,凡是正则表达式中有的符号,需要在之前加,(,escape,),使得,后 的符号不具备正则表达式的符号含义。,4,)转码:,1,),action type: collect,2,)勾选,dot matches newlines,3,),search (A.*?z),4,),collect $1,5,),encode file naming style: 936,5,)生成词码表进行“主题词”对比,(,written & spoken,两个词码表),PowerConc,Data type: POS,count,保存,1,),written,语料库词码生成保存,删去前,4,行,2,),spoken,语料库生成词码,,keyness,,,count,保存两个语料库的对比,词码表,a,。,3,) 用,Excel,打开,词码表,a,4,)把,word, freq1, freq 2,三栏拷贝到,LL.xls,进行计算,观察,log-likelihood,和,sig.,结果,5,)用,PowerConc,检索显著性差异的词码,进行讨论分析。,(四) 梁茂成,rec.11,词与多词单位,多词单位提取方法,案例分析:学习者书面语中的词块分析,作业回顾,被动语态,1,),EditPadPro,S+_VBS?s(S+_RS+s)*S+_VSNs,2),拷贝到,PowerGrep,检索,If,非真实条件句,bif_S+s(|S+_w+s)would_S+,词与词块,词在传统语言学中的地位,意义单位和短语学的兴起,案例分析,案例分析,案例分析,案例分析:学习者书面语中的词块分析,高分作文(,30,)的词块提取出来,低分作文(,90,)中用了多少高分作文中的词块,即用,30,篇作为尺子来衡量,90,篇,Hits,相当于形符,Item,相当于类符,Result,拷贝到,Excel,,重新拷贝粘贴到,excel,新文档,“选择性粘贴,转置,”,获得竖列数据。,PowerConc,加载,90,篇,Concordance:batch search,搜出索引行右下角,Stats.,出现下面结果,保存为,result.txt.,Editpadpro,打开,result.txt,,把不需要的部分删除,保存。拷贝到,Excel,。,excel,文档拷贝粘贴到,excel,新文档,“选择性粘贴,转置,”,获得竖列数据。,从,120,篇作文中,(excel,文档,),按照分数高低取后,90,篇作文,拷贝到刚才的的,excel,文档,确保一一对应,然后用,SPSS,做分数与词串使用频率的相关性分析。,分数与频率的相关性分析,(一) 许家金,光盘内容提示,图书和文献资料,可利用的网络资源,老师联系方式,iResearch,咨询交流平台,8.3,下午,资源,语料库:库,+,一套工具,1,),Generalcorpora,一般在,100,万以上,2,),Crown_CLOB,与,Torch,可以对比研究:,时间相近,采集样本方式一致,都包含,15,个领域。,3,),视频,,subtitles,可以下载,多语种,(,620,多万字词),4,) 新浪爱问可下载到各种电子书资源,5,), Corpus,许家金,英美人汉语作文语料库, 用户名密码:,test,,,test,可做:,1,),Frequent list,2,),Keywordlist,3,),Concordence(query),使用方法在光盘中有说明文档,平行语料文件起名,软件支持:,HLM,.ZH.,txt,(简体中文),HLM,.EN.,txt,CQPweb,平台使用见光盘,New query,Thin (,随机抽样,如,100),Frequency breakdown,Distribution,Sort,Collocations,Download,Categorise (,自己编码分类,如,LIT,MET,,可出分类报告,),Save current set of hits,联系方式,xujiajin,(二)学员展示,学员,1,张武江 建专用语料库,一、建设目的:,满足专业英语需求,为自主学习提供平台,进行平行检索,翻译教学,二、专用英汉平行语料库建设概况,三、建库的框架体系:,目的,规模,范围,语料类型(书,面文本转写),取样方法(全文输入),,标注方法(北外软件),四、创建步骤:,1.,选择语料:两本教材,2.,语料处理:由英汉两个句级对齐文本组成,分别命名为“通,信,.EN.txt”,和”通信,.CH.txt”,3.,使用,PowerGrep,为检索软件,用文本处理器进行文本整理。,3.,对齐,软件:,BFSUAligner,自动对齐,+,人工调整,塔多思,4.,分词:,treetagger,和,MyTxtSegTag,对语料进行分词。,5.,利用,PowerConc,进行检索,学员,2,王原森,研究问题:,Interactive Features in Public Speech (,Discourse analysis),Data,来源:,Ted,视频,+,字幕网站,工具,:,WordSmith,,,WordPilot2000,Written Texts,3,姜峰,词块研究,Data collection,:,British Academic Written English Corpus(BAWE),4.,刘芳,梁:,每个软件对单词的计算稍有差异,一次研究用同一个软件,五 沈娟,六 徐晓慧,基于语料库的科技英语新词的翻译研究,1,2,3,4,六 潘宏远,七 穆志刚,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!