常见语料库使用入门_图文

上传人:等** 文档编号:240720331 上传时间:2024-05-02 格式:PPT 页数:59 大小:8.85MB
返回 下载 相关 举报
常见语料库使用入门_图文_第1页
第1页 / 共59页
常见语料库使用入门_图文_第2页
第2页 / 共59页
常见语料库使用入门_图文_第3页
第3页 / 共59页
点击查看更多>>
资源描述
常见语料库使用入门语言研究中的小技能get华中师范大学语言研究所华中师范大学语言研究所20152015级级 秦志君秦志君PPT模板下载: 主要部分第一节 语料库及其分类第二节公共语料库检索第三节 个人语料库创建0第一节语料库及其分类语料库及其分类1语料库(corpus):存放语言材料的仓库。现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本的汇集。三点基本认识:A.必须是实际使用中真实出现过的语言材料;B.须以计算机为必要载体;C.材料分析加工后才有用。语料库及其分类2语料库及其分类3第二节公共语料库检索公共语料库检索4统计频率 查找例句验证分析参数设置带着问题收集证据基于检索公共语料库检索5我国21个知名语料库01.中央研究院近代汉语标记语料:http:/www.sinica.edu.tw/Early_Mandarin/02.中央研究院汉籍电子文献:http:/www.sinica.edu.tw/ftms-bin/ftmsw3 03.国家现代汉语语料库:http:/124.207.106.21:8080/04.国家语委现代汉语语料库:http:/ of Large Numbers):指在随机试验中,每次出现的结果不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。公共语料库检索11由收集验证到实证分析需要学点统计学抽样与调查离散与连续频率与分布描述与图示样本与总体估计与检验统统计计置信区间T检验公共语料库检索12由收集验证到实证分析需要学点统计学集中趋势的特征数:平均数、众数、中位数、调和平均数、几何平均数变异程度的特征数:极差、四分位差、平均差、方差、标准差参数估计与假设检验以样本对总体的推断一般步骤(1)明确问题(2)收集信息(3)提出假设(4)构建模型(5)模型求解(6)分析检测公共语料库检索13由收集验证到实证分析需要学点统计学在自然现象和社会现象中,大量的随机变量都服从或近似地服从正态分布。大部分参数检验,比如t检验,方差分析,回归分析等,要求数据符合正态分布。三个基本点:三个基本点:1)呈钟形,形态如左图;2)两个参数,均值和标准差;3)图象大致表示:平均数周围的属性值在总体上占到大多数。正态分布正态分布公共语料库检索14公共语料库的检索说明以BCC语料库为例初阶的进阶的仅输入关键字查找关键字特殊符号检索式搜索语料库检索百度一下公共语料库检索15公共语料库的检索说明以BCC语料库为例统统计计公共语料库检索16公共语料库的检索说明以BCC语料库为例检索式说明检索式可以是字串、词串、词性的组合而成的查询模式。例如:如果检索“我想吃”后面紧接着一个名词的语言实例,检索式为:我想吃n,这里 n 是词性符号,表示名词。公共语料库检索17公共语料库的检索说明以BCC语料库为例检索式示例公共语料库检索18公共语料库的检索说明以BCC语料库为例检索式示例公共语料库检索19公共语料库的检索说明以BCC语料库为例特殊含义符号公共语料库检索20公共语料库的检索说明以BCC语料库为例特殊含义符号公共语料库检索21公共语料库的检索说明以BCC语料库为例词性列表公共语料库检索22公共语料库的检索说明以BCC语料库为例构词公共语料库检索23公共语料库的检索说明以BCC语料库为例构词合成词公共语料库检索24公共语料库的检索说明以BCC语料库为例搭配公共语料库检索25公共语料库的检索说明以BCC语料库为例离合公共语料库检索26公共语料库的检索说明以BCC语料库为例句型公共语料库检索27公共语料库的检索说明以BCC语料库为例定界公共语料库检索28公共语料库的检索说明以BCC语料库为例构式公共语料库检索29公共语料库的检索说明以BCC语料库为例构式公共语料库检索30公共语料库的检索说明以BCC语料库为例自定义搜索公共语料库检索31公共语料库的检索说明以BCC语料库为例检索结果公共语料库检索32公共语料库的检索说明以BCC语料库为例历时检测公共语料库检索33公共语料库的检索说明以BCC语料库为例检索统计公共语料库检索34公共语料库的检索说明以BCC语料库为例筛选查看上下文如果想对检索结果进一步筛选,可以使用筛选功能,对检索结果进一步剔除或者仅仅保留符合筛选检索式的实例。公共语料库检索35公共语料库的检索说明以BCC语料库为例下载高级设置公共语料库检索36公共语料库的检索说明以BCC语料库为例句法树注意检索格式 多摸索多使用 依据调查需要设置调查项目学点儿统计学 学点编程语言 公共语料库检索37第三节 个人语料库创建个人语料库创建38材料/工具准备阶段1、电脑、办公软件2、语料的选取标准3、语料库大小设定4、已收好集的语料5、采取txt格式保存生语料库熟语料库加工标注词性标记句法标记词义标记篇章指代标记韵律标记若只是要词频数据,则生语料库足够,word/wps或txt记事本都可以建立word/wps的“查找替换”工具即可,txt记事本的“编辑-查找”工具也行。“宏”个人语料库创建39熟语料库加工阶段需要工具/材料:1、电脑、办公软件2、语料库加工工具2、语料的选取标准3、语料库大小设定4、已存的生语料库5、采取txt格式保存个人语料库创建40熟语料库加工阶段可以采用这个工具双击 打开软件个人语料库创建41熟语料库加工阶段需要说明的是:自己找到的语料库必须是已经集中放好到“语料库”这样的文件夹中。点击 打开文件个人语料库创建42熟语料库加工阶段打开“语料库”文件夹个人语料库创建43熟语料库加工阶段比如,选择“痴人”这个语料个人语料库创建44熟语料库加工阶段然后,点击“切分标注”即可个人语料库创建45熟语料库加工阶段然后,点击全选,复制到新建的一个txt文档,保存文件,得到一个熟语料然后,把新存的那个熟语料文件保存到一个新建的“熟语料库”文件夹中依据此法,逐一对生语料库中的单个语料进行“词性标注”,然后逐一保存到“熟语料库”中。这时,初加工的自建熟语料库的完成了。个人语料库创建46语料库的检索阶段双击该软件进入界面推荐使用的软件AntConc个人语料库创建47语料库的检索阶段接下来,英语不好的话,可以设置语言,点击“Global Settings”菜单,找到“Language Encodings”,点击该菜单,再点击右手边的“Edit”,这时会弹出一些选项,选择“Chinese Encodings”,在选择该项目右边的“Chinese(euc-cn),最后点击右下方的“Apply”。个人语料库创建48语料库的检索阶段这时,会自动回到这个界面个人语料库创建49语料库的检索阶段点击“File”选项,再选择“open files”,然后得找到“熟语料库”文件夹,点击。个人语料库创建50语料库的检索阶段选中全部语料,然后点击“打开”。个人语料库创建51语料库的检索阶段所有“熟语料库”中的单个语料都出现在了Antconc软件的左侧栏中,接下来,我们就可检索了。比如,你检索、研究的是“很+X”,那么由于转成了熟语料库,检索式应为“很/d*/a”(很接形容词)、“很/d */v”(很接动词)等等,然后依检索式进行检索。需要说明的是“很/d*/a”词与词之间得空一格,就像英语中“I have”得空一格。个人语料库创建52语料库的检索阶段比如说,检索“很/d*/a”,在检索栏中写上“很/d*/a”点击start 就出现了个人语料库创建53语料库的检索阶段Concordance Hits 代表的是出现“很/d*/a”也就是(很+形容词)出现的次数,我们可知出现了“46”,那么这就意味着,很接形容词在我的这个语料中出现了46次。依据此法可检索“很/d*/v”的次数。*代表任意字符,也就意味着在这个语料库中任意的词是不是,但是“/v”这种形式,又限定了*只能是语料库的动词,于是在“很/d*/v”共现平面中,也就是意味着,“很”后面的“动词”。须了解学习AntConc检索式
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 活动策划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!