人机交互文本标注工具开发论文

上传人:仙*** 文档编号:86960696 上传时间:2022-05-08 格式:DOC 页数:13 大小:74KB
返回 下载 相关 举报
人机交互文本标注工具开发论文_第1页
第1页 / 共13页
人机交互文本标注工具开发论文_第2页
第2页 / 共13页
人机交互文本标注工具开发论文_第3页
第3页 / 共13页
点击查看更多>>
资源描述
-毕 业 论 文论文题目:姓 名:学 号:学习中心:专 业:指导教师: 二 年 月毕业论文承诺书提示:根据语言大学网络教育学院论文写作的规定,如发现论文有抄袭、网上下载、请人代写等情况,毕业论文一律不及格。同时取消学士学位申请资格。毕业论文不及格者,可申请重写一次,并按重修缴纳费用。本人承诺:本人已经了解语言大学的毕业论文写作的有关规定;本人的论文是在指导教师指导下独立完成的研究成果。整篇论文除了文中已注明出处或引用的容外,绝没有侵犯他人知识产权。对本论文所涉及的研究工作做出奉献的个人和集体,均已在文中以明确方式注明。签 名:_ 日 期:_目 录目录2摘要2Abstract3第一章绪论111 前言112 研究背景1信息抽取概述1基于容的文本信息提取213开发人机交互的标注工具的意义314任务描述315论文的组织和安排3第二章标注工具的设计原则和设计思想521研究方法和指导思想522标注工具的设计原则52.2.2 文本标注工具的设计原则523 人机交互界面设计原则5第三章标注工具的具体开发531开发环境的选择532标注工具的设计5标注工具的界面算法5构造设计533 标注工具的详细设计6人机交互界面详细设计6菜单和工具栏的设计634标注过程文本的处理6实体标注详细设计6关系标注详细设计6事件标注详细设计635 标注结果636技术难点讨论6第四章标注工具的缺陷分析和功能展望7完毕语2致2参考文献2. z-人机交互文本标注工具开发摘要:基于容的文本信息提取是当前的一个研究热点,无论搜索引擎还是问答系统,其根本的根底是有效的获取文本中的信息。使用机器学习的方法从语料库中获取有效的知识,以支持文本信息的处理已经成为计算语言学的一个主流技术,而带标语料库则是这一技术的根底。 带标语料库的建立的根底就是对大量的文本进展标注,并以一定的构造来存储。这样一来就需要开发一个具有友好的人机交互界面的文本标注工具来辅助文本标注,在一定程序上减轻标注工作者的负担。这次文本标注工具的设计,处理的目标是纯文本文件,以一篇文档为单位提供用户进展实体,事件,关系的标注,并在标注过程中给出标注的中间结果,最后在保存标注文件的时候进展处理,以*ml语言格式进展输出存储。标注工具的功能包括对文本的实体,事件,关系三大类的标注,对标注过的文本进展标记,提醒用户标注进度,最后对标注中间结果的处理与保存。本文是对这次人机交互文本标注工具的设计与实现的详细的阐述。首先对背景及理论知识作了具体的介绍。然后,分别进展文本标注工具的系统分析、总体架构分析,并对每个模块的具体实现做详细地讲解。最后,本文还介绍本次文本标注工具设计的缺陷以及未来改良的方案,并对本次标注工具的开发作总结。关键词: 人机交互,文本标注,MFC编程The Interactive Te*t tagging Tool Development Author: * Tutor: * Abstract:The te*t information e*tration based on content is a current study hotspot. Regardless of the search engine or the interrogator-responder system, their basic foundation is gain te*t information in effective. Use the method of machine learning to gains the effective knowledge from Corpus , supporting the te*t information processing is already bee putaional linguisticsa mainstream technology. The tagged corpus is the technical foundation.The target of this te*t tagging tool design is the processed corpora(te*t). Taking the single piece of te*t for users to tag entities, relations, events, and show intermediate results during tagging process . culminating in the preservation of tagging documents processed *ml language to the output format for storage. The tools functional annotation including tagging the entities, the events, the relations labeled the tagging off te*t , remind users the tagging progress, and dealing the intermediate results processing and preservation.The paper will describe and discuss over the design and realization of this interactive te*t tagging tool. Firstly, detailed theoretical backgrounds will be given; secondly, analysis of this tool and general structure for it and the full descriptions about the realization of each model will be introduced; finally, the defects of the design of the tool and improvement to its future development will be given and a summary of the structure and the performance of the system will be delivered as well. Key word:Human puterInteractive, Te*t tagging, MFC. z-第一章 绪 论11 前言随着互联网的广泛普及,语言信息处理的社会需求越来越大,人们迫切需要用自动化的手段处理海量的语言信息。语言资源有方案有规模的开发对于语言信息处理领域的研究和开发具有重要意义。对文本进展标注就是语言资源建立的一个方面,人机交互式的标注工具是进展语料标注的有效手段,从一定程度上可以的减轻标注工作者的负担,同时还可以辅助检查标注结果。 开发界面友好的标注工具可以进一步的提高标注工作者的效率,同时构造化的输出更方便标注数据的后续使用。12 研究背景信息抽取概述信息抽取是指从一段文本中抽取指定的事件,事实等信息,形成构造化的数据并填入一个数据库中供用户查询使用的过程。即它从文本中抽取用户感兴趣的事件,实体和关系,被抽取出来的信息以构造化的形式描述,然后存储在数据库中,为情报分析和监测、比价购物、自动文摘、文本分类等各种应用提供效劳。例如,灾害预防部门可以从自然灾害的新闻报道中抽取出灾害的类型、时间、地点、人员伤亡、经济损失等情况;医生可以从病人的医疗记录中抽取出病症、诊断记录和检验结果;平安部门分析有线新闻和播送电视的文本来找到和总结恐惧分子活动记录等。一般来说,信息抽取系统的处理对象是自然语言文本尤其是非构造化文本。但广义上讲,除了电子文本以外,信息抽取系统的处理对象还可以是语音、图像、视频等其他媒体类型的数据。基于容的文本信息提取基于容的文本信息提取是当前的一个研究热点,无论搜索引擎还是问答系统,其根本的根底是有效的获取文本中的信息。使用机器学习的方法从语料库中获取有效的知识,以支持文本信息的处理已经成为计算语言学的一个主流技术,而带标语料库则是这一技术的根底。由于语言本身的复杂性和富含信息的特点,使得语料库标注的容、对象可以在语法、语义、语用等各个层次上进展,语料库标注的容和程度,从根本上决定了从文本中可以提取出的信息容和信息粒度,也决定了进展文本容计算的对象、方法。比方,对于文本片断,据美国加利福尼亚州罗斯维尔市警方说,一架单引擎飞机12日在罗斯维尔市郊坠毁,机上2人全部死亡,被飞机撞毁的一座房屋中2人失踪。其中所包含的信息有:飞机坠毁的时间12日、地点罗斯维尔市郊、伤亡情况2人死亡,2人失踪、该消息的来源警方、飞机本身的状态属性单引擎、消息来源的属性美国加利福尼亚州罗斯维尔市警方、死亡人员的属性(机上2人)、失踪人员的属性被飞机撞毁的一座房屋中2人、。这些信息直接反映了文本片断的意义,包括了命名实体、实体如罗斯维尔市、飞机;实体的属性及其间的关系如罗斯维尔市警方与警方,失踪人员和房屋的关系;事件如坠毁事件及其属性事件的时间、地点、伤亡情况等。表达这些信息的语言形式是丰富多样的,我们将其称为意义单元。因此,有效地标注文本中的意义单元,是面向文本容计算进展资源建立的一个尝试。根据突发事件的类型,对真实文本中意义单元的属性、特征、相关连方式进展研究,并通过标注体系将其表现出来,是前人没有做过的。从真实文本的实际数据出发,探索支持文本容计算、具有意义信息标注的语料库建立是一个新的尝试。目前,面向文本信息提取的带标语料库的研究,ACE工程进展的较为深入。ACE对语料库标注形式、方法、容、对象都作了大量的研究,其标注容包括文本中的实体表达、实体间的关系表达、事件的表达等。本文受ACE标注容的启发,通过对ACE已标数据的分析,确定了以意义单元作为标注对象,期望在标注容上更加精炼,标注的语言层次上能够贯穿各个层级,同时面对不同的事件信息,能有更准确的表达形式。此外,从资源建立的角度来看,我们必须建立我们自己的语料库。13开发人机交互的标注工具的意义目前语料加工的方式主要有三种方式,即人工、自动、和人机结合的半自动方式。由于自然语言处理技术的限制,自动加工方式会给语料库标注带来一些错误,而人工加工方式非常昂贵,需要大量的人力资源。相比之下,半自动加工方式则兼顾两者的优点。人机结合的方式有两种:一种是计算机自动选择语料库中需要人工干预的自动加工方式不能解决的局部,从而减少人的工作;另一种反是则实现由计算机对加工的语料进展自动加工,然后由人工校对。对文本进展标注就是语言资源建立的一个方面。人工标注的过程是一个艰辛的、费时费力的,然而从语言信息处理开展的观点来看,是一个必须进展的过程。h_L% V/Y pz因此开发一个可以辅助标注工作的工具就有它的意义。人机交互式的标注工具是进展语料标注的有效手段,从一定程度上可以的减轻标注工作者的负担,同时还可以辅助检查标注结果的一致性等问题。 开发界面友好的标注工具可以进一步的提高标注工作者的效率,同时构造化的输出更方便标注数据的后续使用。14任务描述本次标注工具开发的主要工作是windows风格的交互环境设计与实现和适用于文本成分的标注风格的设计与实现。具体就是要完成以下的这些任务:A. 人机交互界面的设计B. 人机交互界面的实现C. 实体,关系,实现具体标注的实现D. 标注中间结果的显示E. 标注结果的构造化输出15论文的组织和安排整个论文分为四个局部,绪论介绍了这个标注工具出现的背景,解释了我们构造这个工具的必要性,后面各章节全部围绕标注工具设计开发的各个细节来描述。分别为第2章标注工具的设计原则和设计思想,包括用户的各种需求和工具要具备的功能,预先估计工具开发过程中可能会遇到的困难,为工具的具体开发和实现打好根底。第3章标注工具的具体开发,包括开发环境的选择,设计思想的详细实现,技术难点的分析讨论。第4章对这次标注工具开发的总结,分析工具的缺陷以及没有解决的问题,以及对系统以后改良开展的看法。第二章 标注工具的设计原则和设计思想21研究方法和指导思想22标注工具的设计原则 文本标注工具的设计原则23 人机交互界面设计原则第三章 标注工具的具体开发31开发环境的选择32标注工具的设计标注工具的界面算法构造设计33 标注工具的详细设计人机交互界面详细设计菜单和工具栏的设计34标注过程文本的处理实体标注详细设计关系标注详细设计事件标注详细设计35 标注结果36技术难点讨论第四章 标注工具的缺陷分析和功能展望尽管工具经过反复的设计和考虑,性能进展尽可能的优化,但是本次的标注工具的缺陷还是非常多的,由于时间的紧和能力的有限,还有许多的功能可以去实现,还有许多的地方需要改良。本次标注工具实现了简单的人机交互环境,但还有许多需要处理的过程。如用户标注之后发现标注出错撤销标注的操作,标注过程中的一些用户提示和交互。标注中间结果的处理,如对标注中间结果按标注容在原始文本中的位置排序的实现。. z-. z-完毕语本论文工作实现了三个功能模块:1标注模块:标注模块实现文本的实体、关系、事件三局部的标注。这个模块要主要是对文本进展处理,文本的选择,光标在文本中的位置,文本的获得,文本位置的比拟等等。2菜单模块:根据用户标注的需要,设计上下文菜单来实现功能。用户通过使用上下文菜单来进展标注工作。3用户界面模块:提供用户良好的界面环境和输入环境,这次标注工具的界面由两个窗口组成,方便用户对照标注结果进展标注。虽然完成了论文预定目标,但是在人机交互上的处理上还有待进一步完善。. z-致这次毕业设计是在尔弘教师的热心指导下才能够得以完成的。首先感她对我学习上的教育和帮助。在这次毕业设计中,我屡次在交互界面的设计和文本信息处理上和教师进展深入的讨论。由于这次设计周期很长,教师一直是耐心的等待我的设计和测试的结果。再者要感这大学四年来在生活和学习上帮助我的院系教师,是他们教授的本领陪伴我度过了这充实的大学生活。我在这四年中的收获也是很大的。综合素质有很大的提高,这和教师们的关心教诲是分不开的。最后感与我一起共度四年的同学们,是我们的互相帮助让我们一起成长,一起进步,最终顺利的毕业。. z-参考文献1 Jeff Prosise著MFC Windows 程序设计 :清华大学2002年2月2 阿奇主编 Visual C+ 使用教程第二版:电子工业2003年8月3 朱巧明 培峰 吴娴 朱晓旭 等主编 中文信息处理技术教程 :清华大学 2005年9月4 方可燕 主编 Visual C+ 6.0实战与精通 :清华大学5 查阅了CRichEditView类中相关函数的用法6 .ergo.查阅了关于软件人机界面设计的技术文章以及设计为人的关于界面设计的文章. z
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!