学年论文模板

上传人:guoc****ang 文档编号:69157245 上传时间:2022-04-05 格式:DOC 页数:10 大小:426.14KB
返回 下载 相关 举报
学年论文模板_第1页
第1页 / 共10页
学年论文模板_第2页
第2页 / 共10页
学年论文模板_第3页
第3页 / 共10页
点击查看更多>>
资源描述
学号: 学 年 论 文学年论文标题作者姓名指导教师所学专业班级所属院系毕业论文(设计)的题目是直接表达或揭示论文主题思想或中心论点的,因而要鲜明、准确、精练,字数尽量控制在20个以内。论文题目用二号黑体,标题前后各空一行;如有副标题,则用三号楷体;阅后删除此文本框。基于汉语框架网的语义角色自动标注中文内容提要:在论文主体之前用200500字扼要介绍论文的内容及结构、采用的方法和得到的主要结果,内容提要的概括性要强。“内容提要”四个字用小四号黑体,并与其后的内容间隔一个字符;内容用五号楷体。阅后删除此文本框。-自动标注算法研究论文题目下应写明:“ 学生姓名:XXX”、“指导教师:XXX”,用三号楷体,与其下内容提要之间空一行;阅后删除此文本框。学生姓名:王 斌指导教师:李红梅内容提要 基于框架的语义角色标注是根据一个文本句中的目标谓词所激起的框架与相关句子成分之间的语义关系而赋予这些句子成分一定的语义信息的方法。论文在基于汉语框架网(CFN)的基础上,提出了基于PT-GF匹配和最大熵分类器的语义角色自动标注方法,并对该方法进行了有效性验证。关键词 框架本体 语义标注 网络标注 文本匹配 最大熵中文关键词:按照与论文内容的紧密程度,另行依次列出25个关键词。“关键词”三个字用小四号黑体,并与其后的内容间隔一个字符,内容用五号楷体。阅后删除此文本框。山西大学商务学院本科毕业论文(设计)一级标题示例:1. 小四号黑体(顶格,上下各空一行,单独占行,结尾不加标点)阅后删除此文本框。1. 主体内容之前空1-2行,主体内容用五号宋体阅后删除此文本框。引言文中引用他人的观点数据等应加注引号,并在引号后以上标的形式加注序号(使用带中括号的序号)阅后删除此文本框。语义标注,从本体角度是添加实例,丰富本体的过程;从语义网的角度是语义信息的发布过程,即用户依据一定的本体为页面添加语义信息。基于框架的语义角色标注(Semantic Role Labeling)是浅层语义分析的一种可行性方案,通过分析句子的论元结构,标记出句子中某个动词的所有论元,根据句子中的目标谓词所激起的框架与相关的句子成分之间的语义关系而赋予这些句子成分的语义角色信息。国外的基于框架下的语义角色标注开始于Dan Gildea和DanJurafsky1,他们实验所用的语料是Berkeley大学开发的FrameNet。FrameNet是以框架语义为标注的理论基础,对英语国家的语料库进行部分标注,试图描述一个词汇单元(主要为动词)的框架以及这些框架之间的关系。国内的语义角色标注研究起步较晚,较早的研究者刘挺等主要参照英文进行标注2;刘怀军等主要进行“语义角色分类研究”3。本文主要是在前人研究的基础上,参照汉语框架网(CFN),提出了基于PT-GF匹配和基于最大熵算法互补的语义角色自动标注方法。汉语框架网是一个以Fillmore4的框架语义学为理论基础,以加州大学伯克利分校的FrameNet为参照,以汉语真实语料为事实依据的汉语语义词典,它主要由本体框架网、词元库和语义角色标注例句库组成。本体框架网是一个支持性内容,它构建了某一领域本体的大体框架,给出了这一领域知识的宏观结构。它类似于词典,构建了一个某一领域所有本体的框架网络体系,这些本体框架根据其之间的不同联系,构成了纵向的继承关系、总分关系;横向的因果关系、起始关系、参见关系等;词元即目标词,词元库包含了某一框架下所有的目标谓词,当文本中出现了这些词时,我们优先将其选择为中心词;语义角色标注例句库是语料库的核心内容,具体标记了所有例句中目标词和其论元成分在文本中的位置、路径等特征和三元组的具体标注,并对同一个目标词的各个特征进行了总结。 2. CFN语义角色的自动标注CFN中语义角色自动标注是在对语料库例句进行统计、分析和自动学习的基础上,利用一定的算法和模型给输入文本的各个谓语参数赋予语义的过程。论文内容全部双面打印,要求加注页码,奇数页码位置放置在页面右下角,偶数页放置在页面的左下角。论文正文的第一页应安排在奇数页上。阅后删除此文本框。语义角色自动标注一般分为3个阶段5,即首先分词、词性标注,过滤掉不可能成为语义角色的句法成分;然后确定目标词和短语(标注单元),对文本进行浅层句法分析,识别出充当目标词语义角色的那些短语;接着将确定为语义角色的短语进行具体的语义角色标注。二级标题示例:1.1 小四号楷体(顶格,单独占行,结尾不加标点)阅后删除此文本框2.1 CFN语义角色自动标注流程由于汉语框架网的建设仍然处于初级阶段,本文所讲的自动标注是在已知给定文本的目标词及其所属框架前提下,并对各短语进行识别、词性标注和句法分析等技术的基础上,探讨语义角色进行自动标注问题,所采用流程如图2.1: 输入待标注文本文本预处理输入文本和语料例句的PT-GF匹配计算相似度0.85PT-GF匹配标注输入文本短语的特征提取最大熵模型标注标注后模块处理结果输出 是 否凡用图说明问题的,一定要在行文中对图给予解释,图在文中分别统一进行顺序编号,图应与正文相对应,排于相应地方。图题目放在图示之下,图题目字体字号视同于三级标题(小四号楷体)排版。若同类图或表数量多,也可作为附录列于论文后。图名居中并位于图下,编号应分章编号,如图2.1、图2.2阅后删除此文本框 图2.1 CFN语义角色标注流程2.2 PT-GF的语义角色匹配运算三级标题示例:3.1.1 小四号楷体(顶格,单独占行,结尾不加标点)阅后删除此文本框基于PT-GF的语义角色自动标注是综合考虑短语类型、短语相对于目标词位置、句法功能三个因素以及这三个方面对句子相似度影响的权重,利用余弦算法对输入文本和例句文本的相似度进行计算。2.2.1 建立文本向量集分别对例句文本和输入文本建立向量集,其中PT:短语类型集;MU:相对于目标词的位置集;GF:句法功能集。任意给定一个例句文本和输入文本,则它们的PT分别为:,;MU分别为:,;GF分别为:,。其中为文本中第i个短语的短语类型,n为文本中所拥有的短语数量。为文本中第i个短语相对于目标词的位置,取值有三种:L,T,R, L表示短语在目标词的左边;T表示此短语就是目标词;R表示短语在目标词的右边。为文本中第i个短语的句法功能。奇数页页眉:小五,宋体,居中阅后删除此文本框2.2.2 相似度计算利用余弦算法分别对输入文本和例句文本的短语类型、短语相对于目标词位置、句法功能的相似度进行计算。算法如下: 其中;2.3 基于最大墒原理的语义角色自动标注最大熵原理是在1957年由E.T.Jaynes 提出的,主要思想是在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布6。最大熵语义角色标注是在统计学的基础上发展起来的,以句子中词、短语或语块为标注的基本单元,根据一定语言学知识列出该词汇单元的各种特征,标注单元与该单元的语义角色类型组成学习实例,使用某种学习算法对这些实例进行自动学习,以对新的实例进行预测7。凡用表格说明问题的,一定要在行文中对表给予解释,表在文中分别统一进行顺序编号,表应与正文相对应,排于相应地方。表题目放在表格之上,图表题目字体字号视同于三级标题排版。若同类表数量多,也可作为附录列于论文后。表名居中并位于表上,编号应分章编号,如表2.1、表2.2阅后删除此文本框参照我国现有的最大熵研究成果,我们将一部分常用的特征及其组合列举如下,在具体的最大熵模型中我们去掉那些在试验中造成性能下降的组合特征,只选择那些性能比较好的特征。简单特征、复合特征和扩展特征总结如表2.1:表2.1 常用的特征组合简单特征词特征偶数页页眉:论文题目,小五,宋体,居中阅后删除此文本框词特征:词语本身作为一个特征中心词词干:对于汉语中的介词短语,我们取短语中最后一个名词来做中心词目标词:目标词本身作为特征短语的前两个词;短语的后两个词与目标词对应的主要动词词性特征短语类型、中心词词性、前一个词及该词的词性二元组句法特征位置、路径、语态(汉语中的被字句和把字句)路径长度:一个成分和它的目标词之间的长度复合特征目标词+短语类型;动词+中心词;位置+语态;谓词+路径;路径+位置+语态;路径+位置+语态+谓词;短语类型+位置+谓词扩展特征短语的句法功能;谓语动词的搭配模式3. 标注实例3.1 基于PT-GF算法的标注实例我们以“我县不少单位和个人以私自户外接电等手段偷大肆电。”作为输入文本,经过预处理处理后,建立文本向量集如下:;表3.1为例句库中的例句文本:表3.1 例句库例句编号例句001南坪区村民高翔近期来使用钓鱼钩等工具从窗户偷了不少市民的衣服、裤子等。002昨天下午,这一犯罪团伙又在该区入室盗窃了三个住户。.00i我省不少犯罪团伙以推销东西为借口明目张胆的偷窃居民的财物。.将输入文本与例句文本分别进行相似度计算,结果如表3.2:表3.2 相似度计算结果表编号PT相似度MU相似度GF相似度a* Sim1+b* Sim2+c* Sim30010.585790.535900.472140.53035200200.5359000.1071800i1111将输入文本与例句库中例句依次相似度计算,到第00i例句时,计算结果等于1,计算终止,根据00i例句对输入文本实行标注。依例句文本对输入文本标注如下: 。 w我省 r 不少 m 犯罪 i 团伙 n 以 p 推销 v 东西 n 为 v 借口 n 明目张胆 i 的 u偷窃v 财物 n 。 wp即标注结果为: 明目张胆 i 的 u。 wp3.2 基于最大熵的标注实例我们将汉语框架网中法律领域盗窃框架下例句库的一半为训练集,一半作为测试集,测试出一组。以词8为最小标注单元,以输入文本“我县不少单位和个人以私自户外接电等手段偷大肆电。”中的词“电”为例予以说明,经过性能测算,我们仅考虑当前词、当前词的词性、当前词所在句子的目标词、当前词相对于目标词的位置、当前词的词性和位置组合。如表3.3:表3.3 特征选择特征特征值词电词性n目标词偷位置R词性、位置n,R盗窃框架的语义角色有:犯罪主体prep、源点src、受害者vict、频率freq、工具inst、方法mns、空间place、目的purp、原因reas、财物goods。我们利用最大熵模型取得“电”为各个语义角色的概率如表4,因此选取概率最大值0.661的语义角色财物(goods)为最终输出结果,即短语“电”的语义角色为财物(goods)。4. 结语在文中我们基于汉语框架网以法律领域为例分别用PT-GF匹配和最大熵模型对输入文本进行了自动标注。在PT-GF匹配模型中,我们以短语为基本单位根据权重对文本短语的词性、相对于目标词位置和句法功能进行匹配,因此分词和短语选择技术对结果影响比较大。在最大熵模型中,我们以语义角色特征或组合特征为条件进行概率统计,因此特征提取的准确度以及组合特征的选择比较关键。因此如何克服这些技术的缺陷和约束,成为我们以后研究自动语义角色标注的方向。5在科学实践和研究中参考了他人的研究工作和成果,应在论文中按行文涉及的先后顺序排列参考文献。主体内容或附录中以上标形式列出参考文献的序号,在主体部分或附录之后按序号列出参考文献,同一文献多次引用的,在文章中的引文后编写同一号码。参考文献一般应来自正式出版的期刊、学术会议论文集、图书、报纸等,如是公开出版的学报,应为本科院校层次的学报。“参考文献”四字排版同一级标题(小四号黑体),其前空2行,其后空0.5-1行,内容用五号宋体。参考文献数量最少应有10条,如有英文文献,字体为Times New Roman,字号为五号。阅后删除此文本框参考文献1 周庆荣,张泽廷,朱美文,等固体溶质在含夹带剂超临界流体中的溶解度J化工学报,2 Mesquita A C,Mori M N,Vieira J M, et alVinyl acetate polymerization by ionizing radiationJRadiation Physics and Chemistry,2002,63:4653 蒋挺大亮聚糖M北京:化学工业出版社,2001:127 4Kortun G Reflectance SpectroscopyM New York: Spring-Verlag,1969 5郭宏,王熊,刘宗林膜分离技术在大豆分离蛋白生产中综合利用的研膜分离技术在大豆分离蛋白生产中综合利用的研究C/余立新第三届全国膜和膜过程学术报告会议论文集北京:高教出版社,1999:421-425 6陈金梅氟石膏生产早强快硬水泥的试验研究D西安:西安建筑科学大学,20007仲前昌夫,佐藤寿昭感光性树脂:日本,特开平09-26667P1997-01-28 8ISO 1210-1982,塑料小试样接触火焰法测定塑料燃烧性S 9GB 2410-80,透明塑料透光率及雾度实验方法S10 陈志平减灾设计研究新动态N科技日报,1997-12-12(5) 11 中国机械工程学会密相气力输送技术R北京:1996 12王明亮关于中国学术期刊标准化数据库系统工程的进展EB/OL (1)期刊作者题名J刊名,出版年,卷(期):起止页码(如文献1、2)(2)专著作者书名M版本(第一版不著录)出版地:出版者,出版年:起止页码(如文献3、4)(3)论文集作者题名C/编者论文集名出版地:出版者,出版年:起止页码(如文献5)(4)学位论文作者题名D保存地点:保存单位,年份(如文献6)(5)专利文献作者题名:国别,专利编号P公布日期(如文献7)(6)标准标准编号,标准名称S(如文献8、9)(7)报纸作者题名N报纸名,出版日期(版次) (如文献10)(8)报告作者题名R保存地点:保存单位,年份(如文献11) (9)电子文献作者题名电子文献及载体类型标识文献出处,日期(如文献出处,日期(如文献12)阅后删除此文本框5篇以上7
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!