现有数学搜索引擎对比

上传人:无*** 文档编号:171383006 上传时间:2022-11-26 格式:PPT 页数:23 大小:172.50KB
返回 下载 相关 举报
现有数学搜索引擎对比_第1页
第1页 / 共23页
现有数学搜索引擎对比_第2页
第2页 / 共23页
现有数学搜索引擎对比_第3页
第3页 / 共23页
点击查看更多>>
资源描述
MathSearch简介简介 MathSearch的设计目标 MathSearch的设计思想 MathSearch的研究内容MathSearch的设计目标的设计目标vMathSearch是一个可进行数学内容检索的基于公式的网络数学搜索引擎。vMathSearch使用语义检索方式,不仅可以实现基于字面显示结构的数学公式检索,同时可以实现基于数学公式语义的检索。vMathSearch能够实现对含有数学公式、数学符号的网页、文档、资料的搜索。vMathSearch支持的具体查询有:结构查询,语义查询,通配符查询,组合查询,抽象查询MathSearch的设计思想的设计思想Mathsearch利用一系列爬虫进程从网络上收集信息,并判断其是否含有数学相关的内容,如果有则开始下载相应的文档,并从文档中提取所需数学公式、数学符号或数学相关内容。为了同时支持基于数学显示方式的查询和基于数学公式语义的查询,Mathsearch为这些公式、符号和数学内容分别建立面向数学公式显示的Presentation索引和面向数学公式语义的Content索引。用户表达查询需求时,既可以通过所见即所得的GUI窗口输入要搜索的内容,也可以直接输入数学查询语言MQL来表达搜索需求。MathSearch对MQL进行解析,查找相应的数学内容,通过合理的算法对这些网页连接建立PageRank,将结果排序显示,并将查找内容突出显示。MathSearch的设计思想(续)的设计思想(续)图:图:MathSearch设计思想设计思想MathSearch的研究内容()的研究内容()MathSearch搜索数学公式的主要搜索目标格式为MathML格式,OpenMath格式,中缀格式以及LaTex格式。这几种格式在表示方法上存在较大差异,MathSearch主要研究不同格式的数学公式的等价性及它们之间的相互转换方法。MathSearch在数学公式编辑器MathEdit基础上研究数学公式转换器,针对目前Web中比较常见的数学公式标记语言MathML,OpenMath,LaTex和Infix进行转换,采用标准的JavaScript,DOM及XSL实现,提供可视化的图形界面,方便用户编辑、转换和提取负责的数学公式。该研究可以有效应用于网络数学搜索引擎中。MathSearch的研究内容(的研究内容(2)v数学公式查询语言的研究数学公式查询语言的研究 数学搜索引擎的关键在于查询,在数学信息检索系统中,定义一种直观的通用的有力的查询表达方式是一项重点研究内容。MathSearch使用了一种基于MathML格式的扩展表达方式作为数学查询语言,通过该查询语言用户可以有效便利地对查询需求进行描述。该查询语言除支持常规结构化查询需求描述外,还支持组合查询表达和抽象查询表达,增强了查询表达力度。MathSearch的研究内容(的研究内容(3)索引是针对顺序查找的低效率而创建的一种方法。索引是指能把一个关键码与它对应的数据记录的信息相关联的一种数据结构。由于数学公式本身往往具有丰富的语义和特定的结构,当前数学搜索主要研究以数学公式的布局特征和语法结构进行的搜索。目前,索引技术主要有以下三种:倒排索引、后缀数组和签名文件。其中,倒排索引技术是当前大多数的信息检索系统中采用的索引建立技术,它对于关键词的搜索非常有效。为了兼顾数学公式的显示和语义,MathSearch提出同时为数学公式建立面向公式结构的Presentation索引和面向公式语义的Content索引。在建立基于数学公式语义的Content索引时,为了增强语义支持,对于网络爬虫搜集到的每一数学公式,要首先对其进行相应规范化。为了实现细粒度的数学公式查询,对于网络爬虫搜集到的每一数学公式,要分为若干N-grams的数学子公式,并对每一子公式按照权重计算方法赋予一定权重并建立索引。另外,为了增强数学搜索系统的语义支持,对于Content索引内容,还要连接到计算机代数系统进行计算转化,并对所有计算结果赋予一定权重并建立索引。在建立基于数学公式结构的Presentation索引时,由于Presentation MathML表示的数学公式不同于Content MathML表示的数学公式,它们本身不包含语义信息,也无法从语义层面进行数学子公式划分。因而,在建立Presentation索引时,重点考虑数学公式的布局及显示方式,因而直接按其本身字面建立索引。MathSearch的研究内容(的研究内容(4)v数学搜索系统性能与质量的研究数学搜索系统性能与质量的研究 搜索引擎提供的结果集中页面质量的好坏以及高质量的页面能否在结果集中有较好的排名,对搜索引擎用户来说具有重要意义,同时也是衡量搜索引擎技术优劣的关键指标,所以对页面进行重要性评估并按重要性排序是搜索引擎要解决的技术核心。在数学搜索中,要考虑的一个重要问题是相关度Relativity。相关度是指检索出的内容与查询条件之间的匹配程度。因此,加入以下两个方面的因素的考虑:第一,在数学公式中,不同的数学符号、数学公式具有不同的重要度。第二,对于同一公式,有时具有多种语义,多种表示方式和多个计算结果 。另一方面,在搜索时为了明确用户需求,系统可以针对不同的用户记录历史操作,以跟踪用户行为,总结用户偏好,建立用户日志。使得在下一次搜索中可以根据用户的习惯搜索并显示可能符合用户意图的相关结果。MathSearch的研究内容(的研究内容(5)v搜索结果的返回显示研究 搜索引擎强调命中显示、突出查询关键项显示的主要目的是便于用户查看和评测返回结果。对于内容较多的文件,系统需要在查询返回结果中显示若干摘要信息并突出显示匹配查询条件的关键项。一方面,这样可以使用户在结果文件中快速定位查询条件中关键项,便于查看。另一方面,也可以作为搜索引擎性能的一个评估标准,检测搜索结果是否符合查询需求以及符合程度。现有数学搜索引擎对比(现有数学搜索引擎对比(1)现有数学搜索引擎分两大类:现有数学搜索引擎分两大类:-不支持数学内容识别的不支持数学内容识别的 通过查找已提供的元数据,可以执行比普通全文通过查找已提供的元数据,可以执行比普通全文搜索引擎更好的数学内容搜索,但不能处理数学搜索引擎更好的数学内容搜索,但不能处理数学操作。操作。-支持数学内容识别的支持数学内容识别的 根据他们的数学识别方法又分为:根据他们的数学识别方法又分为:v基于语义的方法基于语义的方法v基于语法的方法基于语法的方法现有数学搜索引擎对比(现有数学搜索引擎对比(2)vMathDexMathDex MathDex是最早的能够进行数学内容识别的全文检索引擎,是基于Apache的Lucene搜索引擎。关键特性有以下几点:支持无语义数学内容文档的查询;支持不同数学编码数学内容的查询;同时支持数学符号和文本的检索,尽可能满足用户的查询期望而不仅仅针对字面查询。MathDex对于所有检索到的文件首先将其转换成XHTML+MathML格式。文件根据结构及与查询项的语法相似程度进行排序。MathDex提出N-grams匹配方法以提高精确度。在索引建立阶段,不仅为每个公式建立索引,同时记录其子公式出现的频率信息。子公式出现的频率对增加复杂公式的匹配度有很大意义。另外一个提高精确度的方法是将文件分为多个域,比如题目、正文等,并给予不同权重。出现在标题中项的权重应高于出现在正文中项的权重。MathDex存储表达式的不同部分以进行并行查询,从方程不同部分匹配到的项具有不同的权重。不同公式可具有分子域、上标域、行域等。输入公式被解析,定义合适的域,然后查询被重写,在所选择领域匹配子项。越多子项匹配,相关度越高。MathDex不能处理数学操作和等价性匹配。现有数学搜索引擎对比(现有数学搜索引擎对比(3)DLMF Search是为美国国家标准与技术研究所(National Institute of Standards and Technology)的数学公式数字图书馆(Digital Library of Mathematical Functions)而建立的一个检索系统。DLMF Search的目标公式格式主要针对于TeX/LaTex格式,查询语言也是基于LaTex。查询描述阶段,为了使用户能够表达模糊查询需求,DLMF Search在LaTex格式基础上进行扩展,定义一系列元数据,这种查询语言是一种文本化的查询语言。在索引建立阶段,DLMF Search扩展文本信息检索的索引方法。首先对数学对象进行线形化,即将所有非字母表中的数学符号都对应到字母表中的一个字。其次界定并序列化数学对象的子项及表达式,最后按顺序将各子项化为标准规范形式,即转化为已定义的规范顺序以免表述风格的不一致导致的查询错误。该引擎的核心仍是基于文本的检索,与传统文本检索系统在本质上没有差别。现有数学搜索引擎对比(现有数学搜索引擎对比(4)LeActiveMath是一个基于Web的智能数学学习环境,主要目标是根据用户的前期工作及实际知识水平为其提供个性化内容。目前,这个学习系统并未向公众免费开放,而且并未查找到其可用的搜索系统。它是基于Apache Lucene搜索引擎的。显然,这样的教育系统是需要一个搜索引擎的。该系统针对的数据源是OMDoc编码的具有语义的数学文件。索引阶段依赖于特殊的OMDoc格式,其包含语义信息以及其他的元数据。应用于现有真实文档则仍有一定问题。然而,使用特殊的OMDoc格式可以提高文档的相关度,使得搜索引擎在特殊环境更加有效。OMDoc具有把文件分为被称之为项的内容单元的特性。这些项包括:定理,练习,证明,定义等等。它们可以通过单一的标志符来定位,这有利于开发它们之间的关系。索引阶段,将OMDoc的公式转换为特殊的包含信息深度的文本化标记。子公式的深度信息包含于索引字符串中。搜索阶段将输入公式转化为具有深度级别的表达式。目前,他们解决这一问题的办法是迭代索引库中从1到最大深度的公式。现有数学搜索引擎对比(现有数学搜索引擎对比(5)vEgoMath EgoMath是一个基于Egothor v2的可识别数学内容的全文本搜索引擎。它的主要目的是适用于现实世界中不包含隐含语义信息的数学内容。它支持Presentation MathML和Content MathML表示方式,更侧重于针对Presentation MathML表示方式。对于PDF文件,用Infty转换器转换为Presentation MathML标记的数学文件。EgoMath同时支持文本化查询和数学公式查询,这对于现实应用更具有效性。EgoMath并不是用一个单独的项来表示一个数学公式,复杂的公式往往由一个项的有序集合来表示。后一个表达式可以由前一个表达式通过应用归纳和变形来得到。这些规则试图降低全文索引库的最大缺陷静态特性。每个集合中后面的公式都是由归纳而来的,因而可以匹配更多的表达式。在搜索阶段,用户输入被分为简单文本查询和数学查询。然后,采用和索引阶段相同的算法处理数学查询。算法产生n个表达式,这些表达式通过“AND”操作符附加到简单文本查询上。结果是执行n个连续的查询操作。出于后面的查询项被匹配到的可能性更大,因为后面的项比前面的更具有普遍性。每个数学文件都被分为数学部分和文本部分进行存储。否则类似于“sin”的模糊查询就会即返回包含数学公式“sin”的文档,又返回包含字符串“sin”的文档。EgoMath中查询语言采用类似于LaTex的表示方式。EgoMath由于UI设计仍未完成直至目前仍未公布。现有数学搜索引擎对比(现有数学搜索引擎对比(6)vMathWebSearch MathWebSearch是一个不依赖于全文检索引擎的数学搜索引擎。进行数学搜索时,MathWebSearch采用了非文本化的查询方法。该方法中表达式被解析为置换树,结果是产生一个类似于树的结构,节点包含了对父节点的置换。为了进行子公式的查找,它将每一公式的所有子公式单独的加入索引库中。尽管MathWebSearch是最好的数学识别搜索引擎,但它仍存在一定问题。一方面,具有相同语法的公式可能具有不同的语义,另一方面,语法不同的公式可能具有相同的语义。另外,公式的每一次查找都要转换为置换树,这可能带来性能问题。由于该搜索引擎不支持全文本的查找,因而在实用性上仍存在一定缺陷。目前,它可索引Content MathML文件,受限制的Presentation MathML,OpenMath格式的文件。该数学搜索引擎前端Web搜索界面非常类似于MathDex但是查询语言有所不同,它的查询语言扩展自MathML。现有数学搜索引擎对比(现有数学搜索引擎对比(7)数学检索系数学检索系统名称统名称数学查询语数学查询语言言支持数学表达格式支持数学表达格式索引方索引方法法语言语言查询查询基于基于Web框架原型框架原型MathDexMathML(Presentation)MathML、LaTex、OpenMath、中缀等文本检索否否无DLMFSearchLaTexTeX/LaTex文本检索否否LunceneLeActiveMathOpenMathOMDoc文本检索否是LunceneEgoMathLaTexMathML、PDF文本检索是是Egothorv2MathWebSearchMathML(Content)Content MathML、OpenMath、受限的PresentationMathML置换树索引是是无数学标记语言简介(数学标记语言简介(1)TeX/LaTex TeX第一个高质量的电子排版系统,它提供了一套功能强大并且十分灵活的排版语言,多达900多条指令,并且TEX 有宏功能,用户可以不断地定义自己适用的新命令来扩展TEX 系统的功能。LaTex是当今世界上最流行和使用最为广泛的TEX宏集。TeX可以看作是一种专门用来排版的命令语言,LaTex实际是TeX的宏命令。使用LaTex基本上不需要使用者自己设计命令和宏等,因此,即使使用者并不是很了解TEX,也可以在短短的时间内生成高质量的文档。和Word等流行的编辑软件比较,LaTex在编排公式时不需考虑公式的位置和公式中字符的大小,LaTex会自动的将这些工作严格按照国际标准给出。即TeX 系统的排版结果 DVI(DeVice Independent)文件与输出设备无关。DVI 文件可以显示、打印、照排,几乎可以在所有的输出设备上输出。TeX 排版源文件及结果在各种计算机系统上互相兼容。目前有很多科技文献中的公式都是用LaTex来描述的。数学标记语言简介(数学标记语言简介(2)MathML MathML完全采用XML的定义规范,继承了XML的大部分优点,具有强大的数学公式表达能力。MathML用于描述数学公式的结构和内容,它的出现使数学公式不仅可以在Web上建立与传输,而且可以在其它应用程序中实现再利用和转换,满足用户对数学公式的各种处理需求。MathML提供两种描述数学公式的标记:Presentation标记和Content标记。Presentation标记大约有30个,附带50多种属性,主要目的是用来描述抽象数学符号的二维结构,相当于一个数学符号构造器,把数学符号的语法结构表现出来。每一个表现标记都对应着唯一的一种符号模式。Content标记大约有120个,其中大部分是空标记,附带的属性只有简单的12 种。Presentation标记和Content标记都可以完整地描述任何一个数学公式,但是它们的侧重点不同:前者用来描述数学表达式的二维布局结构,它更注重表达式的显示方式;后者描述用于计算和处理的数学信息,它更关注表达式的内在含义。Presentation标记和Content标记使得Web中的数学信息不仅是机器能读的,而且是机器能理解的。为了同时从结构和语义两方面描述一个数学对象,二者还可交叉使用形成混合编码,但不能相互替代。数学标记语言简介(数学标记语言简介(3)OpenMath OpenMath也是一种XML应用。区别在于,MathML最初是处理数学对象的显示和交付,而Open-Math则着眼于数学语义或内容。OpenMath继承了XML的固有特征,用OpenMath编码的数学对象可以在浏览器中显示、在系统之间交互、在数据库或文件中进行存储或检索,甚至可以对其数学合理性进行验证。尽管MathML和OpenMath之间具有很强的互补性,但人们更加关心的还是数学对象的语义及内容而并非数学表达式的显示问题。数学结构的OpenMath表示方法就是OpenMath对象,通常OpenMath对象或OpenMath表达式以有标号的树型结构出现,树的叶子节点就是基本OpenMath对象,这些对象用预定义的XML标签来进行编码。内容字典是OpenMath发送数学信息的概念当中的核心,可以用它来指定OpenMath对象中使用的所有符号的正式和非正式语义,内容字典定义了各种符号的意义,这些符号就可以用来表示OpenMath对象所要表达的数学概念。内容字典分成四类:核心字典、公共字典、附加字典和CONTRIBUTED字典。数学查询语言数学查询语言MQL简介简介数学搜索引擎的关键在于查询。而有效查询的前提数学搜索引擎的关键在于查询。而有效查询的前提条件是用户能够充分表达查询需求。因而,数学信条件是用户能够充分表达查询需求。因而,数学信息检索系统实现的一个必要条件是定义一种数学查息检索系统实现的一个必要条件是定义一种数学查询表达方式,即数学查询语言。从实用性与易用性询表达方式,即数学查询语言。从实用性与易用性的角度考虑,该查询语言必须是通用的、有力的。的角度考虑,该查询语言必须是通用的、有力的。该查询语言除了要便于用户表达查询需求外,还要该查询语言除了要便于用户表达查询需求外,还要便于查询在数据库中执行。便于查询在数据库中执行。数学符号的输入往往具有模糊性和繁复性。在数学数学符号的输入往往具有模糊性和繁复性。在数学检索系统中,为了明确用户查询需求,定义的这种检索系统中,为了明确用户查询需求,定义的这种查询语言应当具有较高的一致性和较小的模糊性。查询语言应当具有较高的一致性和较小的模糊性。鉴于鉴于MathML的众多优点,的众多优点,MathSearch选取选取MathML作为查询语言的基础。作为查询语言的基础。数学查询语言数学查询语言MQL简介简介(续)续)MQL(Math Query Language)是一种基于MathML的数学查询语言,这种查询语言是符合XML规范的。MQL在MathML规范的基础上增加了一系列元数据标签及其属性以支持数学公式查找。这种查询语言的语法直观并且覆盖了大多数常用的数学符号。使用这种查询语言描述用户的查询需求,可以使科学和数学领域的用户更加精确的描述查询需求。例如确定查询数学对象的数据类型、取值范围等,以此获得更符合用户需求的相关结果,提高搜索引擎的查询精度。屏蔽泵厂家 http:/ 仉睿聪奌
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 基础医学


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!