现有数学搜索引擎对比

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,MathSearch,简介,现有数学搜索引擎对比,数学标记语言简介,数学查询语言,MQL,简介,MathSearch,简介,MathSearch,的设计目标,MathSearch,的设计思想,MathSearch,的研究内容,MathSearch,的设计目标,MathSearch,是一个可进行数学内容检索的基于公式的网络数学搜索引擎。,MathSearch,使用语义检索方式，不仅可以实现基于字面显示结构的数学公式检索，同时可以实现基于数学公式语义的检索。,MathSearch,能够实现对含有数学公式、数学符号的网页、文档、资料的搜索。,MathSearch,支持的具体查询有：结构查询，语义查询，通配符查询，组合查询，抽象查询,MathSearch,的设计思想,Mathsearch,利用一系列爬虫进程从网络上收集信息，并判断其是否含有数学相关的内容，如果有则开始下载相应的文档，并从文档中提取所需数学公式、数学符号或数学相关内容。,为了同时支持基于数学显示方式的查询和基于数学公式语义的查询，,Mathsearch,为这些公式、符号和数学内容分别建立面向数学公式显示的,Presentation,索引和面向数学公式语义的,Content,索引。,用户表达查询需求时，既可以通过所见即所得的,GUI,窗口输入要搜索的内容，也可以直接输入数学查询语言,MQL,来表达搜索需求。,MathSearch,对,MQL,进行解析，查找相应的数学内容，通过合理的算法对这些网页连接建立,PageRank,，将结果排序显示，并将查找内容突出显示。,MathSearch,的设计思想（续）,图：,MathSearch,设计思想,MathSearch,的研究内容（）,数学搜索数据源的界定及表达方式之间的转换研究,MathSearch,搜索数学公式的主要搜索目标格式为,MathML,格式，,OpenMath,格式，中缀格式以及,LaTex,格式。这几种格式在表示方法上存在较大差异，,MathSearch,主要研究不同格式的数学公式的等价性及它们之间的相互转换方法。,MathSearch,在数学公式编辑器,MathEdit,基础上研究数学公式转换器，针对目前,Web,中比较常见的数学公式标记语言,MathML,，,OpenMath,，,LaTex,和,Infix,进行转换，采用标准的,JavaScript,，,DOM,及,XSL,实现，提供可视化的图形界面，方便用户编辑、转换和提取负责的数学公式。该研究可以有效应用于网络数学搜索引擎中。,MathSearch,的研究内容（,2,）,数学公式查询语言的研究,数学搜索引擎的关键在于查询，在数学信息检索系统中，定义一种直观的通用的有力的查询表达方式是一项重点研究内容。,MathSearch,使用了一种基于,MathML,格式的扩展表达方式作为数学查询语言，通过该查询语言用户可以有效便利地对查询需求进行描述。该查询语言除支持常规结构化查询需求描述外，还支持组合查询表达和抽象查询表达，增强了查询表达力度。,MathSearch,的研究内容（,3,）,数学公式索引的研究,索引是针对顺序查找的低效率而创建的一种方法。索引是指能把一个关键码与它对应的数据记录的信息相关联的一种数据结构。由于数学公式本身往往具有丰富的语义和特定的结构，当前数学搜索主要研究以数学公式的布局特征和语法结构进行的搜索。目前，索引技术主要有以下三种：倒排索引、后缀数组和签名文件。其中，倒排索引技术是当前大多数的信息检索系统中采用的索引建立技术，它对于关键词的搜索非常有效。,为了兼顾数学公式的显示和语义，,MathSearch,提出同时为数学公式建立面向公式结构的,Presentation,索引和面向公式语义的,Content,索引。,在建立基于数学公式语义的,Content,索引时，为了增强语义支持，对于网络爬虫搜集到的每一数学公式，要首先对其进行相应规范化。为了实现细粒度的数学公式查询，对于网络爬虫搜集到的每一数学公式，要分为若干,N-grams,的数学子公式，并对每一子公式按照权重计算方法赋予一定权重并建立索引。另外，为了增强数学搜索系统的语义支持，对于,Content,索引内容，还要连接到计算机代数系统进行计算转化，并对所有计算结果赋予一定权重并建立索引。,在建立基于数学公式结构的,Presentation,索引时，由于,Presentation MathML,表示的数学公式不同于,Content MathML,表示的数学公式，它们本身不包含语义信息，也无法从语义层面进行数学子公式划分。因而，在建立,Presentation,索引时，重点考虑数学公式的布局及显示方式，因而直接按其本身字面建立索引。,MathSearch,的研究内容（,4,）,数学搜索系统性能与质量的研究,搜索引擎提供的结果集中页面质量的好坏以及高质量的页面能否在结果集中有较好的排名，对搜索引擎用户来说具有重要意义，同时也是衡量搜索引擎技术优劣的关键指标，所以对页面进行重要性评估并按重要性排序是搜索引擎要解决的技术核心。,在数学搜索中，要考虑的一个重要问题是相关度,Relativity,。相关度是指检索出的内容与查询条件之间的匹配程度。因此，加入以下两个方面的因素的考虑：,第一，在数学公式中，不同的数学符号、数学公式具有不同的重要度。,第二，对于同一公式，有时具有多种语义，多种表示方式和多个计算结果。,另一方面，在搜索时为了明确用户需求，系统可以针对不同的用户记录历史操作，以跟踪用户行为，总结用户偏好，建立用户日志。使得在下一次搜索中可以根据用户的习惯搜索并显示可能符合用户意图的相关结果。,MathSearch,的研究内容（,5,）,搜索结果的返回显示研究,搜索引擎强调命中显示、突出查询关键项显示的主要目的是便于用户查看和评测返回结果。,对于内容较多的文件，系统需要在查询返回结果中显示若干摘要信息并突出显示匹配查询条件的关键项。一方面，这样可以使用户在结果文件中快速定位查询条件中关键项，便于查看。另一方面，也可以作为搜索引擎性能的一个评估标准，检测搜索结果是否符合查询需求以及符合程度。,现有数学搜索引擎对比（,1,）,现有数学搜索引擎分两大类：,-,不支持数学内容识别的,通过查找已提供的元数据，可以执行比普通全文搜索引擎更好的数学内容搜索，但不能处理数学操作。,-,支持数学内容识别的,根据他们的数学识别方法又分为：,基于语义的方法,基于语法的方法,现有数学搜索引擎对比（,2,）,MathDex,MathDex,是最早的能够进行数学内容识别的全文检索引擎，是,基于,Apache,的,Lucene,搜索引擎。关键特性有以下几点：支持无语义数学内容文档的查询；支持不同数学编码数学内容的查询；同时支持数学符号和文本的检索，尽可能满足用户的查询期望而不仅仅针对字面查询。,MathDex,对于所有检索到的文件首先将其转换成,XHTML+MathML,格式。文件根据结构及与查询项的语法相似程度进行排序。,MathDex,提出,N-grams,匹配方法以提高精确度。在索引建立阶段，不仅为每个公式建立索引，同时记录其子公式出现的频率信息。子公式出现的频率对增加复杂公式的匹配度有很大意义。,另外一个提高精确度的方法是将文件分为多个域，比如题目、正文等，并给予不同权重。出现在标题中项的权重应高于出现在正文中项的权重。,MathDex,存储表达式的不同部分以进行并行查询，从方程不同部分匹配到的项具有不同的权重。不同公式可具有分子域、上标域、行域等。输入公式被解析，定义合适的域，然后查询被重写，在所选择领域匹配子项。越多子项匹配，相关度越高。,MathDex,不能处理数学操作和等价性匹配。,现有数学搜索引擎对比（,3,）,DLMF Search,DLMF Search,是为美国国家标准与技术研究所（,National Institute of Standards and Technology,）的数学公式数字图书馆（,Digital Library of Mathematical Functions,）而建立的一个检索系统。,DLMF Search,的目标公式格式主要针对于,TeX/LaTex,格式，查询语言也是基于,LaTex,。查询描述阶段，为了使用户能够表达模糊查询需求，,DLMF Search,在,LaTex,格式基础上进行扩展，定义一系列元数据，这种查询语言是一种文本化的查询语言。在索引建立阶段，,DLMF Search,扩展文本信息检索的索引方法。首先对数学对象进行线形化，即将所有非字母表中的数学符号都对应到字母表中的一个字。其次界定并序列化数学对象的子项及表达式，最后按顺序将各子项化为标准规范形式，即转化为已定义的规范顺序以免表述风格的不一致导致的查询错误。该引擎的核心仍是基于文本的检索，与传统文本检索系统在本质上没有差别。,现有数学搜索引擎对比（,4,）,LeActiveMath,LeActiveMath,是一个基于,Web,的智能数学学习环境，主要目标是根据用户的前期工作及实际知识水平为其提供个性化内容。目前，这个学习系统并未向公众免费开放，而且并未查找到其可用的搜索系统。它是基于,Apache Lucene,搜索引擎的。,显然，这样的教育系统是需要一个搜索引擎的。该系统针对的数据源是,OMDoc,编码的具有语义的数学文件。索引阶段依赖于特殊的,OMDoc,格式，其包含语义信息以及其他的元数据。应用于现有真实文档则仍有一定问题。然而，使用特殊的,OMDoc,格式可以提高文档的相关度，使得搜索引擎在特殊环境更加有效。,OMDoc,具有把文件分为被称之为项的内容单元的特性。这些项包括：定理，练习，证明，定义等等。它们可以通过单一的标志符来定位，这有利于开发它们之间的关系。索引阶段，将,OMDoc,的公式转换为特殊的包含信息深度的文本化标记。子公式的深度信息包含于索引字符串中。搜索阶段将输入公式转化为具有深度级别的表达式。目前，他们解决这一问题的办法是迭代索引库中从,1,到最大深度的公式。,现有数学搜索引擎对比（,5,）,EgoMath,EgoMath,是一个基于,Egothor v2,的可识别数学内容的全文本搜索引擎。它的主要目的是适用于现实世界中不包含隐含语义信息的数学内容。它支持,Presentation MathML,和,Content MathML,表示方式，更侧重于针对,Presentation MathML,表示方式。对于,PDF,文件，用,Infty,转换器转换为,Presentation MathML,标记的数学文件。,EgoMath,同时支持文本化查询和数学公式查询，这对于现实应用更具有效性。,EgoMath,并不是用一个单独的项来表示一个数学公式，复杂的公式往往由一个项的有序集合来表示。后一个表达式可以由前一个表达式通过应用归纳和变形来得到。这些规则试图降低全文索引库的最大缺陷,静态特性。每个集合中后面的公式都是由归纳而来的，因而可以匹配更多的表达式。在搜索阶段，用户输入被分为简单文本查询和数学查询。然后，采用和索引阶段相同的算法处理数学查询。算法产生,n,个表达式，这些表达式通过“,AND”,操作符附加到简单文本查询上。结果是执行,n,个连续的查询操作。出于后面的查询项被匹配到的可能性更大，因为后面的项比前面的更具有普遍性。每个数学文件都被分为数学部分和文本部分进行存储。否则类似于“,sin”,的模糊查询就会即返回包含数学公式“,sin”,的文档，又返回包含字符串“,sin”,的文档。,EgoMath,中查询语言采用类似于,LaTex,的表示方式。,EgoMath,由于,UI,设计仍未完成直至目前仍未公布。,现有数学搜索引擎对比（,6,）,MathWebSearch,MathWebSearch,是一个不依赖于全文检索引擎的数学搜索引擎。进行数学搜索时，,MathWebSea

展开阅读全文

现有数学搜索引擎对比

最新文档