中文农业搜索网站的设计与实现

资源描述

中文农业搜索网站的设计与实现周国民，樊景超，周义桃（中国农业科学院农业信息研究所，北京 100081）0 引言搜索引擎作为解决用户要在信息海洋里查找信息难这个问题而出现的技术，己成为互联网上非常重要的网络导航服务。目前，web网上拥有超100亿的静态网页。而当前的通用搜索引擎所能检索的网页一般不超过web网的30-40%，即使是用户最多的Google，其检索的网页也只在30亿左右。另一方面，web技术的发展使更多的网页以动态形式存在，形成所谓的隐藏web网，据估计这部分的信息是整个静态Web空间的500倍以上，而且有递增的趋势。由于搜索引擎在Intemet中所具有的重要地位，它一直就是用户关心的热点之一，也是各家相关公司全力开发的技术焦点。我国各类网站发展非常迅速，而农业网站仅占这些网站的很小一部分，因此通过综合的搜索引擎网站，如google、百度等，会搜索到很多无关的信息。据不完全统计，在农业领域现有各种网站1万多个，涉及农、林、牧、渔、水利、气象、农垦、乡镇企业、及其它农业部门，网页数200多万个，如何仅仅针对这些农业网站中的信息，开发一个专业化的搜索引擎，实现农业信息的精确搜索是本文研究的出发点。1 系统结构与功能中文农业网页搜索网站（简称“农搜”）由网页抓取模块、全文分析与索引模块、全文与语义检索引擎、全文和语义索引库、以及交互接口模块构成。如图1所示。网页抓取模块是根据中文农业网站地址，按照特定的抓取算法，从网络上实时采集中文农业网页。全文分析与索引模块包括全文分析与索引、语义分析与索引两个部分，它把采集回来的中文网页进行逐个处理，分别构建全文索引和语义索引，并保存到全文和语义索引库中。全文与语义检索引擎则根据用户的查询请求生成检索结果集。交互接口模块完成对查询语句的分析和检索结果的高亮显示以及网站直达功能。“农搜”的主要功能包括如下五个方面：网页全文检索功能，用户查询时，提供与关键字匹配的结果列表。网站直达功能，用户点击检索结果的标题超链接，即可跳转到网页的互联网地址。网页评分功能，全文引擎和语义引擎根据各自的评分算法，对网页进行平分和排名。内容提示功能，全文检索把输出的内容含有检索词的部分高亮显示，提示用户。语义相似网页检索功能，根据用户的选择文档，进行二次检索并输出相关网页。“农搜”的主页面如图2。它特点包括两个方面。一是，采用了独特的智能页面分析技术，实现了中文农业网页信息的结构化索引，用户输入关键词后，返回的结果集中不再是没有关联和分类的网页集，而是分成了农业科研单位、农业专家人才、农业实用技术等分门别类的相关网页信息集，在专业化、大众化信息服务的基础上，实现了精准、个性化的信息服务。二是，实现了“全文检索+语义检索”的智能检索引擎，通过使用“全文检索+语义检索”的智能检索引擎技术，不但实现了信息的查全率，这点和主流的检索引擎是一样，同时比较好的实现了信息的查准率。用户通过关键词后利用“全文检索引擎”查到一系列网页后，“农搜”可以根据用户指定的任何一个网页，利用“语义检索引擎”查到这个页面的最相似页面。后台处理交互接口用户1用户n全文索引库用户查询 / 返回全文检索器语义检索器全文分析、索引器网页抓取器WEB浏览器农搜网站语义索引库语义检索器语义分析、索引器图1“农搜”系统结构图2“农搜”网站首页2 关键技术“农搜”实现了“全文检索+语义检索”的智能检索引擎，由于基于字的或者基于词的全文检索引擎已经有很多这方面的研究，本文不再叙述，下面重点介绍我们设计的语义检索引擎所采用的技术和实现原理。1988年S.T. Dumais等人提出了隐含语义索引（Latent Semantic Indexing）方法，该方法是向量空间模型的一个延伸分支，它是通过统计方法分析大量的文本集，自动生成关键字概念（语义）之间映射规则，提取并量化这些潜在的语义结构，消除同义词、多义词的影响，提高文档表示的准确性。隐含语义索引方法的提出，使得基于向量空间模型的检索研究获得新生，在信息过滤、信息分类、信息聚类、交叉语言检索、信息理解等众多领域中得到了广泛的应用。使用隐含语义索引方法，需要构建隐含语义索引空间，SVD是最早提出使用，也是目前普遍使用的典型隐含语义索引空间的构造方法。但基于SVD的隐含语义索引方法不太合适于大规模动态变化的数据集，而互联网上信息的一个显著特点是数据量大和数据变化快，因此，使用这种技术路线来索引和检索互联网上的海量信息并不很成功。1996年T.G. Kolda 和 D.P. OLeary 提出了一种改进算法来构建隐含语义索引空间，即SDD算法（Semidiscrete Decomposition）。日本国家农业研究中心（NARC）农业综合研究所农业情报研究部的研究人员将SDD算法用于日文网页和中文网页的信息检索，取得了比较好的应用效果，证明了基于SDD算法隐含语义索引方法能够有效地处理大规模动态变化的数据集。目前国内对基于SDD算法隐含语义索引方法的研究和应用很少。2003年，我们与日本国家农业研究中心（NARC）农业综合研究所农业情报研究部合作研究，对基于SDD算法隐含语义索引方法进行消化和吸收，并将SDD算法应用到中文网页的语义检索中。SDD算法的基本思想是采用尽量少的存储空间来保存隐含语义索引空间向量。在向量空间模型中，令D=D1，D2，Dn表示由m个词和n个文档构成的文档集合，其中Dj=(d1j，d2j ，dmj)T是文档向量，dij上表示词i发生在文档j中的词频率权重，词文档矩阵A定义如下：其中Qj = (q1，q2 ，qm)T表示查询向量，qi表示词i出现在查询中。一个mn的词文档矩阵A的K阶SDD阵的定义如下：其中，xi 和yi的取值范围是集合S=-1,0,1，di 的是一个浮点数。使用SDD算法来构建隐含语义索引空间的过程实际上就是将词文档矩阵A分解成三个矩阵Xk、Dk 和Yk。计算过程如图3。图3 SDD算法计算过程使用SDD算法的检索过程是，用户的一个查询Q，经过变换，成为一个k维的向量qk，代表一个虚文档。检索结果s = qk A，由于 A = xkdkykT ，所以 s = qk xkdkykT。计算结果可以按相似度从大到小的进行排列。SDD算法是在SVD算法基础上改进而来，并具有三个特点：（1）SDD的时间复杂度比SVD低。因此可以使用SDD算法来处理大批量的网页信息。（2）基于SDD的隐含语义索引文件要比SVD算法的小得多。因为在SVD算法中，U、和V三个矩阵都是存贮浮点数，而在SDD算法中，X、D、Y三个矩阵中，X和Y矩阵中存贮的都是-1，0，1，所以可以采用一定的数据结构来存贮X和Y矩阵，达到节约存贮空间的目的。（3）使用SDD构建的索引文件更新非常方便，当有新的文档出现时，不像SVD算法，需要重新计算所有的文档，而只需要计算新增加的文档，因此，非常适合处理大量的动态文档。3 结语我们在windows平台中已经实现了“农搜”网站，并且对外提供农业信息的精确搜索服务，对该系统的测试结果表明，总体规划和设计是可行的，并且具有潜在的良好性能。 “农搜”的开通和有效使用，将有效推动和提高我国长期以来积累的丰富的网络信息资源发挥其应有的效益，为急需农业科技信息和市场信息的企业、部门、农户精确获取农业信息提供了有益的工具。参考文献1.S.T. Dumais,et al. Using latent semantic analysis to improve information retrieval.CIn CHI88 Proceedings.1988,281285.2.冯项云, LSI潜在语义标引方法在情报检索中的应用,J 现代图书情报技术1998年第4期,2021.3.周水庚, 隐含语义索引及其在中文文本处理中的应用研究,J 小型微型计算机系统, 2001年,第22卷第2期,240241 4.T.G. Kolda and D.P.OLeary Large latent semantic indexing via a Semidiscrete Matrix Decomposition. RTechnical Report No. UMCP-CSD CS-TR-3713, Department of Computer Secience,University of Maryland, November 19965. Kolda, T. G. and OLeary, D. P. A semidiscrete matrix decomposition for latent semantic indexing in information retrieval. J ACM Trans. Inf. Syst. 1998,16, 322346.作者简介周国民(zhougm)博士，博士生导师，研究员，2002年聘为中国农业科学院“杰出人才工程”信息技术与信息管理学科带头人，2003年入选“北京市科技新星”，2004年获农业部第四届“十佳青年”和中央国家机关青年“创新奖”。主持组建农口第一个多媒体研究中心，主持或参加科研课题20多项，获得科技成果奖 8 项次，学术论文30多篇，软件著作权12项。

展开阅读全文

中文农业搜索网站的设计与实现

最新文档