网站全文检索方案

资源描述

.wd.浙江天宇信息技术政务公众网全文检索系统技术方案第一局部对系统需求的理解1.1前言互联网作为“第四媒体已成为人们生活或工作中不可或缺的信息获取的手段。各级政府机关纷纷构建了内容丰富的政府门户网站与内部办公网，方便公众网上办事，提高了政府机关的办事效率。但是，随着网站内容的不断丰富，网页数量也呈几何式增长，由此也带来了一个问题：政府门户网站或网站群信息量巨大，缺乏一条有效的信息快速获取的途径，导致公众在相关的政府门户网站上不知道若何在短时间内找到自己需要或最感兴趣的内容，查询所需要的信息却变得越来越困难，于是很快就失去耐心，离开这个网站。借鉴门户网站的经历，通过搜索引擎的方式，建设基于网站内部页面的导航系统网站全文检索系统，就成为解决以上问题的主要措施。然而，政务公众网全文检索系统还不同于一般的搜索引擎系统，它需要对网站上几乎所有的内容都需要采集下来，包括各种格式的页面信息，采全率越高就越能表达导航系统的优势。目前常用的互联网搜索引擎系统，考虑到应用的需要，没有对动态数据库中的内容进展采集是否具备此类功能是未知的。而许多政府网站的页面，很多是通过程序动态生成的，或者是存储在后台数据库中的，格式多样。浙江天宇的采集系统考虑到实际的应用需要，除了具备搜索引擎系统具备的采集功能外，还实现了对动态数据库里的页面及由程序动态生成的页面进展实时采集。本方案中采用浙江天宇信息技术开发的新一代智能化的互联网天信息采集系统作为应用核心，海量非构造化全文数据库系统作为后台WEB页面的管理平台，提供一站式的全文检索服务。这将有效地解决上述问题。1.2需求分析1.2.1应用目标通过建设政务公众网全文检索系统，实现对以XX市政务网为核心，涉及到所有XX各级政府部门的门户网站WEB页面内容的批量采集，建设搜索引擎库，在XX政务网门户网站上建设政务网站导航功能的政务公众网全文检索系统，公众只需要登录到XX政务网，通过检索系统，便可以查询到所有XX各级政府部门的门户网站上所需要的政务信息，提高公众的查询与使用政务信息的效率，从而真正表达XX市政府部门便民服务的核心与宗旨。1.2.2功能需求根据应用目标和招标书建设内容的要求，在认真阅读分析招标书和了解XX市政务网应用现状根基上，我们理解，XX市政务公众网全文检索系统的建设的核心可以分解为三个子系统的建设：采集子系统、管理子系统、检索子系统。采集子系统：实现对各级政务网站WEB页面的批量采集的系统工具，支持对各类格式信息的采集。管理子系统：实现对采集的内容的管理、采集管理、各类词典与词表的管理、用户管理、日志管理、检索管理等应用功能。检索子系统：实现对采集的WEB页面的智能化全文检索，支持各类检索方式。另外，系统应具备良好的稳定性与安全性，保证系统与采集的数据内容的安全。1.3 方案综述1.3.1内容安排与概要首先，对政务公众网全文检索系统的需求进展了分析，明确了建设目标和内容；然后进展了总体技术方案的功能设计，从应用软件的选择、系统功能模块等方面进展了设计；在系统功能模块的设计和实现方面，对采集子系统、管理子系统与检索子系统等关键点进展了详细的功能描述及技术特点描述。再次，就应用系统的安全方面进展了详细的描述及功能设计。最后，就招标书中应用系统功能需求条款进展逐个应答。1.3.2方案特点l 采用了业界主流和开放的技术标准和设计模式，提供开放的、平台级的应用编程接口和管理工具，可根据业务需要进展扩展；l 系统采用国内领先的智能化互联网采集系统与非构造化海量全文数据库系统作为政务公众网全文检索系统的采集、管理与检索平台，保证了系统具备了先进性与良好的开放性。l 智能化采集系统具备强大的采集功能，能够采集几乎所有类型的数据内容，支持ROBOTS协议。l 采用统一身份认证、权限控制、用户操作审计等安全措施，使得整个系统具有较强的安全性。第二局部技术方案2.1方案设计2.1.1软件平台选择浙江天宇信息技术凭借在信息服务、网站建设等建设领域多年的工程实施经历及1000多家成功应用案例，针对XX市政府政务公众网全文检索系统的实际需求及未来的开展需要，提供一整套解决方案与成熟的具有自主知识产权的系列软件产品政务公众网全文检索系统。从应用实现的角度，政务公众网全文检索系统选择基于：浏览器与客户端相结合来实现目标系统的应用功能。基于用户方的硬件环境及操作系统环境，我们的方案选择相应数据库平台及应用系统软件来具体实现政务公众网全文检索系统的建设目标。XX市政务公众网全文检索系统应用软件平台网站搜索引擎系统全文检索系统CGRS 5.1智能互联网信息采集系统CGRS搜索引擎库CGRS全文数据库数据库平台UNIX / LINUX / WINDOWS 2000/2003操作系统2.1.2系统功能构造政务公众网全文检索系统主要是以CGRS全文数据库为应用支撑平台，以智能化网络机器人技术及全文检索技术作为应用核心，通过政务公众网全文检索系统将采集到搜索引擎库中的WEB页面信息对公众提供智能化的高效的全文检索服务。系统围绕政务门户网站上各种信息资源的采集与聚类、信息过滤和管理、信息的智能检索，构建XX市政务公众网全文检索系统。2.2 系统功能及技术指标2.2.1采集子系统功能及技术指标2.2.1.1采集子系统工作流程采集子系统主要完成对目标网站或网站群上WEB页面及其他附件信息的批量采集，通过内容过滤，加载到CGRS搜索引擎库，进展管理与提供网站全文检索服务。采集子系统的工作流程主要包含以下几个局部：1、确定采集目标网站，建设采集工程；2、对采集工程进展搜索策略的定义及过滤条件等内容的设定；3、根据URL特征进展网站频道的分类采集、过滤及内容自动去重；4、采集的内容自动加载到CGRS搜索引擎库，交由CGRS全文数据库管理系统进展统一管理。采集子系统工作流程图2.2.1.2 功能描述1建设采集工程在本方案中以“XX政务网为实例进展采集子系统的功能介绍及采集子系统界面描述。政务网采集工程 :/ XX政务网定义采集的入口，可以自行根据需要进展设定。完成采集工程新建工作后，可以立即进入工程的参数配置确定需要采集的目标对象:“XX政务网 :/ XX政务网，建设页面批量采集工程。起始URL中可以含有日期通配符，如$year、$month、$day或是循环变量loop，对于带有日期信息的入口网站地址URL，可以使用日期通配符；对于一些数字或字符串的URL，则可以使用LOOP循环变量进展设置。通过这些通配符，可以方便地设定具有一定规则的URL的多个采集入口，方便地进展多入口分类进展采集。提高采集效率与采集质量。对于“XX政务网网站，需要分频道分栏目检索功能，系统采用建设多个采集工程的方式，实现分栏目分频道采集，统一的全文检索的目标。对于一些不需要分频道检索的其他网站，则可以通过建设一个采集工程的方式实现整个网站信息的的全部采集。2采集工程参数设置URL选项对于主机地址的限定，系统提供四种参数设置规则：地址不限。用户选中后，系统会无限制进展采集，可以通过XX政务网内的所有链接，进展WEB页面的采集。本站内。对本站内搜索的WEB页面进展批量采集，对于其他网站上的友情连接网站，则不进展采集。本站内限定的目录。通过对采集路径进展限定，实现了分栏目分频道进展采集，为分频道进展全文检索奠定根基。通过这个参数的设定，可以定位到某个栏目或某几个栏目的批量采集。自定义。用户可以根据需要，自己定义采集的范围，这个设置的灵活性非常高，自由度大。对于“XX政务网自身的页面内容的采集，则选择通过限定目录的方式进展采集，便于进展分频道检索；对于采集其他网站群，则选择自定义方式在目标网站群中进展无限制采集。URL过滤。对于采集的页面，可以允许采集那些带有一定URL规则的页面，也可以排除某些带有一定URL规则的页面，提高采集的效率。采集“XX政务网自身，需要考虑使用URL过滤方式，便于准确采集频道内容，其他的网站采集则无须考虑URL过滤。搜索限定支持robots协议，另外，系统也可以不遵循此协议支持脚本语言解析，采集通过程序动态生成的页面。搜索限定主要是设置定义采集目标网站的深度和文件类型。采集目标网站的深度设置，通过层的方式进展控制。采集“XX政务网时，根据前面URL采集规则的设定，需要进展分频道分栏目进展采集，那么在这里层数设置为“1，也就是对目标URL下面的页面进展采集，这样就可以准确的采集到某个或某些频道或栏目下的页面了，不会出现采集其他信息的可能。对于采集其他网站群，则选择“-1，表示无限制采集URL规则下面的所有WEB页面。当然，用户可以根据实际需要，采集需要的层数。对于有些网站的层数是通过脚本语言控制动态生成的，我们可以选择本系统中“脚本语言解析器进展脚本解析，这将有效地解决通过脚本语言动态生成的页面，做到100%的目标网页内容的采集。采集的文件类型。系统支持对页面内容htm、html、xml、shtml、asp、php、jsp、notes等、网页附件doc、xls、ppt、txt、pdf等、图片jpg、gif、jpeg、bmp等、音频MP3等、视频AVI、RM、MPEG等、JAVA由JAVASCRIPT程序生成的页面等内容的采集。对于页面内联图片的采集，可以做到保持原样不变的进展采集。根据本工程的实际需要，我们选择“总是下载内联图片、全部格式进展页面内容的批量采集，这样就能有效地保证采集各类静、动态网页、网页附件、由JAVASCRIPT生成的页面等内容的采集，实现用户方的功能需求，其他设置参数可以不需要考虑。数据处理数据处理主要是执行下载的网页数据上载到数据库，并在网页入库前做一些预处理的操作流程：选择数据库、数据预处理、网页内容提取。支持各类码集及各类码集的转换可以设定过滤条件，过滤含有黄色信息的页面发送数据库，是将采集下来的页面分类分频道地发送到指定的CGRS搜索引擎数据库中进展统一的管理。数据预备处理，可以支持各类字符集编码，如GBK、GB2312、BIG5等，并可以实现采集页面内容的时候，自动进展识别，将BIG5码集的内容转换为GB2312码集。自动分类，主要是实现对采集的内容按需要进展分频道分类采集，便于用户分频道进展检索。排除URL是根据分频道采集的时候进展URL上载到数据库前的二次过滤，提高分频道采集的准确性后面进展若何进展分类进展详细的描述。网页内容过滤是在采集的时候，可以设置过滤条件，将含有黄色信息的页面进展采集过滤。在本工程中，数据预处理各类参数我们都需要进展细致的设置，便可到达用户的功能需求。网页内容提取，是实现对采集的WEB页面进展内容的过滤提取，并进展格式化。在本工程中根据实际情况，可以不需对这项参数进展具体的设置。分类规则及实现根据青岛政务网的栏目，设置分类规则分类采集主要是根据网站栏目的URL特征进展采集的分类分析青岛政务网的栏目的URL特征，生成匹配规则只要采集的页面URL满足匹配规则，则归到相关的分类对于搜索引擎库的各个字段，采集子系统根据采集的需要均可进展个性化的设定。高级属性设置配置网页下载的一些高级属性，主要包括建库方式、是否启用代理、下载的配置以及对要身份验证的网站，可以预先填入用户名和密码来访问该网站等功能。支持采集客户端通过代理服务器进展采集，选中进展通用配置支持对需要身份校验的网站进展采集配置代理服务器支持对硬盘进展管理，用户可以设定硬盘资源缺乏停顿下载及警告根据目标网站的实际情况，用户可以设置扫描间隔建库方式：选择脱机浏览还是上载入库方式。应选择上载入库的方式。代理服务器：如果用户需要通过代理，才能上网，就需要在通用配置里设置代理服务器的信息。系统支持通过代理服务器进展采集。下载配置：用户可以自行配置扫描与下载的时间间隔，以到达最正确的采集效果。用户根据需要设定采集扫描间隔，进展增量式采集。系统会根据设定，自动进展扫描与采集。在通用配置里，用户可以设置硬盘资源缺乏的时候进展警告及停顿页面的下载。至此，完成这个采集子系统的配置工作，可以通过天宇的下载调度中心自动控制工程进展增量式下载更新。2.2.1.3 技术参数指标页面采集内容的完整性。适应网站内容格式的多变性，能完整地获取需要采集的页面。提取内容的深度与准确性。能方便将网页中的构造化字段信息提取出来，如日期，标题，作者，栏目等等内容，过滤网页中如广告等无用信息。内容自动去重。用户选择几种去重标准：如标题、作者一样，正文字节数一样即认为是重稿，或者内容一模一样，认为是重稿；或者80、90相似认为是重稿等标准，可供用户选择。网站采集范围的准确定义。通过起始URL地址、URL范围表达式可包含正则表达式、搜索深度、文件类型控制的定义来准确描述需要采集的网站范围，可以准确到整个网站、特定栏目、特定页面；过滤掉无用的链接。主题词过滤网页。在采集过程中，可以定义主题词的逻辑关系(与、或、非)，对网页内容进展过滤，准确地获取与采集主题相关的网页内容。网站动态数据库抓取。能方便抓取网站上后台数据库的内容(JSP, ASP, CGI)，和抓取需要通过用户身份校验的网站内容。网站历史数据的批量下载。方便地成批抓取网站上的历史数据。对于URL中带日期变量的网站，只需要设定一个规则，就可以任意下载指定一段时间范围内的网站历史数据。自动分类和个性化分类的结合。即可以通过计算机学习的自动分类规则，对获取的内容进展自动分类；也可以使用主题词分类方法，对下载的内容进展人工批量分类机检分类。支持简繁体网站、中英文网站的搜索。可靠的下载中心调度，可以设置采集间隔，支持多个下载任务同时高速下载，每个任务可以设定多个线程同时下载。2.2.2管理子系统功能及技术指标管理子系统主要是实现对采集下来的各类WEB页面、附件等非构造化资源通过CGRS全文数据库进展统一管理。另外，实现对采集过程及用户进展有效地管理。管理子系统操作系统 UNIX / LINUX / WINDOWS NT/2000内容管理多码集： GBK、BIG5、 GB2312CGRS全文数据库WEB页面、附件等数据库新建、维护等采集工程管理超链接收理系统运行管理系统管理员、数据库管理员与一般检索用户三级用户管理用户使用及操作权限管理，用户使用检索统计分析等采集管理用户管理CGRS全文数据库采集系统参数配置等用户身份认证同义词典、过滤词典管理、日志管理管理子系统构造示意图2.2.2.1内容管理1功能概述内容管理是以CGRS全文数据库作为后台管理系统，是对WEB页面、文本、电子文档、图像、声音、映像等页面附件提供强大的数据库管理和检索功能的全文数据库平台。系统内嵌高可用性的索引机制，可以使用文中的任意字、词、短语、句和片段进展检索。系统具有强大数据库管理及维护功能，如搜索引擎数据库定义、建设、备份、恢复、逻辑删除、物理删除、重组、增量备份、记录查重等功能。管理子系统支持对整个系统采集子系统、管理子系统、检索子系统进展总体的控制，包括采集系统的启动、检索子系统的启动与停顿，已经对这两个子系统的运行状态进展有效的监视。如采集子系统的采集状况、完成比率等，检索子系统检索用户情况等。系统支持对采集的站点进展定义，如配置站点的起始URL、URL过滤规则、抓取深度、设置扫描间隔、采集频道分类等。关于采集管理，详见采集子系统功能概述。用户可以选择一定的时间段日、周、月来统计检索量和关键词检索频度系统具备用户分析统计功能，用户可以根据需要进展用户检索情况统计，用户检索用词统计，按天、周、月、年等进展用户使用情况统计，用户词频统计等等。系统具有独立于操作系统的身份验证机制；用户使用信息资源的授权机制；用户使用操作限制等。同义词典的管理与维护。用户可以在记事本里编辑同义词典，也可以直接在管理子系统中编辑同义词典，并可以对编辑好的同义词典进展修改、删除与维护等操作。直接编辑同义词典，并方便进展维护与管理 API接口。系统提供标准的二次开发接口API，用户可以根据实际需要，定制个性化的应用系统。具体接口包括：标准的C+管理与检索接口支持Windows和Unix下的通用开发工具；Javabeans类库应用程序开发接口(支持J2EE环境下的开发工具)；C#类库应用程序开发接口支持.NET平台下的开发工具。通过这些接口，可以和其他系统集成。2技术指标开放和可扩展的体系构造s 分布式体系架构，支持多域分布和集群分布；s 支持所有主流的操作系统和各种Web应用服务器及Web服务器；s 支持J2EE及.NET体系架构；s 32位平台支持64位数据库文件，即支持大于4G的数据库；s 支持OFFICE文档和PDF文档的自动过滤索引；s 支持Web自动提取内容的管理和检索。中文自然语言处理功能s 字元检索策略，在保证检索性能的同时到达100%查全率，保障了查准率；s 提供自动分类技术、自动摘要功能、文本相似性对比功能；s 支持按词索引、按字索引、字词混合索引；s 支持文本自动提取和模式提取；s 字段重复内容自动去重和计数。完备的数据管理s 支持中英文、多语种混合检索；s 支持GBK、GB2312、BIG5内码集，内核支持unicode码集；s 支持多种数据类型日期、数值、大数值、文本、二进制；s 并行索引技术, 对于多CPU机器能大幅度提高索引性能；s 支持唯一性字段；s 支持字段内容自动去重；s 支持数据库记录的增删改操作；s 支持多媒体数据的关联管理和检索；s 支持数据批量标引；基于主题词表的批量分类；s 支持对检索数据集进展批量管理的功能；s 数据库优化重组；s 支持Web站点镜像检索和内容自动提取；s 数据库分类导航树的管理。开放性s 系统支持XML标准交换协议，保证了系统具有良好的开放性。3性能指标l 数据库容量：每个搜索引擎数据库最多可存贮存42亿篇文献；l 每个服务器允许建设数据库可达936个；2.2.2.2 采集管理对采集进展管理主要包括：采集工程管理、运行管理、超链接收理等几个局部。采集工程管理，包括采集工程定义、工程参数设置管理等，详细的采集工程定义与管理见采集子系统的功能概述局部。运行管理，包括对系统的启动、停顿及运行状态的监视等运行管理。对于采集系统的启动无须手工进展启动或停顿，可以通过下载中心自动设置运行时间间隔进展自动运行或停顿，同时进展运行状态的监视，系统出现运行故障，会自动进展提示。详细的运行管理见采集子系统相关的功能概述局部。超链接收理，主要是对一些网页死链或过期的网页链接进展管理，包括死链的删除、修改等管理。在管理子系统中可以直接进展相关操作。直接删除或修复死链过滤词典的管理与维护：用户定义过滤词典，可以直接通过记事本进展编辑，编辑完成后直接导入采集子系统中，用户在设定采集工程时调用过滤词典，系统会自动根据过滤词典进展采集页面过滤，如过滤含有黄色信息、反动信息的页面。2.2.2.3用户管理1功能设计用户管理。系统提供独立于操作系统的用户权限管理，用户操作审计、分析与统计，日志分析与统计等功能。系统允许最多管理30000个用户，用户根据实际需要可以自定义用户数。对于无须通过身份验证的普通检索用户，则通过访客用户可以直接访问，共用一个检索帐号。用户权限管理。系统允许用户对不同的操作用户定义不同的操作权限，并对用户的操作进展审计，提高系统的安全性。2技术指标s 内置的用户权限管理体系、多级用户管理；s 灵活的用户数据库授权机制；s 数据库管理、数据维护、系统管理、检索各种权限分开，可以按需分配；s 用户分组管理；s 数据库检索频度统计、检索词频统计；s 检索日志和数据库维护日志的管理。2.2.3 检索子系统功能及技术指标2.2.3.1功能描述1通用全文检索功能。系统提供全方位的全文检索手段，支持多种检索运算符，包括外部特征与正文内容的各种逻辑组合检索，逻辑或、与非的检索，符合通用搜索引擎使用习惯；多字段复合检索、历史检索、相关词扩展检索、分类导航检索、中英文字符混合检索，支持前方一致检索、短语与句子检索功能等。检索子系统符合通用搜索引擎的使用习惯，支持搜索引擎搜索的绝大局部功能，并更适合与贴切政府部门政务内网、政务公众网检索的需要。系统实现了采集与检索分频道处理，网页标题与内容摘要的自动提取与动态生成，用户通过关键词检索后，会在标题和摘要中以高亮显示，搜索结果分别按照标题、摘要、内容进展类聚，并剔除重复性的内容，并支持对检索结果按模版显示及网页原样进展显示；用户需要查看所检索的信息在网页中所在的位置，可以通过存储在搜索引擎库中的网页快照进展浏览；对于网页附件DOC、XLS、TXT、PDF，存储在网页的可查询附件字段中，系统自动建设索引，可以进展全文检索；系统实现了对中文、英文、中英文、德文、法文等西文进展单独检索与混合检索，并具有100%的查全率与极高的查准率。支持逻辑组合检索，符合搜索引擎使用习惯检索关键词在标题和摘要中高亮显示网页检索动态摘要自动生成检索结果按标题、内容进展类聚，网页标题自动提取模糊检索、距离检索2智能全文检索功能。系统提供基于知识或同义词典的扩展检索功能，能够满足特殊应用领域的高查准率和高查全率的要求，词典可维护；支持对检索结果的各种排序：对检索结果可按与检索表达式的相关性和重要性程度排序、基于时间字段的排序、后进先出的快速排序等；系统支持二次检索及任意屡次渐进检索、模糊检索、距离检索、多条件组合检索包括标题、正文、日期范围等。二次检索支持任意次渐进检索任意词、短语与语句的全匹配检索网页快照检索内容的高亮显示2.2.3.2技术参数指标s 支持中英文多语种混合检索；s 支持外部特征字段快速值集提取词、拼音、笔画等简便的输入帮助功能；s 允许使用文中出现的字、词、片段、句子进展检索；s 提供多种检索手段：各种逻辑组合检索、二次检索、渐进检索、内容关联检索、相关词扩检；s 优化的检索策略和多线程并发检索机制，单机支持不低于50个并发检索请求；s 独创的多种关联检索手段：外部关联、特征关联、词典关联，基于内容联想的横向关联；s 支持检索结果的多种定制手段；s 提供分类字段，支持分频道进展浏览和检索。2.2.4 系统性能指标s 查词速度：在1G100万条左右的原始信息平均查询时间少于1秒；s 联库检索：同时翻开500个数据库检索；s 并发数：单机支持100个并发检索请求，具体视服务器性能而定；s 允许跨255个站点的数据库服务器分布式检索等。2.4 安全方案检索代理：通过检索代理服务器对数据进展访问，检索用户只能访问到检索代理服务器，无法进入数据库服务器，在数据库服务内部网前设置了一个“堡垒型防火墙，拒绝黑客进入数据库服务器和局域网，增加网页数据库的安全性。用户操作审计：审计的记录保存在数据库中，并提供审计记录的查询、浏览、打印、统计等功能。用户操作审计记录的记录项主要有：用户的标识、用户的名称、操作时间、操作类别、数据库标识、数据库名称、操作的文献的标题、文献的字节数、其它关联信息等；通过审计记录查询数据库中的内容被用户操作包括浏览的情况。独立于操作系统的用户管理、身份验证机制；提供系统、数据库、记录级字段安全控制；用户使用信息资源的授权机制、用户文献存取数量控制；用户使用IP地址限制；数据操作审计和日志功能，控制台运行日志和故障分析工具；用户每次查询登录曰期、时间、登录IP地址、检索用时、检索次数、下载信息的情况具备分析、统计等功能。

展开阅读全文

网站全文检索方案

最新文档