网站全文检索方案

上传人:s****a 文档编号:173652026 上传时间:2022-12-12 格式:DOCX 页数:25 大小:862.34KB
返回 下载 相关 举报
网站全文检索方案_第1页
第1页 / 共25页
网站全文检索方案_第2页
第2页 / 共25页
网站全文检索方案_第3页
第3页 / 共25页
点击查看更多>>
资源描述
浙江天宇信息技术有限公司第一部分 对系统需求的理解1.1刖言互联网作为“第四媒体”已成为人们生活或工作中不可或缺的信息获取的 手段。各级政府机关纷纷构建了内容丰富的政府门户网站与内部办公网,方便 公众网上办事,提高了政府机关的办事效率。但是,随着网站内容的不断丰富, 网页数量也呈几何式增长,由此也带来了一个问题:政府门户网站或网站群信 息量巨大,缺乏一条有效的信息快速获取的途径,导致公众在相关的政府门户 网站上不知道如何在短时间内找到自己需要或最感兴趣的内容,查询所需要的 信息却变得越来越困难,于是很快就失去耐心,离开这个网站。借鉴门户网站的经验,通过搜索引擎的方式,建立基于网站内部页面的导 航系统一一网站全文检索系统,就成为解决以上问题的主要措施。然而,政务 公众网全文检索系统还不同于一般的搜索引擎系统,它需要对网站上几乎所有 的内容都需要采集下来,包括各种格式的页面信息,采全率越高就越能体现导 航系统的优势。目前常用的互联网搜索引擎系统,考虑到应用的需要,没有对 动态数据库中的内容进行采集(是否具备此类功能是未知的)。而许多政府网站 的页面,很多是通过程序动态生成的,或者是存储在后台数据库中的,格式多 样。浙江天宇的采集系统考虑到实际的应用需要,除了具备搜索引擎系统具备 的采集功能外,还实现了对动态数据库里的页面及由程序动态生成的页面进行 实时采集。本方案中采用浙江天宇信息技术有限公司开发的新一代智能化的互联网天 信息采集系统作为应用核心,海量非结构化全文数据库系统作为后台WEB页面 的管理平台,提供一站式的全文检索服务。这将有效地解决上述问题。1.2需求分析12.应用目标通过建立政务公众网全文检索系统,实现对以XX市政务网为核心,涉及 到所有XX各级政府部门的门户网站WEB页面内容的批量采集,建立搜索引 擎库,在XX政务网门户网站上建立政务网站导航功能的政务公众网全文检索 系统,公众只需要登录到XX政务网,通过检索系统,便可以查询到所有XX 各级政府部门的门户网站上所需要的政务信息,提高公众的查询与使用政务信 息的效率,从而真正体现XX市政府部门便民服务的核心与宗旨。1.2.2能需求根据应用目标和招标书建设内容的要求,在认真阅读分析招标书和了解乂乂 市政务网应用现状基础上,我们理解,XX市政务公众网全文检索系统的建设 的核心可以分解为三个子系统的建设:采集子系统、管理子系统、检索子系统。采集子系统:实现对各级政务网站WEB页面的批量采集的系统工具,支 持对各类格式信息的采集。管理子系统:实现对采集的内容的管理、采集管理、各类词典与词表的管 理、用户管理、日志管理、检索管理等应用功能。检索子系统:实现对采集的WEB页面的智能化全文检索,支持各类检索 方式。另外,系统应具备良好的稳定性与安全,性,保证系统与采集的数据内容的 安全。1-3方案综述1.3.1内容安排与概要首先,对政务公众网全文检索系统的需求进行了分析,明确了建设目标和内 容;然后进行了总体技术方案的功能设计,从应用软件的选择、系统功能模块等 方面进行了设计;在系统功能模块的设计和实现方面,对采集子系统、管理子系 统与检索子系统等关键点进行了详细的功能描述及技术特点描述。再次,就应用 系统的安全方面进行了详细的描述及功能设计。最后,就招标书中应用系统功能 需求条款进行逐个应答。1.3.2方案特点采用了业界主流和开放的技术标准和设计模式,提供开放的、平台级的应用 编程接口和管理工具,可根据业务需要进行扩展;系统采用国内领先的智能化互联网采集系统与非结构化海量全文数据库系 统作为政务公众网全文检索系统的采集、管理与检索平台,保证了系统具备 了先进性与良好的开放性。智能化采集系统具备强大的采集功能,能够采集几乎所有类型的数据内容, 支持ROBOTS协议。采用统一身份认证、权限控制、用户操作审计等安全措施,使得整个系统具有较强的安全性。第二部分技术方案2.1方案设计2.1.1软件平台选择浙江天宇信息技术有限公司凭借在信息服务、网站建设等建设领域多年的 项目实施经验及1000多家成功应用案例,针对XX市政府政务公众网全文检索 系统的实际需求及未来的发展需要,提供一整套解决方案与成熟的具有自主知 识产权的系列软件产品一一政务公众网全文检索系统。从应用实现的角度,政务公众网全文检索系统选择基于:浏览器与客户端 相结合来实现目标系统的应用功能。基于用户方的硬件环境及操作系统环境, 我们的方案选择相应数据库平台及应用系统软件来具体实现政务公众网全文检索系统的建设目标。应用软件平台XX市政务公众网全文检索系统智能互联网信息采集系统网站搜索引擎 系统全文检索系统CGRS 5.12.1.2系统功能结构政务公众网全文检索系统主要是以CGRS全文数据库为应用支撑平台,以智 能化网络机器人技术及全文检索技术作为应用核心,通过政务公众网全文检索 系统将采集到搜索引擎库中的WEB页面信息对公众提供智能化的高效的全文检 索服务。系统围绕政务门户网站上各种信息资源的采集与聚类、信息过滤和管 理、信息的智能检索,构建XX市政务公众网全文检索系统。返巨搜索绍果网站索引擎系统提交搜索肯茨全文数据库自动建立页面至艾索引 吉动崖丘页面用要摆索页知内容自动排序2.2系统功能及技术指标2.2.1采集子系统功能及技术指标2211采集子系统工作流程采集子系统主要完成对目标网站或网站群上WEB页面及其他附件信息的批量 采集,通过内容过滤,加载到EGRS搜索引擎库,进行管理与提供网站全文检索服 务。采集子系统的工作流程主要包含以下几个部分:1、确定采集目标网站,建 立采集工程;2、对采集工程进行搜索策略的定义及过滤条件等内容的设定;3、 根据URL特征进行网站频道的分类采集、过滤及内容自动去重;4、采集的内容自 动加载到CGRS搜索引擎库,交由CGRS全文数据库管理系统进行统一管理。设定过滤条件采集子系统工作流程图2212功能描述(1) 建立采集工程在本方案中以“ XX政务网”为实例进行采集子系统的功能介绍及采集子系 统界面描述。确定需要采集的目标对象:“XX政务网(http:/www. XX政务网), 建立页面批量采集工程。工程名称:|政务网采集工程完成采集工 程新建工作 后,可以立 即进入工程 的参数配置起始URL中可以含有日期通配符,如$year、$month、$(day)或是循 环变量loop,对于带有日期信息的入口网站地址URL,可以使用日期通配符; 对于一些数字或字符串的URL,则可以使用LOOP循环变量进行设置。通过这些 通配符,可以方便地设定具有一定规则的URL的多个采集入口,方便地进行多 入口分类进行采集。提高采集效率与采集质量。对于“XX政务网”网站,需要分频道分栏目检索功能,系统采用建立多个 采集工程的方式,实现分栏目分频道采集,统一的全文检索的目标。对于一些 不需要分频道检索的其他网站,则可以通过建立一个采集工程的方式实现整个 网站信息的的全部采集。(2) 采集工程参数设置URL选项对于主机地址的限定,系统提供四种参数设置规则: 地址不限。用户选 中后,系统会无限制进行采集,可以通过XX政务网内的所有链接,进行WEB页 面的采集。本站内。对本站内搜索的WEB页面进行批量采集,对于其他网站 上的友情连接网站,则不进行采集。 本站内限定的目录。通过对采集路径进 行限定,实现了分栏目分频道进行采集,为分频道进行全文检索奠定基础。通 过这个参数的设定,可以定位到某个栏目或某几个栏目的批量采集。自定义。 用户可以根据需要,自己定义采集的范围,这个设置的灵活性非常高,自由度 大。对于“XX政务网”自身的页面内容的采集,则选择通过限定目录的方式进 行采集,便于进行分频道检索;对于采集其他网站群,则选择自定义方式在目 标网站群中进行无限制采集。URL过滤。对于采集的页面,可以允许采集那些带有一定URL规则的页面, 也可以排除某些带有一定URL规则的页面,提高采集的效率。采集“XX政务网” 自身,需要考虑使用URL过滤方式,便于精确采集频道内容,其他的网站采集 则无须考虑URL过滤。搜索限定搜索限定主要是设置定义采集目标网站的深度和文件类型。循此协议确定| 应用心 |层】饪翦属性|皿 选项 搜素明歹的据汪莅|高雄原性|嫉宜I4设置岁菠索深度沏:伺j刁 |鬲用内靛脚本语古解析器向 全部L 页面厂 志愫L 国像厂Pfmi- 音城I- 视翘r javar 耳他议,另外,系 统也可以不遵支持robots协服务黑规皿JS1 有些服务器设宜了避饨搜束引孚抓取的页I-是即,或遵守wh 面,法由vr:的翊宇心丫有空网由在顷.a标第中母胃r理角椎亲引梨抑服的标志要可职世些向我屿*?文件宓定1=7葛一呈下栽内联立件7菖是下城女件最大尺寸页面篱新长度允许支件后骤:|1UL:1U叫国服弟器上允许设置robots.(:次立i牛丰识定搜 索引军什.仃博养的wr牛吊中I,洌如服务哉皿为 某些网页屈于格日寸|生生成的页面,戒昔由于它 1=1己的利荷考虑不希望忡泰w I挛佛:芹以蛙中面“如果误选项选上,那么遵诡这-i流行的阿 缗礼节:舌州.不管山|.0|,|中的忑首.总是卜,我这些页面“支持脚本语言 解析,采集通 过程序动态生 成的页面。工鲤配:采集目标网站的深度设置,通过层的方式进行控制。采集“XX政务网” 时,根据前面URL采集规则的设定,需要进行分频道分栏目进行采集,那么在 这里层数设置为“1”,也就是对目标URL下面的页面进行采集,这样就可以精 确的采集到某个或某些频道或栏目下的页面了,不会出现采集其他信息的可能。 对于采集其他网站群,则选择“-1”,表示无限制采集URL规则下面的所有WEB 页面。当然,用户可以根据实际需要,采集需要的层数。对于有些网站的层数 是通过脚本语言控制动态生成的,我们可以选择本系统中“脚本语言解析器” 进行脚本解析,这将有效地解决通过脚本语言动态生成的页面,做到100%的目 标网页内容的采集。采集的文件类型。系统支持对页面内容(htm、html、xml、shtml、asp、php、 jsp、notes 等)、网页附件(doc、xls、ppt、txt、pdf 等)、图片(jpg、gif、jpeg、 bmp 等)、音频(MP3 等)、视频(AVI、RM、MPEG 等)、JAVA (由 JAVASCRIPT 程序生成的页面)等内容的采集。对于页面内联图片的采集,可以做到保持原 样不变的进行采集。根据本项目的实际需要,我们选择“总是下载内联图片、 全部格式”进行页面内容的批量采集,这样就能有效地保证采集各类静、动态 网页、网页附件、由JAVASCRIPT生成的页面等内容的采集,实现用户方的功 能需求,其他设置参数可以不需要考虑。数据处理数据处理主要是执行下载的网页数据上载到数据库,并在网页入库前做一 些预处理的操作流程:选择数据库、数据预处理、网页内容提取。工程配置建撵数搭犀二I Illi Illi Illi Illi Illi Illi 1111C模粮捏职选择棋板.4发送到数据库数据库标识:TB库名:吉岛市政务网数据预处理V自动转玛EI 11 V自动分类 排除下述皿: 网页内容过滤:任务届性I皿选项搜索限定 数帽处理有级H性|选择数据库发送到匚GRS数据库并设置处理方式.I-网页内容提职自动提职当未能提取到相应字段时,将便用字段预定殳值n字段预定义一设置提取规则I对提取后的立本内容进行过滤。设置表达式.一.取消|应用觅)|帮助疫支持各类码集及各类码集的转换可以设定过 滤条件,过 滤含有黄色 信息的页面发送数据库,是将采集下来的页面分类分频道地发送到指定的CGRS搜索 引擎数据库中进行统一的管理。数据预备处理,可以支持各类字符集编码,如GBK、GB2312、BIG5等, 并可以实现采集页面内容的时候,自动进行识别,将BIG5码集的内容转换为 GB2312码集。自动分类,主要是实现对采集的内容按需要进行分频道分类采 集,便于用户分频道进行检索。排除URL是根据分频道采集的时候进行URL 上载到数据库前的二次过滤,提高分频道采集的准确性(后面进行如何进行分 类进行详细的描述)。网页内容过滤是在采集的时候,可以设置过滤条件,将含 有黄色信息的页面进行采集过滤。在本项目中,数据预处理各类参数我们都需 要进行细致的设置,便可达到用户的功能需求。网页内容提取,是实现对采集的WEB页面进行内容的过滤提取,并进行 格式化。在本项目中根据实际情况,可以不需对这项参数进行具体的设置。分类规则及实现对于搜索引擎库的各个字段,采集子系统根据采集的需要均可进行个性化 的设定。字SB?定曳2S1确定取消 应用觅)根据青岛政务网 的栏目,设置分类 规则|分类采集主要是 根据网站栏目的 URL特征进行采 集的分类分析青岛政务网 的栏目的URL特 征,生成匹配规则 只要采集的页面 URL满足匹配规 则,则归到相关的 分类高级属性设置配置网页下载的一些高级属性,主要包括建库方式、是否启用代理、下载 的配置以及对要身份验证的网站,可以预先填入用户名和密码来访问该网站等 功能。帐户:器17使用代理服务器任答尾性皿选项搜索限定数据处理 高够雇性建库方式指定是否对下载网页中的链接进行本地化修改。如果需要上载到数据库,建设选择本地数据库。厂脱机浏览支持采集客户代理服务器汗吏地数据第r上隹成功后,数据不保存如果通用配置中设置了代理服务器,工程本身可以选择是否使用。r启用代理服蓉器下载失败的重试次数启动下载的线程数目:连续下载页面之间的时间间偏访问某些网站时而要轲认密码注意这个密码小是仕网帐户:临时工作目录:IcATemp连接时间:-配置代理如果驱动器的空间促于迫|20端通过代理服务器进行采集,选中进行通用配置根据目标网站的实际情况用户可以设置扫描间隔支持对份校验的网站进行采集配置代理服务支持对硬盘进行管理,用户可以设定硬盘资源不足停止下载及警告建库方式:选择脱机浏览还是上载入库方式。应选择上载入库的方式。代理服务器:如果用户需要通过代理,才能上网,就需要在通用配置里设 置代理服务器的信息。系统支持通过代理服务器进行采集。下载配置:用户可以自行配置扫描与下载的时间间隔,以达到最佳的采集 效果。在通用配置里,用户可以设置硬盘资源不足的时候进行警告及停止页面的 下载。至此,完成这个采集子系统的配置工作,可以通过天宇的下载调度中心逊亟顽EiE.聚.更5.豆;.1顽晅亟.晴岛.政凳网睛岛亟舞网两二.携隔顽分钟自动控制工程进行增量式下载更新。+ x HBtSTniMGrHii Lf iAHrTAlSMrc法产噌用部站旧.么“,怔3.肚*审俱iM.JM.Wlg 哧 ZigrHX加占 ldNBMM4a?4tMflneid LDO8U 浓-2nD4JO7.3b mO:O3 - 3L7I5T?!3始JjM南南设二 中51中 L frlkfiif 12.1 耳年晌菸+逖开蛇 s.环上汽寿:tn: +. i.rK!_r rtE*、*. rElssdfcEJRTiHf, XVJAiPilBaft. 19 r iu.!r r zlll.QzEiiw-RifnBrtiiXL cm.n-3nnEfl r !:/-#.EVni7dK.qEni.inlil0g:.hriii:lirA-nt=T/42D3ZI7S2i3a:L3E-4OZfadLKiMDlO? 如*口?.卫方 皿:HE -33 + 3TW(2)智能全文检索功能。系统提供基于知识或同义词典的扩展检索功能, 能够满足特殊应用领域的高查准率和高查全率的要求,词典可维护;支持对检 索结果的各种排序:对检索结果可按与检索表达式的相关性和重要性程度排序、 基于时间字段的排序、后进先出的快速排序等;系统支持二次检索及任意多次 渐进检索、模糊检索、距离检索、多条件组合检索(包括标题、正文、日期范 围)等。任意词、短语与语句的全匹配检索二次检索(支持任意次渐进检索)j&ie - F 面: ns .博无 Mt* el - . B - vEtitTP |b- -I-T ? -I.-.-T-II .-Llh . : .i-l.ki.胃挡亏旭F桃道第-期 E:七m ?. r 1.:1H- .- i r1、项目祝祝.青臼市弛下铁旧需Tffl工程.南起西俱.北至国棉丸厂.途经市南.市 北,四方,判四个主耍市区冗筋氏54千米.设技座车站,一个轲段.瑚日奔甲心, 二个括电站,根希客流预倒很告.初期3网年)日客运量为明万人次.近期3MS年) 广三-顷盛)=.j :.M 疽. W.TE r .: . I,-土项目法觉没该主槌成项目S蹒良拓记差元.耳中主建工程判占3岛钊,通宿,信号岑设备占瑚,熟 直工程、轲段判占LOtt.诛酱费及其它均占醐,农经济敏盖分析I 乂国民炫卉菊盖分析一全邰投澄内郃收SSI.SIN.从企驻内郃败 益分荀.全部投赛财务内部收益率为&,既全都好回收明(:含建设期 3.30R项目建设条件,1能1年国家计委正杰HI傕豆项.2W1年可研俯通过中咨厘司评估, 并上祈国雹计萼特独。_. :P哼1、青岛市地下铁适於司于199辨正式成立.宜牯于青岛市主耍承担者岛市勤盛变 通筮绷Jjjtt划设计.蜂苦券工程施邛逢成后占运苞管理零任丹,站司注册资本约5如万 O O O O 4db4-4551644*342 1-1 1 ,F:专r,。2.2.3.2技术参数指标、八e lELtftTiftt网页快照检索内容的高亮显示支持中英文多语种混合检索;支持外部特征字段快速值集提取(词、拼音、笔画等简便的输入帮助功能);允许使用文中出现的字、词、片段、句子进行检索;提供多种检索手段:各种逻辑组合检索、二次检索、渐进检索、内容关联检 索、相关词扩检;优化的检索策略和多线程并发检索机制,单机支持不低于50个并发检索请 求;独创的多种关联检索手段:外部关联、特征关联、词典关联,基于内容联想 的横向关联;支持检索结果的多种定制手段;提供分类字段,支持分频道进行浏览和检索。2.2.4系统性能指标查词速度:在1G(100万条左右)的原始信息平均查询时间少于1秒;联库检索:同时打开500个数据库检索;并发数:单机支持10 0个并发检索请求,具体视服务器性能而定;允许跨255个站点的数据库服务器分布式检索等。2.4安全方案检索代理:通过检索代理服务器对数据进行访问,检索用户只能访问到检 索代理服务器,无法进入数据库服务器,在数据库服务(内部网)前设置了一 个“堡垒型”防火墙,拒绝黑客进入数据库服务器和局域网,增加网页数据库 的安全性。用户操作审计:审计的记录保存在数据库中,并提供审计记录的查询、浏 览、打印、统计等功能。用户操作审计记录的记录项主要有:用户的标识、用 户的名称、操作时间、操作类别、数据库标识、数据库名称、操作的文献的标 题、文献的字节数、其它关联信息等;通过审计记录查询数据库中的内容被用 户操作(包括浏览)的情况。独立于操作系统的用户管理、身份验证机制;提供系统、数据库、记录级 字段安全控制;用户使用信息资源的授权机制、用户文献存取数量控制;用户 使用ip地址限制;数据操作审计和日志功能,控制台运行日志和故障分析工具; 用户每次查询登录曰期、时间、登录ip地址、检索用时、检索次数、下载信息 的情况具备分析、统计等功能。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!