侵略者网页数据采集系统技术白皮书

资源描述

1 / 13 文档可自由编辑打印侵略者侵略者 WEB 数据采集系数据采集系统统 V3.0.1技技术术白白皮皮书书Copyright 2005-2010 All Rights Reserved 侵略者软件2 / 13 文档可自由编辑打印目目录录目目录录.2一一.概述概述.3二二.典型应用典型应用.31.政府机关.32.企业.43.新闻媒体.44.应用系统.5三三. .系统构架系统构架.51.工作过程描述.52.采集管理服务器.53.采集服务器群组.6四四.系统功能系统功能.9五五.技术特点技术特点.10六六.系统优势系统优势.111.精确度高.112.易用性好.123.灵活性强.124.实施部署容易.125.采集内容全面.126.抓取速度快.127.性能指标.13七七.维护管理监控维护管理监控.13八八.名词解释名词解释.14九九.系统环境系统环境要求要求.153 / 13 文档可自由编辑打印一一. 概述概述面对互联网海量的信息，政府机关、企事业单位和研究机构都迫切希望获取与自身工作相关的有价值信息，如何方便快捷地获取这些信息就变得至关重要了。如果采用原始的手工收集方式，费时费力且毫无效率，面对越来越多的信息资源，劳动强度和难度可想而知。因此，现代的政府和企业都迫切需要一种能够提供高质量和高效运作的信息采集解决方案。本系统针对不同行业用户的应用需求，以抓取互联网或者内部网信息为目的，实现在用户自定义规则下，自动从互联网中抓取指定信息。抓取的信息可存入独立数据库或通过接口发送至其他系统，用于内部使用或外网发布，实现信息及时全面的共享。随着用户对信息获取速度的要求，很多网站开始做面向各行各业的垂直搜索引擎，垂直搜索引擎最核心的就是准确及时的获取数据源。本系统的设计目标就是为了满足这个需求。给垂直搜索引擎提供准确及时是数据采集服务。本系统同样能够给信息类网站提供内容采集服务，以快速提高网站的信息量。二二. 典型应用典型应用1.政府机关政府机关实时跟踪、采集与业务工作相关的信息来源。全面满足内部工作人员对互联网信息的全局观测需求。及时解决政务外网、政务内网的信息源问题，实现动态发布。快速解决政府主网站对各地级子网站的信息获取需求。全面整合信息，实现政府内部跨地区、跨部门的信息资源共享与有4 / 13 文档可自由编辑打印效沟通。节约信息采集的人力、物力、时间，提高办公效率。2.企业企业实时准确地监控、追踪竞争对手动态，是企业获取竞争情报的利器。及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。大幅度地提高企业获取、利用情报的效率，节省情报信息收集、存储、挖掘的相关费用，是提高企业核心竞争力的关键。提高企业整体分析研究能力、市场快速反应能力，建立起以知识管理为核心的“竞争情报数据仓库” ，是提高企业核心竞争力的神经中枢。3.新闻媒体新闻媒体快速准确地自动跟踪、采集数千家网络媒体信息，扩大新闻线索，提高采集速度。支持每天对数万条新闻进行有效抓取。监控范围的深度、广度可以自行设定。支持对所需内容的智能提取、审核。实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。4.应用系统应用系统垂直搜索应用网络舆情监控5 / 13 文档可自由编辑打印竞争情报系统行业知识库其它需要互联网海量信息作为数据源的应用系统三三. .系统构架系统构架1.工作过程描述工作过程描述采集的目的就是把对方网站上网页中的某块文字或者图片等资源下载到自己的数据库或其他的存储形式，这个过程需要做如下配置工作：下载网页配置，解析网页配置，修正结果配置，数据输出配置。如果数据符合自己要求，修正结果这步可省略。配置完毕后，把配置形成任务(任务以XML格式描述)，发布到采集服务器群组，采集爬虫按照任务的描述开始工作，最终把采集到的结果存储到结果存储服务器。然后用户自己的信息处理系统就可以到结果存储服务器上取到数据，作为自己的数据源。2.采集管理服务器采集管理服务器运行采集管理平台，负责其他所有采集服务器的管理，监控，统计，分析和任务分配。与其他采集服务器采用HTTP协议发送查询命令，然后返回要查询的相关信息。 3.采集服务器群组采集服务器群组运行采集爬虫，每台服务器运行10个采集爬虫。每个爬虫负责多个采集任务，任务越多，数据更新的频率就越低。所以服务器越多，分配给每个进程的任务就越少，数据更新的频率就越高。数据采集的效率就越高。6 / 13 文档可自由编辑打印系统部署图如下：7 / 13 文档可自由编辑打印工作流程图如下：数据处理逻辑图： 8 / 13 文档可自由编辑打印四四. 系统功能系统功能本系统提供对互联网数据进行采集的服务。根据用户事先配置好的规则(网页下载规则，网页解析规则等)，进行数据采集。9 / 13 文档可自由编辑打印当对方网站数据进行了更新，或者添加新数据时，系统自动会进行检测，并进行采集，然后更新到自己的数据库(或者别的存储方式)，这个过程不再需要人工干涉。对需要登录的网站可以根据设定好的帐号密码进行自动登录，以便采集登录后才能获取的数据本系统采用分布式处理，可以通过采集管理平台把采集任务发布到不同的服务器，能够进行对大量数据源网站进行高频率的并行监控采集。对服务器群管理方便快捷，通过采集管理平台进行统一管理，监控，统计，分析。本系统主要适合于对数据量要求大的行业垂直搜索引擎和情报分析系统的数据采集，也适合于一些对数据量要求不高的信息发布网站。本系统采用插件方式，对采集来的数据可以进行修正。对输出方式可以通过插件自由定制。可扩展性高。五五. 技术特点技术特点 1. 跨平台，支持当前多数操作系统，Windows / Unix / Linux。2. 自动识别网页的编码格式，也可以人工设置编码格式。支持各国语言的网站。3. 支持图片，软件，音乐，视频，flash等多种格式资源的下载。4. 支持用户名与密码自动登录。5. 支持采集结果输出的多样性，可以使用不同输出插件进行输出，也可以自己开发输出插件。6. 采集配置分为三个部分：网页爬虫配置，网页解析配置，采集任务配置。以上三者可以自由搭配，便于重复利用已设置完毕的配置。7. 可定制的数据解析和抽取。可以自由配置要采集的网络元数据，并可以对每个网络元数据自定义字段名。便于后续信息处理。8. 海量信息采集和存储支持，分布式管理，多服务器集群和协作。9. 采集爬虫采用多任务、多数据源管理，同一个采集服务器下可以进行多个采集任务的运行。10 / 13 文档可自由编辑打印10. 每个任务下可以指定多个采集入口网站。11. 采集条件设置，可以针对不同任务下的入口网站设置采集路径、重点页面、采集网址过滤等控制条件。控制条件采用正则表达式。12. 运行配置，采集运行过程中使用的爬虫名称、个数、数据更新频度等均可以由用户进行配置。13. 信息自动维护，被抓取网址数据发生变化时，系统会自动发现并更新已抓取的信息。14. 多用户，分权限进行管理。采集服务器跟管理控制台之间采用严格的权限管理，保证采集服务器的安全。15. 自动识别文本中的图片信息，并且自动下载到本地，并替换文本中的图片URL为本地URL。16. 管理控制台可以监控每台采集服务器详细的系统资源使用情况，并总结出运行是否正常的运行报告。六六. 系统优势系统优势1.精确度高精确度高用户可以按照自身需要自行选择、设定监测的目标网站和特定信息源，实施24 小时不间断监测和采集，信息动态始终处于掌握之中。系统支持将网页中的信息内容按日期、标题、作者、栏目进行提取，过滤网页中的无用信息。扩展抓取采集范围可以精确到特定网站、特定栏目、特定页面、特定区域。2.易用性好易用性好系统参数设置简单，一次设置多次使用。采用精确抓取时针对不同用户应用要求，可设定“所见即所得”的拖拽选取信息内容方式。设置过程直观、便捷。系统插件丰富，可以对信息进行不同的修正，输出到不同数据格式，多种数据库。11 / 13 文档可自由编辑打印3.灵活性强灵活性强系统具有很强的灵活性，可按需选择目标站点，并根据形势的变化，随时更换目标站点。用户可直接到某一网站抓取用户想要的特定栏目下的信息，它仅仅要求用户设定特定的抓取条件，用户需要的内容就会自动被抓取和保存下来，从而实现由用户上网找信息转变为信息自动流向用户的方式。4.实施部署容易实施部署容易系统用户界面友好，抓取服务器在任意平台下运行，实施部署过程简单，即装即用。系统稳定性很高，可以在 “7 天24 小时” 运行模式下长时间地运行。5.采集内容全面采集内容全面适应网站内容格式的多变性，能完整地获取需要采集的页面，遗漏少，网页采集内容的完整性在 99% 以上。6.抓取速度快抓取速度快系统支持多线程处理技术，支持运行多条线程的同时抓取。可快速高效地对目标站点或栏目进行信息采集，大大加快了信息的抓取速度，保证在同等单位时间内信息的抓取量成倍数增长。7.性能指标性能指标如果以每台服务器运行10个采集进程，带宽在1M为准。在数据源网站不存在带宽瓶颈的情况下，每小时采集大概7万个网页。对于大量的数据，建议采用分布式的服务器群进行采集。12 / 13 文档可自由编辑打印七七. 维护管理监控维护管理监控系统安装完毕后，维护主要通过基于 WEB 的采集管理平台。可以通过管理平台创建分配采集任务，监控每台服务器的运行状态，采集数据的统计，以及性能分析。根据分析结果可以调整服务器的运行配置，以便于更充分的利用硬件资源。数据源网站的采集配置采用分用户的管理方式，用户分三种角色: 采集配置角色，任务分配角色，系统管理角色。采集配置角色采集配置角色用户可以配置管理自己的采集工程，配置完成的工程才可以提交给任务分配角色。任务分配角色任务分配角色对采集配置角色提交上来的工程进行测试，测试成功后分配给采集服务器处理，否则驳回，另外具有服务器运行状态，数据统计，性能分析等权限，可以根据分析结果进行采集任务分配。系统管理角色系统管理角色具有以上两者所有权限，并具有用户帐号管理，系统参数数据管理等所有权限。另外对系统的稳定性和准确性采取如下措施：进程监控：进程监控：对采集进程和管理进程的监控，采取在管理服务器定期对每个服务器进行检查的方式，发送一个检查指令，判断某台采集服务器上这两个进程的运行状态，出现异常则报警。采集监控：采集监控：为了防止目标网站的网页模板变化，采取对采集结果进行监控的方式，如果长时间没有数据采集成功，则进行报警。也可以通过命令服务进程检查每个采集任务的状态。13 / 13 文档可自由编辑打印八八. 名词解释名词解释爬虫配置爬虫配置 - 爬虫使用的规则配置。解析配置解析配置 - 解析使用的规则配置。网页爬虫网页爬虫 - 把指定网站的网页按爬虫配置下载到本地的程序。网页解析网页解析 - 对下载到本地的网页按解析配置进行解析的程序。采集任务采集任务 - 由爬虫配置和解析配置组合成的采集规则。管理进程管理进程 - 运行在各个采集服务器，接收采集管理平台命令，进行采集任务的管理和状态反馈。采集进程采集进程 - 运行在各个采集服务器提供的采集服务的进程，通过管理进程与管理平台进行交互。采集管理平台采集管理平台 - 负责其他所有采集进程的管理和任务分配，采集任务的创建管理。与其他采集进程通过管理进程进行通讯。采集服务器采集服务器 - 运行采集进程的服务器硬件。管理服务器管理服务器 - 运行采集管理平台的服务器硬件。输出插件输出插件 - 采集到的结果输出调用的插件。修正插件修正插件 - 对采集到的数据进行修正或者重组的插件。九九. 系统环境系统环境要求要求软件：软件：跨平台，对操作系统无要求，建议使用 linux/unix 操作系统，安全稳定可靠。 JVM 5.0 或以上。硬件：硬件：硬件要求低，能运行 java 虚拟机即可。建议高带宽，内存 512 以上，硬盘 70G(根据采集站点的大小决定)以上。

展开阅读全文

侵略者网页数据采集系统技术白皮书

最新文档