火车头采集器初学者入门教程.pptx

上传人:zhu****ei 文档编号:3421208 上传时间:2019-12-14 格式:PPTX 页数:45 大小:1.95MB
返回 下载 相关 举报
火车头采集器初学者入门教程.pptx_第1页
第1页 / 共45页
火车头采集器初学者入门教程.pptx_第2页
第2页 / 共45页
火车头采集器初学者入门教程.pptx_第3页
第3页 / 共45页
点击查看更多>>
资源描述
火车头采集器使用流程说明,主讲人:刘崇秀QQ:2415290,目录,一、软件下载二、新建站点三、采集网址四、采集内容五、其他功能,火车头采集器官网地址为:最新版本为8.4,可以从官网下载到,下载地址:如不会安装apache、mysql可以使用一键安装软件XAMPP:以下是本文中提到的其他一些软件的下载地址:phpmyadminnavicatformysql版软件需要破解注册码:NAVH-WK6A-DMVK-DKW3名称和组织不用填写,一、软件下载,火车头采集器有付费版和免费版,免费版基本能满足需求。下面内容是以免费版功能进行的讲解。打开火车头软件出现如何界面,由于使用的是免费版本,不用修改,点击登录即可。,运行火车头采集器,打开火车头软件,界面如下图:,二、新建站点,第一步:根据需要建立分组或任务,任务需要建立在分组之下(如下图),二、新建站点,二、新建站点,第二步:点击“新建站点”后出现如下界面。填写任务名称,点击起始网址区域右侧“添加”按钮后,根据需求选择添加采集网址模式,这里我们先选择“批量/多页”为例:,三、采集网址,三、采集网址,以抓取慧聪业界动态,通过观察页脚网址参数变化,可以看到下方网址中标红部分数字随着页数大小发生了变动,随意复制其中一个网址,例如下方网址,三、采集网址-批量/多页,在地址格式中输入刚才复制的网址,框选中变动的数字,点击右侧的(*)符号会自动输入页码变动符号。由于该网址采用数字等差数列,在“等差数列”右侧首项输入想要采集的起始ID页数,“项数”右侧输入一共要采集的数量,一般为最后页码数。查看下方预览区域中网址是否正确,如正确点击“添加-完成”按钮。如果添加后发现有错误,可用鼠标点击完成下方的网址,选择删除即可。,三、采集网址单挑网址,在“单挑或多条网址”区域下方输入要采集的网址(一行一个),点击添加“按钮完成”按钮,完成添加。,三、采集网址文本导入,有时我们知道要采集的网址,或者有时用程序批量生成要采集的网址可以用“文本导入”功能。下面是在文本编辑器中输入范例中的部分网址的示例,接着我们把这部分网址导入到火车头采集器中,作为采集目标源。,三、采集网址文本导入,点击“浏览”按钮,找到自己想要导入的文本文件,点“确定”按钮返回该窗口,点击“添加-完成”按钮完成添加任务。,三、采集网址,点击“完成”按钮,则出现以下类似界面,起始网址处可以看到新添加的要采集的网址:,三、采集网址-多级网址获取,如果要获取的信息是在这个页面中的链接,就需要设定“多级网址获取”。点击“多级网址获取”右侧的“添加”按钮。,三、采集网址-多级网址获取,为了更精准获取要采集的网址,会设定在页面某区域中获取相关网址。以第一页为例,可以看到网址截取区域开始以及结尾页面的内容。,网址截取区域开始,网址截取区域结尾,三、采集网址-多级网址获取,查看页面源代码,我们以“业界动态”快速定位到要抓取网址区域开始附近,通过代码分析,可以判断出标红区域中代码为唯一代码(必须为唯一代码,否则抓取内容会不准确),标记为开始内容。同理可以获取到页尾代码:,三、采集网址-多级网址获取,1、从网页自动分析得到地址链接:在方框内输入刚才判断的截取区域开始和结束代码,点击“保存”按钮。如想测试采集的网址效果,点击右下角的“测试网址采集”。如确定信息正确点击“保存”按钮。,三、采集网址-手动填写链接地址规则,2、手动填写链接地址规则:与“从页面自动分析获得地址链接”模式多了一块功能区域。从网页源代码中我们可以看到每篇文章的源代码大体如下:O2O+会员营销,千亿盛宴你准备好了吗?11月10日18:54其中粗体红色、蓝色为变动值,框住网址部分,点右侧的“参数”替换网址,“实际连接”处由于网址采用相对路径,需要手工加上前面域名和路径(如链接地址是完整的,可以忽略执行这一步。)其他变动信息用(*)替换掉。页面中可能还有部分要采集的数据,可以用“标签:XXX”获取,该内容会自动传递到下一步的标签里,这里加过的标签不用出现在下一步中。,三、采集网址-测试网址采集,如果点击了前面的“测试网址采集”按钮,显示如下图相关界面。可以通过点击左侧的“+”看该网址下面的链接,可以用右侧的导出功能导出相关网址。一般在左侧选择中要采集的网址,在右侧选择“导出同级节点”。可以选择左侧网址,点击右侧“浏览网页”预览页面。点击“测试该页”可以进入内容采集预览页。如需退出点击“返回修改设置”按钮。,三、采集网址网址过滤,在采集过程中遇到不需要采集的文章,可以通过“不得包含”功能将其过滤掉。为了缩小采集范围可以使用“必须包含”功能。,三、采集内容,正确获取网址后,点击“第二步:采集内容规则”就可以进入采集内容模块了。,三、采集内容,使用左侧的添加、修改、删除按钮修改标签对应的内容。点击“”、“”箭头可以进行标签名称排序。右侧“规则测试”区域可以在典型页面输入测试网址,也可以通过前面测试页面功能自动导入进相应页面地址。点击右侧“测试”按钮,选择“第二步:采集内容规则”后,出现如下界面。,三、采集内容分页获取,以,三、采集内容分析需要采集字段,从对方页面上判断需要采集的内容,以,三、采集内容标签修改,“标签名”右侧输入标签名字。特殊情况下勾选右侧相应匹配项,该例子中用到的是第二项。提取数据方式本例采用的是前后截取模式,分别在左右两个标红区域填入开始、结尾唯一标示字符串。,三、采集内容内容替换,数据处理处可以点击“添加”新增处理模式,主要用到类型有“内容替换”、“HTML标签过滤”2种。,点击左侧添加,在“内容替换”区域左侧输入相应字符串,右侧“替换为”输入替换后的内容,本例替换为空,故没有内容。添加完毕按“确定”按钮提交。使用“删除”键可以删除选中的数据处理模式。使用“”、“”箭头可以进行数据处理顺序排序。,三、采集内容文件下载选项配置,少量时候会涉及图片或文件下载,这就需要勾选右下角相应配置:免费版只需勾选“将相对地址补全为绝对地址”,三、采集内容HTML标签过滤,“HTML标签过滤”可以替换掉您不想采集到的相应html代码,例如对方页面中关键词链接、iframe、文字标红等等,具体可以根据实际需要进行勾选。一般我会选择“链接”、“字体”、“去除首位空白符”、“框架”4项。,三、采集内容正则提取,提取数据方式除了“前后截取”以外,还有其他几种,常用只使用“正则提取”模式。以下是正则提取样例,大家可以和“前后截取”例子看看之间有什么差别。正则截取常用在复杂的内容提取上,由于内容复杂不容易懂,这里不再赘述。,三、采集内容正则提取,除了“通过采集得到数据”模式以外,还可以使用“自定义固定格式的数据”,这里我们常用的是“固定的字符串”、“随机抽取信息”2种。“固定的字符串”可以把标签固定写死成某个字符串。“随机抽取信息”主要用于采集完文章后随机生成作者或发布人姓名一类。,四、内容发布存成文件格式,进入第三步:发布内容设置可以看到如下界面。软件提供了3种导入数据方案,由于公司目前没有提供web网站,因此主要使用方式二和三。下面截图中红色区域是数据存成文件模式的基本配置。文件存成的格式免费版只能存成TXT、HTML、CSV3种模式,WORD、EXCEL需要付费。TXT模板可以使用系统默认。HTML系统自带模板没有写网页字符模式造成输出成乱码,请使用我提供的模板,使用中需要查看采集网站的字符格式,并更改系统配置以及HTML模板中字符格式。CSV默认模板打开后是乱码,需要使用文本编辑器打开修改模板,第一行是字段名,第二行字段值,编辑好后另存为以utf-8编码保存。如果要输出excel表格,可以用csv格式输出。,四、内容发布导入到自定义数据库,点击“方式三”下方的“数据库发布配置管理”链接,看到如下界面:,四、内容发布导入到自定义数据库,如是建立好的配置,双击左侧配置列表或点击下方编辑按钮即可。如要新建入库配置,先点击左侧“新建”按钮,再点击右上方“新建”按钮。在下一页里可以看到相应页面图。,四、内容发布导入到自定义数据库,选择数据库类型为您使用的数据库种类,一般使用“Mysql”、“SQLServer”,具体根据您安装的数据库种类决定。点击右侧的“INSERT语句示例”链接,可以看到上方自动插入了一些已经写好的数据库写入语句。请根据已经建立好的数据库表结构修改“Table_Name”中字段,VALUES后标签则是“第二步:采集内容规则”里的标签内容。修改好后点“保存模块”,输入保存名称点“保存”,弹出“成功保存”窗口,点“确定”。关闭“数据库模块编辑器”。,四、内容发布导入到自定义数据库,插入的语句下方有3排内容,如下图。主要用到“常用标签”和“系统标签”。系统标签主要用到“采集页网址”,可以插入从哪个页面采集相应数据。“文章编号:表名XXX”用于插入数据后获取最后一条信息的ID号,这样可以利用该ID号执行新的select、update中包含该文章编号的“whereid=xxx”语句。,四、内容发布导入到自定义数据库,以下是比较复杂的SQL插入语句例子。INSERTINTOceshi(gongsimingcheng,lianxiren,shoujihaoma,dianhuahaoma,chengxintongnianfen,jingyingdizhi,zhuyinghangye,jingyingmoshi,zhuceziben,gongsichenglishijian,gongsizhucedi,qiyeleixing,fadingdaibiaoren,zhuyaoxiaoshouquyu,zhuyaokehuqunti,nianyingyee,fuwulingyu,yuangongrenshu,dangqianwangzhi,xingbie,chuanzhen,dizhi,youbian,gongsizhuye,gongsizhiwei,suozaidiqu,aliwangwang)VALUES(标签:公司名称,标签:联系人,标签:联系电话,标签:固定电话,标签:诚信通年份,标签:经营地址,标签:主营行业,标签:经营模式,标签:注册资本,标签:公司成立时间,标签:公司注册地,标签:企业类型,标签:法定代表人,标签:主要销售区域,标签:主要客户群体,标签:年营业额,标签:服务领域,标签:员工人数,标签:当前网址,标签:性别,标签:传真,标签:地址,标签:邮编,标签:公司主页,标签:部门职位,标签:所在地区,标签:阿里旺旺),四、内容发布导入到自定义数据库,以下MYSQL数据库对应建立数据库的大概语句例子,需要对数据库有一定了解。可以用phpmyadmin或Navicat等图形数据库管理工具来处理。CREATETABLEalibaba(gongsiidhaoint(10)NOTNULLAUTO_INCREMENT,gongsimingchengchar(255)NOTNULL,lianxirenchar(255)DEFAULT,shoujihaomachar(255)DEFAULT,dianhuahaomachar(255)DEFAULT,chengxintongnianfenchar(255)DEFAULT,jingyingdizhichar(255)DEFAULT,zhuyinghangyemediumtext,jingyingmoshichar(255)DEFAULT,zhucezibenchar(255)DEFAULT,gongsichenglishijianchar(255)DEFAULT,PRIMARYKEY(gongsiidhao),UNIQUEKEYgongsimingcheng(gongsimingcheng)USINGBTREE)ENGINE=MyISAMAUTO_INCREMENT=0DEFAULTCHARSET=gbk;,四、内容发布导入到自定义数据库,数据库结构可以用phpmyadmin或Navicat等图形数据库管理工具来处理。,四、内容发布导入到自定义数据库,为了加快采集速度,可以修改“文件保存及部分高级设置”配置如下图。,四、内容发布导入到自定义数据库,配置完毕后,返回程序主界面,点中要采集的任务名称,勾选右侧要执行的任务,点击“开始”按钮就可以开始采集任务了。到此主要配置工作已经完成。,五、其他功能重新采集其他数据,有时需要重新采集数据,由于系统默认采集过的数据不再进行采集。为了能重新采集相应数据,需要点击程序主界面要采集的任务,点击鼠标右键,分别选择“清空任务所有采集数据”、“清空该任务网址库”两项。如果之前采集数据过多,这项工作可能会处理较长时间。,五、其他功能导出任务,如果希望备份任务,可以在主菜单选中要导出的任务名称,按鼠标右键点击“导出任务”,选择要备份的位置点确定即可。,五、其他功能导入任务,如果希望导入任务,可以在主菜单选中要导入的分组名称,按鼠标右键点击“导入任务至该分组”,浏览找到要导入的文件位置,文件后缀为“ljobx”或“ljob”,点确定导入即可。,ENDTHANKS!,
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!