《大数据》配套之九:第8章-互联网大数据处课件

上传人:沈*** 文档编号:253140559 上传时间:2024-11-29 格式:PPTX 页数:48 大小:8.03MB
返回 下载 相关 举报
《大数据》配套之九:第8章-互联网大数据处课件_第1页
第1页 / 共48页
《大数据》配套之九:第8章-互联网大数据处课件_第2页
第2页 / 共48页
《大数据》配套之九:第8章-互联网大数据处课件_第3页
第3页 / 共48页
点击查看更多>>
资源描述
,全国高校标准教材,云计算,姊妹篇,剖析大数据核心技术和实战应用,大数据,刘鹏主编张燕张重生张志立副主编,BIG,教授,清华大学博士。现任南京大数据研究院院长、中国信息协会大数据分会副会长,、中国大数据技术与应用联盟副,理事长。,主持完成科研项目,25,项,发表论文,80,余篇,出版专业书籍,15,本。获部级科技进步二等奖,4,项、三等奖,4,项。主编的,云计算,被全国高校普遍采用,被引用量排名中国计算机图书第一名。创办了知名的中国云计算(,)和中国大数据(,)网站。,曾率队夺得,2002 PennySort,国际计算机排序比赛冠军,两次夺得全国高校科技比赛最高奖,并三次夺得清华大学科技比赛最高奖。,荣获“全军十大学习成才标兵”(排名第一)、南京“十大杰出青年”、江苏省中青年科学技术带头人、清华大学“学术新秀”等称号。,刘 鹏,第八章互联网大数据处理,8.1,互联网信息抓取,8.2,文本分词,8.3,倒排索引,8.4,网页排序算法,全国高校标准教材,云计算,姊妹篇,剖析大数据核心技术和实战应用,of,41,3,8.5,历史信息检索,习题,8.1,互联网信息抓取,第八章 互联网大数据处理,8.1.1,概述,of,41,4,互联网信息自动抓取,最常见且有效的方式是使用网络爬虫。,爬虫可以被分为两类:,一类叫作“通用爬虫”;,另一类叫作“聚焦爬虫”。,目前成熟的网络爬虫有很多,其中不乏Googlebot、百度蜘蛛这样的广分布式多服务器多线程的商业爬虫和GNU Wget、Apache Nutch这样的灵活方便的开源爬虫,搜索引擎,。,8.1,互联网信息抓取,第八章 互联网大数据处理,8.1.1,概述,of,41,5,目前成熟的网络爬虫有很多,其中不乏Googlebot、百度蜘蛛这样的广分布式多服务器多线程的商业爬虫和GNU Wget、Apache Nutch这样的灵活方便的开源爬虫(爬虫搜索引擎)。,百度蜘蛛对某网站的抓取频率,8.1,互联网信息抓取,第八章 互联网大数据处理,8.1.2Nutch,爬虫,of,41,6,Nutch,爬虫的部署与使用,Nutch版本的选择,NO.1,Nutch工作环境,NO.2,NO.3,Nutch的安装与配置,NO.4,Nutch的简单使用,8.1,互联网信息抓取,第八章 互联网大数据处理,of,41,7,Nutch1.x是基于Hadoop集成环境的,Nucth的数据是存储在HDFS上的。Nutch2.x是基于Apach Gora的,Nutch可以访问HBase、Cassandra、MySQL等,所以,在编译Nutch之前,需要先安装HBase,另外Nutch的编译需要ant命令,所以,在编译Nutch之前还要安装Ant。,Nutch版本的选择,8.1.2Nutch,爬虫,8.1,互联网信息抓取,第八章 互联网大数据处理,of,41,8,Nutch工作环境,:,(1)Nutch仅支持在Linux系统下使用,本书使用的是Ubuntu 14.04.3 LTS,若要在Windows下使用Nutch,需要安装模拟Linux操作系统的软件Cygwin。,(2)JDK:本书使用的是jdk-8u51-linux-x64.tar.gz。,(3)HBase:可从网上下载最新版。,(4)Ant:本书使用的是apache-ant-1.9.6-bin.tar.gz。,(5)Nutch-2.2.1:可在Nutch官方网站下载最新版本的Nutch。,(6)Tomcat:本书使用的是apache-tomcat-8.0.24.tar.gz。,8.1.2Nutch,爬虫,8.1,互联网信息抓取,第八章 互联网大数据处理,of,41,9,JDK的安装与配置,下载并解压HBase,Ant的安装与配置,Nutch的安装与配置,将Nutch和Solr集成在一起,Nutch的安装与配置,应该包括下面,5,个部分:,8.1.2Nutch,爬虫,8.1,互联网信息抓取,第八章 互联网大数据处理,of,41,10,一站式抓取,进入apache-nutch-2.2.1/runtime/local目录查看一站式抓取命令。,分布式抓取,可以分为,2,步:Nutch数据文件夹组成和生成抓取列表。,Nutch的简单使用,8.1.2Nutch,爬虫,8.1,互联网信息抓取,第八章 互联网大数据处理,8.1.3,案例:招聘网站信息抓取,of,41,11,考虑如下场景:现在需要通过调查全国所有公司的规模和分布情况,来评估每个省份的经济实力。我们要做的第一步就是数据的收集工作。可以通过编写爬虫程序,自动进行数据收集工作,,特别是从招聘网站上的公司介绍页面获取数据,。,Nutch查询界面,8.1,互联网信息抓取,第八章 互联网大数据处理,of,41,12,1.,采用聚焦爬虫,2.,生成,“种子”,3.依次打开每一个URL,得到页面HTML,4.对HTML进行解析,提取需要的信息,5.,使用多线程,使用Python实现简单的聚焦爬虫来完成这项任务,8.1.3,案例:招聘网站信息抓取,8.1,互联网信息抓取,第八章 互联网大数据处理,8.1.4,案例:舆情信息汇聚,of,41,13,通常情况下,网络舆情监控系统由采集层(舆情采集模块)、分析层和呈现层(分析浏览模块)实现。,可通过网络信息自动抓取等技术手段,便捷、高效地获取与自己相关的网络舆情,不仅信息保真,而且覆盖全面。通过网络舆情监控系统最终形成专题简报、专题追踪、舆情简报等,为全面掌握网络舆情动态,正确引导舆情动向,提供了可靠、有力的数据分析依据。,舆情监控系统架构,8.1,互联网信息抓取,第八章 互联网大数据处理,of,41,14,抓取河南大学新闻网新闻主题,河南大学新闻网页关键信息提取,河南大学新闻网页关键字检索,8.1.4,案例:舆情信息汇聚,第八章互联网大数据处理,8.1,互联网信息抓取,8.2,文本分词,8.3,倒排索引,8.4,网页排序算法,全国高校标准教材,云计算,姊妹篇,剖析大数据核心技术和实战应用,of,41,15,8.5,历史信息检索,习题,8.2,文本分词,第八章 互联网大数据处理,8.2.1,概述,of,41,16,文本分词是将字符串文本划分为有意义的单位的过程,如词语、句子或主题。,中文分词也叫作切分,是将中文文本分割成若干个独立、有意义的基本单位的过程。,定,义,分词算法基本的工作原理是根据输入的字符串文本进行分词处理、过滤处理,输出分词后的结果,包括英文单词、中文单词及数字串等一系列切分好的字符串。,分词原理图,8.2,文本分词,第八章 互联网大数据处理,of,41,17,1,2,3,基于字符串匹配的分词方法,它是将待处理的中文字符串与一个“尽可能全面”的词典中的词条按照一定的规则进行匹配,若某字符串存在于词典中,则认为该字符串匹配成功。,基于统计的分词方法,由于词是特定的字组合方式,那么在上下文中,相邻的单字共同出现的频率越高,则在该种字组合方式下就越有可能是构成了一个词。,基于理解的分词方法,该方法通过语义信息和语句信息来解决歧义分词问题,并且在分词的同时进行语义和句法分析。,现有的中文分词算法可以分为以下3类:,8.2.1,概述,8.2,文本分词,第八章 互联网大数据处理,of,41,18,分词方法,基于字符串,基于理解,基于统计,歧义识别,差,强,强,新词识别,差,强,强,词库,需要,不需要,不需要,语料库,不需要,不需要,需要,规则库,不需要,需要,不需要,算法复杂性,容易,很难,一般,技术成熟度,成熟,不成熟,成熟,实施难度,容易,很难,一般,分词准确度,一般,准确,较准,分词速度,快,慢,一般,各种分词方法的优劣对比表,8.2.1,概述,8.2,文本分词,第八章 互联网大数据处理,8.2.2,MMSEG分词工具,of,41,19,取最大匹配的Chunk,取平均词长最大的Chunk,取词长标准差最小的Chunk,取单字词自由语素度之和最大的Chunk,MMSEG分词算法中有两个重要的概念:Chunk和规则(Rule)。其中,一个Chunk就是一段字符串文本的一种分割方式,包括根据上下文分出的一组词及各个词对应的4个属性。规则的目的是过滤掉不符合特定要求的Chunk。为便于理解,我们可以将规则看做过滤器。,MMSEG分词算法中包含了4种符合汉语语言中基本的成词习惯的歧义消解规则。,8.2,文本分词,第八章 互联网大数据处理,of,41,20,属性,含义,长度(Length),Chunk中各个词的长度之和,平均长度(Average Length),长度/词数,标准差的平方(Variance),标准差的平方,自由语素度(Degree of Morphemic Freedom),各单字词词频的对数之和,Chunk中各属性及其含义,8.2.2,MMSEG分词工具,8.2,文本分词,第八章 互联网大数据处理,8.2.3,斯坦福NLTK分词工具,of,41,21,有些,文本的形成和变化过程与时间是紧密相关的,因此,如何将动态变化的文本中时间相关的模式与规律进行可视化展示,是文本可视化的重要内容。引入时间轴是一类主要方法,常见的技术以河流图居多。河流图按照其展示的内容可以划分为主题河流图、文本河流图及事件河流图等。,第八章互联网大数据处理,8.1,互联网信息抓取,8.2,文本分词,8.3,倒排索引,8.4,网页排序算法,全国高校标准教材,云计算,姊妹篇,剖析大数据核心技术和实战应用,of,41,22,8.5,历史信息检索,习题,8.3,倒排索引,第八章 互联网大数据处理,8.3.1,倒排索引原理,of,41,23,出现次数,文档,1,文档,2,文档,3,文档,4,词语,1,4,1,词语,2,3,4,词语,3,3,1,词语,4,3,9,如果使用一个矩阵来描述词语和文档之间的关系,不难得出如下“矩阵”。其中,每一列代表一个文档,每一行代表一个词语,每一个单元格代表“此文档中出现此词语的次数”。,矩阵中的第一列说明“在文档1中,词语1出现了4次、词语2和词语3均出现了3次,并且文档1中不再有其他词语出现”。同理,矩阵中的第一行则说明“词语1在文档1中出现在4次,在文档4中出现1次,在其他文档中不出现”。其他行列同理。,词语和文档的关系,8.3,倒排索引,第八章 互联网大数据处理,of,41,24,倒排索引可以使用这样一个Map来实现:每一个词语都是Map中的一个键(Key),这个键对应的Value是一个集合,里面保存着包含这个词语的文档的编号。存储形式为:Map value 。,同理,如果要在倒排索引中加入更多信息,可以在Value中增加记录项目。,倒排索引的数据结构,8.3.1,倒排索引原理,倒排索引使用的数据结构,可以在倒排索引的Value项里增加信息,8.3,倒排索引,第八章 互联网大数据处理,of,41,25,倒排索引的建立实例,假设现在有两篇文档,每篇文档的内容如下:,文档,内容,文档,1,The quick brown fox jumped over the lazy dog.,文档,2,Quick brown foxes leap over lazy dogs in summer.,其建立实例的步骤如下:,2.,去除无关词语,1.,文章本分词,3.,词语归一化,4.,建立词语-文档矩阵,5.,建立到排索引,8.3.1,倒排索引原理,8.3,倒排索引,第八章 互联网大数据处理,of,41,26,倒排索引的更新策略,01,先进行,“,文档暂存,”,,待文档暂存区达到一定数量后,对所有文档重新建立索引。,完全重建策略,02,新文档会立即被解析,解析结果会进行,“,索引暂存,”,,待索引,暂存区达到一定数量后,再将新旧索引合并。,再合并策略,04,其思想是混合地使用上述几种策略,取长补短,以达到最好的性能。,混合策略,03,新文档立刻被解析,解析结果立刻被加入旧索引中。,原地更新策略,8.3.1,倒排索引原理,8.3,倒排索引,第八章 互联网大数据处理,8.3.2,倒排索
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!