第6章-文本数据可视化课件

上传人:风*** 文档编号:252274192 上传时间:2024-11-14 格式:PPTX 页数:29 大小:2.08MB
返回 下载 相关 举报
第6章-文本数据可视化课件_第1页
第1页 / 共29页
第6章-文本数据可视化课件_第2页
第2页 / 共29页
第6章-文本数据可视化课件_第3页
第3页 / 共29页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2021/3/8,#,第,6,章 文本,数据可视化,第6章 文本数据可视化,1,文本数据可视化概述,综合多种学科,帮助人们理解复杂文本内容、结构、和内在规律,,提取出最能代表文本的信息,并进行可视化。,文本数据可视化概述,2,本章要点,文本数据在大数据中的应用及提取,使用网络爬虫提取文本数据,关键词可视化,时序文本可视化,文本分布可视化,文本关系可视化,未来文本可视化主题,本章要点文本数据在大数据中的应用及提取,3,文本数据在大数据中的应用及提取,海量的文本数据,人类社会不断积累文本信息,在计算机时代大量数据可以存储在一块很小的硬盘中。,在互联网上,每天都有海量的,“用户生成内容”。,文本数据在大数据中的应用及提取,4,文本数据在大数据中的应用及提取,面临的难题,人们接收信息的速度已经小于信息产生的速度,尤其是文本信息,海量信息使人们处理和理解的难度日益增大,传统的文本分析技术提取的信息仍然,无法满足人们利用浏览及筛选等方式对其进行合理的分析理解和应用。,文本数据在大数据中的应用及提取面临的难题,5,简单实用的文本可视化,简单实用的文本可视化,6,文本数据在大数据中的应用及提取,文本可视化的重要作用,通过视觉符号的形式表达文本内容,便于人们快速理解文本信息,将无结构的文本信息自动转换为可视的有结构信息。,使人类视觉认知、关联、推理的能力得到充分的发挥。,结合,机器智能和人工智能,,为人们更好的理解文本和发现知识听过了新的有效途径。,文本数据在大数据中的应用及提取文本可视化的重要作用,7,文本数据在大数据中的应用及提取,文本可视化的应用,从人文研究到政府决策,从精准医疗到量化金融,从客户管理到市场营销,这些海量的文本作为最重要的信息载体之一,处处发挥着举足轻重的作用,情报分析人员、网络内容分析人员、情感分析或文学研究者等相关职业更需要文本可视化。,文本数据在大数据中的应用及提取文本可视化的应用,8,文本数据在大数据中的应用及提取,大数据中文本可视化基本流程,原始文本,文本分析,文本预处理,文本特征抽取,文本特征度量,可视化呈现,图元设计,图元布局,用户认知,交互设计,文本数据在大数据中的应用及提取大数据中文本可视化基本流程原始,9,文本数据在大数据中的应用及提取,文本分析内容,文本可视化依赖于自然语言处理,因此词袋模型、命名实体识别、关键词抽取、主题分析、情感分析等是较常用的文本分析技术。过程主要包括:,文本数据预处理,过滤无效信息,特征提取,,提取出文本词汇及的内容,以灵活有文本特征的度量,分析分本间相似性、文本聚类等,表示这些过程处理过的数据,文本数据在大数据中的应用及提取文本分析内容,10,文本数据在大数据中的应用及提取,可视化呈现及用户感知,(,1,)信息图,1,.,文本内容,的视觉编码主要涉及尺寸、颜色、形状、方位、文理等,2.,文本间关系,的视觉编码主要涉及网络图、维恩图、树状图、坐标轴等。,3.,选择合适的视觉编码呈现文本信息的各种特征,(,2,)交互,高亮、缩放、动态转换、关联更新等,文本数据在大数据中的应用及提取可视化呈现及用户感知,11,文本数据在大数据中的应用及提取,文本理解需求等级,及对应挖掘方法,词汇级(,Lexical Level,),各类分词算法,语法级(,Syntactic Level,),语句分析算法,语义级(,Semantic Level,),主题提取算法,文本数据在大数据中的应用及提取文本理解需求等级及对应挖掘方法,12,文本数据在大数据中的应用及提取,文本数据,单文本,文档集合,时序文本数据,文本可视化,文本内容的可视化,文本关系的可视化,文本多层面信息的可视化,文本数据大致可分为三种:单文本、文档集合和时序文本数据。对应的文本可视化也可分为三类:,文本内容可视化,文本关系可视化,文本多层面信息的可视化,文本数据在大数据中的应用及提取文本数据单文本文档集合时序文本,13,使用网络爬虫提取文本数据,网络爬虫(,Web Crawler,)是指一类能够自动化访问网络并抓取某些信息的程序,有时候也被称为“网络机器人”。它们最早被应用于互联网搜索引擎及各种门户网站的开发中,现在也是大数据和数据分析领域中的重要角色。爬虫可以按一定逻辑大批量采集目标页面内容,并对数据做进一步的处理,人们借此能够更好更快的获得并使用他们感兴趣的信息,从而方便地完成很多有价值的工作。,使用网络爬虫提取文本数据网络爬虫(Web Crawler)是,14,使用网络爬虫提取文本数据,大部分编程语言都可以实现爬虫程序的编写,也有部分商业软件提供爬虫服务。目前比较流行的就是用,Python,编写爬虫,有大量的第三方库可以使用,常见的有,Request,、,urlib,、,Scrapy,等。其中,Scrapy,库提供了比较完善的爬虫框架,如图所示,可以省去很多麻烦。,使用网络爬虫提取文本数据大部分编程语言都可以实现爬虫程序的编,15,文本内容可视化,一段文本的内容可以用高频词、短语、句子、主题等代表,但是文本可视化遇到的任务通常是对有海量文本的集合进行可视化分析,针对不同类型的文本集合,我们有不同的方法来进行可视化分析。,文本内容可视化一段文本的内容可以用高频词、短语、句子、主题等,16,关键词可视化,关键词可视化,17,关键词可视化,标签云,按照一定规律将这些词展示出来,可以用颜色透明度的高低、字体的大小来区分关键词的重要程度,要遵循权重越高越能吸引注意力的原则。一般权重越大字体越大,颜色越鲜艳,透明度越低,关键词可视化标签云,18,第6章-文本数据可视化课件,19,关键词可视化,文档散,文档散使用词汇库中的结构关系来布局关键词,同时使用词语关系网中具有上下语义关系的词语来布局关键词,从而揭示文本内容。上下语义关系是指词语之间往往存在语义层级的关系,也就是说,一些词语是某些词语的下义词。而在一篇文章中,具有上下语义关系的词语一般是同时存在的。,关键词可视化文档散,20,时序文本可视化,时序文本具有时间性和顺序性,比如,新闻会随着时间变化,小说的故事情节会随着时间变化,网络上对某一新闻事件的评论会随着真相的逐步揭露而变化。对具有明显时序信息的文本进行可视化时,需要在结果中体现这种变化。,时序文本可视化时序文本具有时间性和顺序性,比如,新闻会随着,21,时序文本可视化,主题河流法,主题河流(,Themeriver,)是由,Susan Havre,等学者于,2000,年提出的一种时序数据可视化方法,主要用于反映文本主题强弱变化的过程。,右图所示的主题河流可视化示例,横轴表示时间,河流中的不同颜色的涌流表示不同的主题,涌流的流动表示主题的变化。在任意时间点上,涌流的垂直宽度表示主题的强弱。,时序文本可视化主题河流法,22,文本关系可视化,文本关系包括文本内或者文本间的关系,以及文本集合之间的关系,文本关系可视化的目的就是呈现这些关系。,文本内的关系有词语的前后关系;,文本间的关系有网页之间的超链接关系,文本之间内容的相似性,文本之间的引用等;,文本集合之间的关系是指文本集合内容的层次性等关系。,文本关系可视化文本关系包括文本内或者文本间的关系,以及文本集,23,文本关系可视化,基于图的文本关系可视化,词语树是使用树形图展示词语在文本中的出现情況,可以直观地呈现出一个词语和其前后的词语。用户可自定义感兴趣的词语作为中心节点。中心节点向前扩展,就是文本中处于该词语前面的词语;中心节点向后扩展,就是文本中处于该词语后面的词语。字号大小代表了词语在文本中出现的频率。如图所示,图中采用了词语树的方法来呈现一个文本中,Child,这个词与其相连的前后所有的词语。,文本关系可视化基于图的文本关系可视化,24,文本关系可视化,基于图的文本关系可视化,短语网络包括以下两种属性。节点,代表一个词语或短语。带箭头的连线,表示节点与节点之间的关系,这个关系需要用户定义,比如,“,AisB“,,其中的,is,用连线表示,,A,和,B,是,is,前后的两个节点词语。,A,在,is,前面,,B,在,is,后面,那么箭头就由,A,指向,B,。连线的宽度越宽,就说明这个短语在文中出现的频率越高。图中使用短语网络对某小说中的“*,the*”,关系进行可视化。,文本关系可视化基于图的文本关系可视化,25,文本关系可视化,文档间关系可视化,当对多个文档进行可视化展示时,针对文本内容进行可视化的方法就不适合了。此时可以引人向量空间模型来计算出各个文档之间的相似性,单个文档被定义成单个特征向量,最终以投影等方式来呈现各文档之间的关系。,文本关系可视化文档间关系可视化,26,文档间关系可视化,星系视图,星系视图(,Galaxy View,)可用于表征多个文档之间的相似性。假设一篇文档是一颗星星,每篇文档都有其主题,将所有文档按照主题投影到二维平面上,就如同星星在星系中一样。文档的主题越相似,星星之间的距离就越近;文档的主题相差越大,星星之间的距离就越远。星星聚集得越多,就表示这些文档的主题越相近,并且数量较多;若存在多个聚集点则说明文档集合中包含多种主题的文档。,文档间关系可视化星系视图,27,文档间关系可视化,文档集抽样投影,当一个文档集中包含的文档数量过大时,投影出来的星系视图中就会产生很多重叠的星星。为了避免这种重叠情况的出现,用户可以对文档集进行抽样,有选择性地抽取部分文档进行投影,这样可以更加清晰地显示每个样本。,文档间关系可视化文档集抽样投影,28,未来文本可视化主题,交互式增量文本分析,多层次可视文本总结(关键词,+,句子),多方面的文本分析(例如,总结,+,情感分析),多媒体文档摘要(文本,+,图像,+,视频),互动、可视的社交媒体分析,未来文本可视化主题交互式增量文本分析,29,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!