《数字信息资源处理》PPT课件.ppt

上传人:w****2 文档编号:16968250 上传时间:2020-11-05 格式:PPT 页数:32 大小:378KB
返回 下载 相关 举报
《数字信息资源处理》PPT课件.ppt_第1页
第1页 / 共32页
《数字信息资源处理》PPT课件.ppt_第2页
第2页 / 共32页
《数字信息资源处理》PPT课件.ppt_第3页
第3页 / 共32页
点击查看更多>>
资源描述
第 4章 数字信息资源处理 教学目标 了解数字信息资源的有效处理是数字图书馆支 撑技术之一 掌握相关信息资源处理所用到的技术,如 : 信息资源描述技术 元数据技术 分词技术 文本分类技术 信息抽取技术及其具体技术 教学要求 第 4章 数字信息资源处理 教学要求 能力要求 相关知识 信息资源描述 理解描述语言 理解元数据并能熟练应用 熟练应用 RDF资源描述框架 描述语言的演进 元数据的概念、类型及其功 能 其他描述语言 信息资源智能化处理 理解分词概念、方法 掌握经典分词算法优缺点 理解文本挖掘概念、过程理 解文本分类的定义、过程和 效果评估、及其应用 理解文档聚类、信息抽取与 自动文摘 了解词典分词方法、理解分 词方法、统计分词方法; 了解组合方法 了解歧义消除 了解未登录词 了解分词研究进展 了解研究难点与重点 信息资源存储 了解 DAS(直接连接存储)、 NAS(网络连接存储)、 FC- SAN(存储区域网络 )、 IP SAN-NAS、 IPSAN-iSCSI、云 存储 信息压缩 了解数据压缩的概念、算法、 研究进展 4.1数字信息资源描述与组织 描述语言及其发展 Web实现了网页的连通, Web改变了人们学习与生活方式。 HTML(超文本置标语言)技术拉 近了 Web与人们之间的距离,通过它很容易、方便地获得信息资源; HTML是 SGML( Standard Generalized Markup Language,标准通用置标语言)的一个实例 化的子集,可扩展性差,用户根本不能自定义有意义的置标供他人使用,这一切都成为 Web技术进一步发展的障碍,在这种情况下 XML顺应而生; 1969年, IBM公司就开发了一种文档描述语言 GML用来解决不同系统中文档格式不同的问题, GML是 IBM许多文档系统的基础,包括 Script和 Bookmaster, 1986年该语言演变成一个国际 标准( ISO8879),并被称为 SGML; SGML是很多大型组织,比如飞机、汽车公司和军队的文档标准,它是语言无关的、结构化的、可扩 展的语言,这些特点使它在很多公司受到欢迎,被用来创建、处理和发布大量的文本信息。 在 1989年,在 CERN欧洲粒子物理研究中心的研究人员开发了基于 SGML的超文本版本,被称为 HTML; HTML继承了 SGML的许多重要的特点,比如结构化、实现独立和可描述性,但是同时它也存在很多缺 陷:比如它只能使用固定的有限的标记,而且它只侧重于对内容的显示。同时随着 Web上数据的增多, 这些 HTML存在的缺点就变的不可被忽略。 W3C提供了 HTML的几个扩展用来解决这些问题,最后,它决定开发一个新的 SGML的子集, 称为 XML; XML的出现就是为了解决 HTML所存在的这些弊病。它保留了很多 SGML标准的优点,但是更加容易操作 和在 WWW环境下实现,在 1998年,它就变成了 W3C的标准。 XML有如下几个优势: 它允许各个组织、个人建立适合自己需要的置标集合,并且这些置标可以迅速地投入使用。这一 特征使得 XML可以在电子商务、政府文档、司法、出版、 CAD/CAM、保险机构、厂商和中介组织信 息交换等领域中一展身手,针对不同的系统、厂商提供各具特色的独立解决方案; XML的数据存储格式不受显示格式的制约。一般来说,一篇文档包括三个要素:数据、结构以及 显示方式。对于 HTML来说,显示方式内嵌在数据中,这样在创建文本时,要时时考虑输出格式, 如果因为需求不同而需要对同样的内容进行不同风格的显示时,要从头创建一个全新的文档,重 复工作量很大。此外 HTML缺乏对数据结构的描述,对于应用程序理解文档内容、抽取语义信息都 有诸多不便。 4.1数字信息资源描述与组织 元数据: 元数据概念与作用: 元数据( metadata)是关于数据的数据。哈佛大学数字图书馆项目对元数据的定义为:元 数据是帮助查找、存取、使用和管理信息资源的信息。元数据在数字图书馆中的主要作用是对 数字信息资源的组织和整序,亦即为分布式数据发现和检索奠定基础。 元数据功能: 描述功能 数字图书馆中的元数据描述功能有两个方面: 描述数字化信息的基本特征,使得数字化图书馆系统能够通过元数据体系自动搜索到数字化信息。 描述用户提问。 整合功能 所谓整合功能,指的是数字图书馆的元数据体系将各种不同格式的元数据,通过建立映 射、翻译等方法整合成一种元数据格式的过程,即实现不同格式元数据之间的互操作性,也是 一个异构数据库之间的整合过程。 控制功能 元数据体系的规范控制功能包括信息内容的规范化描述、规范标引和信息评估等方面。 元数据体系可以通过标准元数据模型来规范化描述数字信息。 代理功能 知道元数据本身也是替代记录,数字图书馆中的元数据体系同样具有代理功能。元数据 的代理功能可以有效地节省网络资源,这是因为元数据是数字化信息资源的一种描述,记 录了数字化信息资源的基本特征,可以基本反映信息的概貌,同时,元数据和数据相比, 其数据量要小得多,可以作为完整信息的代理。 4.1数字信息资源描述与组织 元数据类型 描述型元数据 持资源的发现和鉴别。题名、创造者、制作者、出版者、出版日期等都是典型 的描述型元数据。 管理型元数据 数字图书馆中通过它实现对数字信息资源的有效管理。传统图书馆中有关借阅 权限、馆藏地点等信息都是管理元数据的例子。 结构型元数据 结构型元数据反映数字信息资源的内部形式特征,如目录、段落、章节等,从 而实现对数字信息资源的结构化存取。 技术型元数据 数字图书馆是高新技术的集聚地,其作业环境是典型的技术环境。将各种技术 有效地应用于对数字信息资源的组织和管理,正是技术型元数据的功能和作用。 保存型元数据 保存型元数据是指支持数字化资源长期保存的数据。在数字图书馆中,关于数 字化信息资源发现与检索的元数据研究固然重要,关于支持信息资源长期保存的 元数据研究同样非常重要。无论人们试图以哪一种技术来解决数字化信息的长期 保存,都必须知道数字信息本身及其环境的一些技术特征,这便是保存型元数据 所揭示的内容特征。 4.1数字信息资源描述与组织 主要元数据 常见的应用于不同领域的 Metadata格式有: ( 1)网络资源: Dublic Core、 ROADS Template、 CDF(Channel Definition Format)、 WebCollections; ( 2)文献资料: MARC(with 856 Field), Dublic Core; ( 3)人文科学: TEI Header(Text Encoding Initiative Header); ( 4)社会科学数据集: ICPSR SGML Codebook (Inter-university Consortium for Political and Social Research); ( 5)博物馆与艺术作品: CIMI(Computer Interchange of Museum Information)、 CDWA(Categories for the Description of Works of Arts)、 RLG REACH Element Set; ( 6)视觉资料: VRA (Visual Resources Association) Core Categories for Visual Resources; ( 7)音乐资料: SMDL(Standard Music Description Language); ( 8)政府信息: GILS(Government Information Locator Service); ( 9)地理空间信息: FGDC/CSDGM(Federal Geographic Data Committee/Content Standards for Digital Geospatial Metadata); ( 10)数字图像: MOA2metadata、 CDL metadata、 Open Archives Format、 VRACore、 NISO/CLIR/RLG Technical Metadata for Images; ( 11)档案库与资源集合: EAD(Encoding Archival Description); ( 12)技术报告: RFC1807: A format for Bibliographic Records; ( 13) FTP文件和 FTP文件库: IAFA Templates (Internet Anonymous FTP Archives Templates); ( 14)连续图像: MPEG-7。 4.1数字信息资源描述与组织 以下主要阐述两种元数据: MARC与 DC MARC MARC为“机器可读的目录”,也称机读目录,起源于 1965年的美国,是计 算机能够识别和阅读的目录。 造成 MARC适用性日益降低的原因: 字段众多,重复严重 ; 技术过时 ; 著录规则不统一,语义含糊 ; 字段、子字段标识和结构复杂。 DC元数据 DC的 15个元素依据其所描述内容的类型和范围分为三组: 一是对资源内容的描述。有标题、主题、描述、来源、语言、关系和层次; 二是对知识产权的描述。有创建者、出版者、投稿者和权限; 三是对外部属性的描述。有日期、类型、格式和标识。 4.1数字信息资源描述与组织 DC15个元素含义如下: (1) subject: 主题词或关键词项,资源的主题,一般是描述资源的主题和内容的关键词或短语。 建议采用受控词表和规范的分类体系。 (2) Title: 标题项,由资源作者或出版者给出的被描述资源的名称。 (3) Creator : 作者或创建者项,对创造资源知识内容负主要责任的个人或机构。例如:书写文献 的作者,视频作品的艺术家、摄影师或插图画家等。 (4) Publisher:出版者项,负责发行被描述资源的组织。如出版杜、公司实体等。 (5) Description:描述项,资源内容的文本描述,包括文献类对象的文摘或视频作品的内容描述等。 (6) Contributor :其他参与者项,指没有在 Creator元素中列出的对被描述资源的创作作出了贡献 的其他人或组织,其贡献次于创建者 (如编辑、誊写员、描图作者等 )。 (7) Date:发布日期项,被描述资源公开发布的日期,采用 ISO8601所规定的格式。 (8) Type:类型项,被描述资源属性的范畴或类型,例如主页、小说、诗歌、手稿、技术报告、论 文、词典等 , 资源类型通常从资源类型列表中选取,目前这一列表正在发展完善中。 (9) Format:格式项,被描述资源的数据格式,用于注明需要什么软件或硬件来显示和执行这一资 源。为了提高互操作性,格式值应从格式列表中选取,目前这一列表正在发展完善中。 (10) Identifier :标识项,能够唯一标识描述资源的字符或数字。例如网络资源中的 URL,国际标 准书号 ISBN或其它规范名称皆可作为标识值。 (11) Relation:关联项,被描述资源与其他资源之间的关系。例如,再编自、翻译自、节选自、格 式转换自。为保证互操作性,关联值应从关联列中选取 , 目前这一列表正在发展完善中。 (12) Source:来源项,用来唯一标识被描述资源的衍生源。如当前资源为其原始形式 , 来源项元素 可以不用。 (13) Languag e: 语言项,被描述资源内容的描述语言。如有可能,该字段内容应遵循 RFC1766的 规定,如 ZH(ISO639)等。 (14) Coverage: 时空范围项,被描述资源空间或时间特性。空间范围指物理区域,来自于规范词 表的地名或全称。时间范围指资源内容,而非资源产生的时间 ( 由日期 Date元素表示 )。时间描述 ( 通常是一个时间范围 )采用与日期 Date相同的格式,或者采用规范列表中的时间范围描述或全称。 (15) Rights:版权管理项,被描述资源的版权声明和使用范围。 4.1数字信息资源描述与组织 DC的特点主要表现在: 简易性,只有 15个元素; 通用性,可用于任何学科或领域的资源描述; 可修饰性,可通过使用限定词对资料进行详细著录; 可扩展性; 可重复性。 目前 DC元数据已包括由一系列扩展元素、元素修饰词、编码体系修饰词、 抽象模型、应用纲要等规范组成的标准体系,成为一般性资源描述、特别 是互联网语义信息描述( Semantic Web)的基础性规范。这套体系还在不 断地发展、完善中。 DC有简单 DC和复杂 DC之分 简单 DC指的是 DC的 15个核心元素如题名、主题等。与复杂的 MARC格式相 比, DC只有 15个基本元素,较为简单,而且根据 DC的可选择原则,可以 简化著录项目,只要确保最低限度的 7个元素 (题名、出版者、形式、类 型、标记符、日期和主题 )就可以了。 复杂 DC是在简单 DC的基础上引进修饰词的概念,如体系修饰词 (SCHEME)、 语种修饰词 (LANC)、子元素修饰词 (Subelement),进一步明确元数据的 特性。特别是通过体系修饰词,把 MARC的优点和各种已有的分类法、主 题词表等控制语言吸收进去。 4.1数字信息资源描述与组织 RDF资源描述框架 1.概述 资源描述框架 (Resource Description Framework,简称 RDF)是一 个用表达关于万维网 (World Wide Web)上的资源的信息的语言。它 专门用于表达关于 Web资源的元数据,比如 Web页面的标题、作者和 修改时间, Web文档的版权和许可信息,某个被共享资源的可用计 划表等。然而,将“ Web资源( Web resource)”这一概念一般化 后, RDF可被用于表达关于任何可在 Web上被标识的事物的信息,即 使有时它们不能被直接从 Web上获取。比如关于一个在线购物机构 的某项产品的信息(例如关于规格、价格和可用性信息),或者是 关于一个 Web用户在信息递送方面的偏好的描述。 RDF用于信息需要被应用程序处理而不是仅仅显示给人观看的场 合。 RDF提供了一种用于表达这一信息、并使其能在应用程序间交 换而不丧失语义的通用框架。既然是通用框架,应用程序设计者可 以利用现成的通用 RDF解析器( RDF parser)以及通用的处理工具。 能够在不同的应用程序间交换信息意味着对于那些并非信息的最初 创建者的应用程序也是可利用这些信息。 4.1数字信息资源描述与组织 资源陈述 RDF用一套特定的术语来表达陈述中的各个部分。确切地说,关于事 物(譬如上例中的网页)的陈述中用于识别事物的那部分就叫做主体,而 用于区分陈述对象主语的各个不同属性(譬如:作者,创建日期,语种等 等)的那部分就叫做谓词,陈述中用于区分各个属性的值的那部分叫做客 体。因此,考虑英文陈述: http:/www.example.org/index.html has a creator whose value is John Smith 这个陈述里的不同部分用 RDF术语来说就是: 主体是 URL-http:/www.example.org/index.html; 谓词是词“ creator”; 客体是短语“ John Smith”。 正如英语是作为(用英语沟通的)人们之间很好沟通工具一样, RDF 是用来做出机器可处理的声明的工具。那么,如果想做出这种适合机器处 理的声明,还需要两件事: 一个可用来区分标识一个陈述中的主体,谓词,客体的机器可处理 的标识符系统,同时这个标识符系统不会和其他人可能在 Web上使用的相 似的标识符系统混淆; 一种用以表示这些陈述并让这些陈述可在机器间交流的机器可处理 的语言。 4.1数字信息资源描述与组织 RDF模型 RDF基于图论思想描述陈述,图中包含节点与弧。这样,一个陈述可表示为: 一个表示主体的节点; 一个表示客体的节点; 一个由主体节点指向客体节点的表示谓词的弧。 因此如下 RDF陈述, eg: http:/www.example.org/index.html has a creator whose value is John Smith 可以描述如图 4.1所示: 图 4.1 一个 简单的 RDF陈述 4.1数字信息资源描述与组织 这样,一组陈述相应地被一组节点和弧表示。所以,为了在 RDF中表示其他的英文陈述: http:/www.example.org/index.html has a creation-date whose value is August 16, 1999; http:/www.example.org/index.html has a language whose value is English. 可以用图 4.2所示的图(用合适的 URIrefs标识属性 creation-date和 language): 图 4.2 关于同一资源的多个陈述 图 4.2说明了 RDF陈述中的客体可以是 URIrefs,也可以是常量值(称作文字),用于表示某种属性值的字 符串。图 4.2表明,为了表示多种类型的属性值,为了表示多种类型的属性值, RDF陈述中的客体可能是 URIrefs或字符串表示的常数(称为文字, literal)。 4.1数字信息资源描述与组织 也可以将图论表示法转化为三元组表示法,在三元组表示法中,图中的每个陈述 都可以写成一个依次为主体,谓词,客体的三元组。如图 4.1所表示的陈述用三元 组表示法来写就是: http:/www.example.org/index.html; http:/purl.org/dc/elements/1.1/creator; http:/www.example.org/staffid/85740; . http:/www.example.org/index.html; http:/www.example.org/terms/creation-date; August 16, 1999 . http:/www.example.org/index.html; http:/purl.org/dc/elements/1.1/language; en . 每一个三元组均对应于图中的一条弧,且这个弧的起始节点和终止节点分别是陈 述中的主体和客体。和图形表示法不同,三元组表示法要求一个节点在它出现的 每个陈述中都要有标识。因此,例如“ http:/www.example.org/index.html” , 在三元组表示法中共出现了三次(在每个三元组中均出现一次),而在图形表示 法中只出现了一次。但是,三元组表示法和图示法描述了完全相同的信息,这揭 示了一个要点: RDF的基础是陈述的图模型,而用于表示或描述这个图的表示法则 是次要的。 4.1数字信息资源描述与组织 用 URIref来标识属性的重要性是基于很多原因的: 它可以把一个人用的属性和其他人用的属性区别开来,尽管他们可能 用相同的字符串来表示属性。 使用 URIrefs来区分属性能使属性被看成是资源本身。 RDF/XML语法 RDF的概念模型是一张图( graph)。 RDF提供了一种被称为 RDF/XML的 XML语法来书写和交换 RDF图。与 RDF的简略记法 三元组( triples) 不同, RDF/XML是书写 RDF的规范性语法( normative syntax)。 RDF/XML定义于 RDF/XML语法规范。 RDF/XML语法 ( 1)基本原理 (2)简写与组织 RDF URIrefs 4.1数字信息资源描述与组织 RDF的特点 ( 1)易控制 RDF使用简单的资源 属性 值三元组,所以很容易控制,即使是数量很大的时候。这个 特点很重要,因为现在 Web资源越来越多,如果用来描述资源的元数据格式太复杂,势必会大 大降低元数据的使用效率,其实从功能的角度来看,完全可以直接使用 XML来描述资源,但 XML 结构比较复杂,允许复杂嵌套,不容易进行控制。采用 RDF可以提高资源检索和管理的效率, 从而真正发挥元数据的功用。 ( 2)易扩展 在使用 RDF描述资源的时候,词汇集和资源描述是分开的,所以可以很容易扩展。例如如 果要增加描述资源的属性,只需要在词汇集中增加相应元数据即可,而如果使用的是关系数据 库,增加新字段可不是件容易的事情。 ( 3)包容性 RDF允许任何人定义自己的词汇集,并可以无缝的使用多种词汇集来描述资源,以根据 需要来使用,使各尽其能。比如,在上个例子里描述网页资源时用 Dublin Core 描述其作者属 性,而在描述作者的姓名时又使用了另外一个专门描述人的词汇集来描述。 ( 4)可交换性 RDF使用 XML语法,可以很容易的在网络上实现数据交换;另外, RDF Schema定义了描述 词汇集的方法,可以在不同词汇集间通过指定元数据关系来实现含义理解层次上的数据交换。 ( 5)易综合 在 RDF中资源的属性是资源,属性值可以是资源,关于资源的陈述也可以是资源,都可以 用 RDF来描述,这样就可以很容易的将多个描述综合,以达到发现知识的目的。 DC在 XML中的描述例子 4.2信息资源的智能化分析 分词处理 文本表示是文本分类的关键技术之一,而中文文本中词和词 之间不像英文一样存在边界,所以对中文文本表示之前,需 要先进行分词处理。 分词概念 通过“分词规范 +词表 +分词语料库”的方法,使中文词语 在真实文本中得到了可计算的定义,这是实现计算机自动 分词和可比评测的基础; 实践证明,基于手工规则的分词系统在评测中不敌基于统 计学习的分词系统; 在 Bakeoff数据上的评估结果表明,未登录词造成的分词 精度失落至少比分词歧义大 5倍以上; 实验证明,能够大幅度提高未登录词识别性能的字标注统 计学习方法优于以往的基于词 (或词典 ) 的方法,并使自 动分词系统精度达到了新高。 4.2信息资源的智能化分析 分词理论方法 目前分词算法很多,大致可归纳为三大类:词典分词方法、 理解分词方法、统计分词方法。 词典分词方法 算法 机械分词方法包含两个核心内容:分词算法与词典结构,改进方法可依据 此核心内容进行:字典结构改进,字符串匹配算法精度与速度受制于词 典,词典数据结构会影响分词性能,所以该算法需要先进的词典数据结构, 以提高分词速度。同时词典词收录量有限,而导致匹配错误,影响分词精 度。通过对字典结构改进,加快检索时间,提高检索的速度。改进扫描 方式,优先在待分析字符串中识别和切分出一些带有明显特征的词(如标 点符号),以这些词作为断点,可将原字符串分为较小的串再来进机械分 词,从而减少匹配的错误率。将词典中的词按由长到短递减顺序逐字搜 索整个待处理材料,一直到分出全部词为止 梁南元 .书面汉语的自动分词 与一个自动分词系统 4.2信息资源的智能化分析 正向对大匹配( Maximum Matching Method,MM)算法基本思想: 设自动分词词典中最长词条所含汉字个数为 I; 取被处理材料当前字符串序数中的 I个字作为匹配字段,查找分词词典。若词典中有这样 的一个 I字词,则匹配成功,匹配字段作为一个词被切分出来,转; 如果词典中找不到这样的一个 I字词,则匹配失败; 匹配字段去掉最后一个汉字, I-; 重复 -,直至切分成功为止; I重新赋初值,转,直到切分出所有词为止。 词典结构 高效的分词词典需要考虑如下三个因素: 词查询速度,任何一种词典分词算法都需要进行词匹配,查询速度是最关注的指标; 词典空间利用率,词容量大,但占空间小,则查询时间也少; 词典维护性能,能方便支持词的删除、插入、修改等操作。 理解分词方法 人工智能技术(专家系统、人工智能、生成测试法) 统计模型技术 4.2信息资源的智能化分析 统计分词方法 统计方法思想基础是:词是稳定的汉字的组合,在上下文中汉字与汉字相邻共现的概率能够 较好地反映成词的可信度。 下面给出最大概率分词算法思想: 对一个待分词的字串 S,按照从左到右的顺序取出全部候选词。 到词典中查出每个候选词的概率值 P(),并记录每个候选词的全部前驱词。 按照公式 1计算每个候选词的累计概率,同时比较得到每个候选词的最佳前驱词。 如果当前词是字串 S的尾词,且累计概率 P ()最大,则 就是 S的终点词。 从 S的终点词开始,按照从右到左顺序,依次将每个词的最佳前驱词输出,即为 S的分词结果。 三种主流方法比较 组合方法 1)字典与统计组合 2)分词与词性标注组合 EBST的优点: 对于训练语料相关的文本 (即与训练语料相同、相似或同领域的文本 ) , EBST系统的分词 -词性标注结果具有极高的准确率; EBST系统的分词 -词性标注结果与训练语料中的分词 -词性标注具有很好的一 致性。 4.2信息资源的智能化分析 歧义消除研究 歧义类型 消歧方法: 1)三种主要分词及组合算法。 2)穷举法 3)联想 -回溯法 4)词性标注 5)EM法 6)短语匹配与语义规则法 未登录词研究 ( 1)未登录词类型 新涌现的通用词或专业术语等; 专有名词 ( 2)未登录词识别 1)专有名词库 2)启发式规则 3)通用解决方案 4.2信息资源的智能化分析 分词系统研究进展 早期自动分词系统 现代分词系统 中科院计算所汉语词法分析系统 ICTCLAS 海量智能分词研究版 分词与词性标注测评 研究难点与热点 分词研究难点 分词研究热点趋势 创新算法 统计组合算法 4.2信息资源的智能化分析 文档聚类 聚类方法通常有:层次聚类法、平面划分法、简单贝叶斯聚类法、最近邻参照 聚类法、分级聚类法、基于概念的文本聚类等。 文档聚类在以下几方面得到广泛应用: 文档聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤,比 较典型的例子是哥伦比亚大学开发的多文档文摘系统 Newsblaster。 Newsblaster将每天发生的重要新闻文本进行聚类处理,并对同主题文档进行 冗余消除、信息融合、文本生成等处理,从而生成一篇简明扼要的摘要文档。 对搜索引擎返回的结果进行聚类,使用户迅速定位到所需要的信息。 Hua- Jun Zeng等人提出了对搜索引擎返回的结果进行聚类的学习算法。比较典型的 系统则有 vivisimo和 infonetware等。系统允许用户输入检索关键词,而后对 检索到的文档进行聚类处理,并输出各个不同类别的简要描述,从而可以缩小 检索的范围,用户只需关注比较有希望的主题。另外这种方法也可以为用户二 次检索提供线索。 对用户感兴趣的文档(如用户浏览器 cache中的网页)聚类,从而发现用户 的兴趣模式并用于信息过滤和信息主动推荐等服务。 聚类技术还可以用来改善文本分类的结果,如俄亥俄州立大学的 Y.C. Fang, S. Parthasarathy和 F. Schwartz等人的工作。 数字图书馆服务。通过 SOM神经网络等方法,可以将高维空间的文档拓扑保 序地映射到二维空间,使得聚类结果可视化和便于理解,如 SOMlib 中括号 里面是什么? 系统。 文档集合的自动整理。如 Scatter/Gather是一个基于聚类的文档浏览系统。 而微软的 Ji-Rong Wen等人则利用聚类技术对用户提出的查询记录进行聚类, 并利用结果更新搜索引擎网站的 FAQ。 4.2信息资源的智能化分析 文本挖掘 文本挖掘概念 文本挖掘的过程 文本预处理 文本特征表示 文本特征的提取 文本知识发现 文本模式的评价 文本模式的呈现 文本分类 文本分类定义 文本分类发展历史 文本分类过程 文本表示 特征降维 分类器构建 效果评估 文本分类应用 自动索引 信息组织 词感应消歧 信息过滤 邮件分类 话题跟踪 新信息检测 网络舆情分析 (sentiment analysis) 4.2信息资源的智能化分析 信息抽取与自动文摘 数字图书馆工作者在大量文献资源基础上为用户提供有价 值的信息是其追求的目标,一般来说有三种主要的方式来 提供增值信息: 通过有选择性的资源选取为特定领域的人员提供有价值高,权威 性强的资源; 为资源增加高质量的元数据,为用户查找与浏览提供方便; 通过数据挖掘与信息抽取方法,帮助提高资源定位与呈现。 按照生成文摘的句子来源,自动文摘方法可以分成两类: 一类是完全使用原文中的句子来生成文摘; 另一类是可以自动生成句子来表达文档的内容。 后者的功能更强大,但在实现的时候,自动生成句子是一个比较 杂的问题,经常出现产生的新句子不能被理解的情况,因此目前大 多用的是抽取生成法。 4.3信息资源存储 几种资源存储模式 DAS(直接连接存储); NAS(网络连接存储); FC-SAN(存储区域网络 ); IP SAN-NAS; IP SAN-iSCSI; 云存储 4.3信息资源存储 iSCSI有其自身的诸多优势,主要表现在 iSCSI更加经济。可 从以下几个方面体现: ( 1)在一般的数据和 SAN网络之间存在的公用技术可使培训费用降 低,而且也不必设立单独的岗位职员,这两者都可使成本降低;而 且以太网大量的安装基础也可使价格降低; ( 2) iSCSI可利用现有的、容易理解的 TCP/IP基础设施来构筑 SAN, 随着在 QoS和安全方面的进步,在存储与现有的基础设施之间的共 享表明,在硬件、培训、实施等几个方面都有机会实现可观的成本 节约; (3)随着千兆以太网的实现,用户将可得到传输速率为 1Gbps的存储 网络,而不需改变现有的基础设施。 iSCSI的好处打破了 FC或 SCSI 的距离限制,并且使多台服务器用享有后端的存储设备资源,并且 原本 SCSI限制只能连接 8或 16个设备, iSCSI则允许比前者可连接更 多存储设备。简单地说, iSCSI可以实现在 IP网络上运行 SCSI协议, 使其能够在诸如高速千兆以太网上进行路由选择 52,通过 iSCSI 存储技术,可以实现异地数据的交换,实现异地数据的备份与恢复。 4.4 信息压缩 数据压缩概念 数据压缩包括有损压缩和无损压缩: 无损压缩是指使用压缩后的数据进行分析,效果与压缩前相同。一 些常用的无损压缩方法有哈夫曼 (Huffman)编码方法和 LZW( Lempel- Ziv- Welch)压缩方法; 有损压缩是指在允许一定的精度损失的情况下,压缩掉数据中一些 无关紧要的数据,不影响结果。常用的有损压缩算法有 PCM、变换编 码等。 压缩算法依据 离散无记忆信源的冗余度寓于信源符号的非等概率分布之中 ,这是数 据压缩的基本途径之一; 联合信源的冗余度也寓于信源间的相关性之中,消除或减少它们之 间的相关性,使之成为或几乎成为不相关信源,是数据压缩的又一 条基本途径。消除或减少 (降低 )信源的冗余度是实际数据压缩的基 本依据。图像数据的冗余类型主要有:空间冗余、时间冗余和纹理 的统计冗余。 4.3信息资源存储 云存储系统的结构模型由四层组成: 存储层。存储层是云存储最基础的部分。存储设备可以是 FC光纤通道存 储设备,可以是 NAS和 iSCSI等 IP存储设备,也可以是 SCSI或 SAS等 DAS存储 设备。云存储中的存储设备往往数量庞大且分布多不同地域,彼此之间通 过广域网、互联网或者 FC光纤通道网络连接在一起。存储设备之上是一个 统一存储设备管理系统,可以实现存储设备的逻辑虚拟化管理、多链路冗 余管理,以及硬件设备的状态监控和故障维护。 基础管理层。基础管理层是云存储最核心的部分,也是云存储中最难以 实现的部分。基础管理层通过集群、分布式文件系统和网格计算等技术, 实现云存储中多个存储设备之间的协同工作,使多个的存储设备可以对外 提供同一种服务,并提供更大更强更好的数据访问性能。 CDN内容分发系 统、数据加密技术保证云存储中的数据不会被未授权的用户所访问,同时, 通过各种数据备份和容灾技术和措施可以保证云存储中的数据不会丢失, 保证云存储自身的安全和稳定。 应用接口层。应用接口层是云存储最灵活多变的部分。不同的云存储运 营单位可以根据实际业务类型,开发不同的应用服务接口,提供不同的应 用服务。比如视频监控应用平台、 IPTV和视频点播应用平台、网络硬盘引 用平台,远程数据备份应用平台等。 访问层。任何一个授权用户都可以通过标准的公用应用接口来登录云存 储系统,享受云存储服务。云存储运营单位不同,云存储提供的访问类型 和访问手段也不同。 4.4 信息压缩 研究进展 图像领域的压缩技术 视频领域的压缩技术 音频领域的压缩技术 本章小结 数字图书馆技术是一门多学科综合交叉的技术,包括信息技 术、计算机技术、网络技术、多媒体技术等。数字信息资源 的有效处理是数字图书馆支撑技术之一。本章主要阐述相关 信息资源处理所用到的技术,如信息资源描述技术、元数据 技术、分词技术、文本分类技术、信息抽取技术等。其中信 息资源描述这个小节主要就描述语言、元数据、 RDF资源描述 框架进行讲解。信息资源管理智能化这个小节围绕分词处理、 文本挖掘等进行。信息资源存储主要讲述了资源存储模式, 信息压缩就其基本概念、算法进行了阐述。 关键术语 元数据 资源描述框架 html xml 文本分类 文档聚类 数据压缩 舆情 云存储 文本挖掘 数据挖掘 综合练习 一、名词解释 元数据 描述型元数据 RDF 分词 歧义 数据挖掘 文本挖掘 舆情 文档聚类 二、问答题 1.XML的优势? 2.元数据的功能? 3.元数据的类型? 4.元数据主要类型? 5.简述 RDF,并举例 6.RDF的特点? 7.简述词典分词方法? 8.简述理解分词法? 9.神经网络与专家系统的人工智能分词算法与其他方法相比具有什么特点? 10.简述统计分词方法? 11.对比三种分词方法? 12.分词方法方法组合通常采用哪几种? 13.歧义消除类型、方法? 14.未登录词类型? 15.未登录词识别方法? 16.目前中文分词研究难点和热点? 17.对比数据挖掘和文本挖掘? 18.文本分类应用? 19.文档聚类在哪些几方面得到广泛应用? 20.列举几种资源存储模式? 21.云存储系统? 22.简述文本挖掘过程? 23.什么叫数据压缩?数据压缩可分为几种类型 ? 24.请简单分析数据压缩为什么可以进行? 三、论述题 1.试阐述 MARC. 2.试阐述元数据 DC. 3.试用 DC在 XML中的描述例子 .
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!