《数字信息资源处理》PPT课件.ppt

资源描述

第 4章数字信息资源处理教学目标了解数字信息资源的有效处理是数字图书馆支撑技术之一掌握相关信息资源处理所用到的技术，如 : 信息资源描述技术元数据技术分词技术文本分类技术信息抽取技术及其具体技术教学要求第 4章数字信息资源处理教学要求能力要求相关知识信息资源描述理解描述语言理解元数据并能熟练应用熟练应用 RDF资源描述框架描述语言的演进元数据的概念、类型及其功能其他描述语言信息资源智能化处理理解分词概念、方法掌握经典分词算法优缺点理解文本挖掘概念、过程理解文本分类的定义、过程和效果评估、及其应用理解文档聚类、信息抽取与自动文摘了解词典分词方法、理解分词方法、统计分词方法；了解组合方法了解歧义消除了解未登录词了解分词研究进展了解研究难点与重点信息资源存储了解 DAS（直接连接存储）、 NAS（网络连接存储）、 FC- SAN(存储区域网络 )、 IP SAN-NAS、 IPSAN-iSCSI、云存储信息压缩了解数据压缩的概念、算法、研究进展 4.1数字信息资源描述与组织描述语言及其发展 Web实现了网页的连通， Web改变了人们学习与生活方式。 HTML（超文本置标语言）技术拉近了 Web与人们之间的距离，通过它很容易、方便地获得信息资源； HTML是 SGML（ Standard Generalized Markup Language，标准通用置标语言）的一个实例化的子集，可扩展性差，用户根本不能自定义有意义的置标供他人使用，这一切都成为 Web技术进一步发展的障碍，在这种情况下 XML顺应而生； 1969年， IBM公司就开发了一种文档描述语言 GML用来解决不同系统中文档格式不同的问题， GML是 IBM许多文档系统的基础，包括 Script和 Bookmaster， 1986年该语言演变成一个国际标准（ ISO8879），并被称为 SGML； SGML是很多大型组织，比如飞机、汽车公司和军队的文档标准，它是语言无关的、结构化的、可扩展的语言，这些特点使它在很多公司受到欢迎，被用来创建、处理和发布大量的文本信息。在 1989年，在 CERN欧洲粒子物理研究中心的研究人员开发了基于 SGML的超文本版本，被称为 HTML； HTML继承了 SGML的许多重要的特点，比如结构化、实现独立和可描述性，但是同时它也存在很多缺陷：比如它只能使用固定的有限的标记，而且它只侧重于对内容的显示。同时随着 Web上数据的增多，这些 HTML存在的缺点就变的不可被忽略。 W3C提供了 HTML的几个扩展用来解决这些问题，最后，它决定开发一个新的 SGML的子集，称为 XML； XML的出现就是为了解决 HTML所存在的这些弊病。它保留了很多 SGML标准的优点，但是更加容易操作和在 WWW环境下实现，在 1998年，它就变成了 W3C的标准。 XML有如下几个优势：它允许各个组织、个人建立适合自己需要的置标集合，并且这些置标可以迅速地投入使用。这一特征使得 XML可以在电子商务、政府文档、司法、出版、 CAD/CAM、保险机构、厂商和中介组织信息交换等领域中一展身手，针对不同的系统、厂商提供各具特色的独立解决方案； XML的数据存储格式不受显示格式的制约。一般来说，一篇文档包括三个要素：数据、结构以及显示方式。对于 HTML来说，显示方式内嵌在数据中，这样在创建文本时，要时时考虑输出格式，如果因为需求不同而需要对同样的内容进行不同风格的显示时，要从头创建一个全新的文档，重复工作量很大。此外 HTML缺乏对数据结构的描述，对于应用程序理解文档内容、抽取语义信息都有诸多不便。 4.1数字信息资源描述与组织元数据：元数据概念与作用：元数据（ metadata）是关于数据的数据。哈佛大学数字图书馆项目对元数据的定义为：元数据是帮助查找、存取、使用和管理信息资源的信息。元数据在数字图书馆中的主要作用是对数字信息资源的组织和整序，亦即为分布式数据发现和检索奠定基础。元数据功能：描述功能数字图书馆中的元数据描述功能有两个方面：描述数字化信息的基本特征，使得数字化图书馆系统能够通过元数据体系自动搜索到数字化信息。描述用户提问。整合功能所谓整合功能，指的是数字图书馆的元数据体系将各种不同格式的元数据，通过建立映射、翻译等方法整合成一种元数据格式的过程，即实现不同格式元数据之间的互操作性，也是一个异构数据库之间的整合过程。控制功能元数据体系的规范控制功能包括信息内容的规范化描述、规范标引和信息评估等方面。元数据体系可以通过标准元数据模型来规范化描述数字信息。代理功能知道元数据本身也是替代记录，数字图书馆中的元数据体系同样具有代理功能。元数据的代理功能可以有效地节省网络资源，这是因为元数据是数字化信息资源的一种描述，记录了数字化信息资源的基本特征，可以基本反映信息的概貌，同时，元数据和数据相比，其数据量要小得多，可以作为完整信息的代理。 4.1数字信息资源描述与组织元数据类型描述型元数据持资源的发现和鉴别。题名、创造者、制作者、出版者、出版日期等都是典型的描述型元数据。管理型元数据数字图书馆中通过它实现对数字信息资源的有效管理。传统图书馆中有关借阅权限、馆藏地点等信息都是管理元数据的例子。结构型元数据结构型元数据反映数字信息资源的内部形式特征，如目录、段落、章节等，从而实现对数字信息资源的结构化存取。技术型元数据数字图书馆是高新技术的集聚地，其作业环境是典型的技术环境。将各种技术有效地应用于对数字信息资源的组织和管理，正是技术型元数据的功能和作用。保存型元数据保存型元数据是指支持数字化资源长期保存的数据。在数字图书馆中，关于数字化信息资源发现与检索的元数据研究固然重要，关于支持信息资源长期保存的元数据研究同样非常重要。无论人们试图以哪一种技术来解决数字化信息的长期保存，都必须知道数字信息本身及其环境的一些技术特征，这便是保存型元数据所揭示的内容特征。 4.1数字信息资源描述与组织主要元数据常见的应用于不同领域的 Metadata格式有：（ 1）网络资源： Dublic Core、 ROADS Template、 CDF(Channel Definition Format)、 WebCollections；（ 2）文献资料： MARC(with 856 Field)， Dublic Core；（ 3）人文科学： TEI Header(Text Encoding Initiative Header)；（ 4）社会科学数据集： ICPSR SGML Codebook (Inter-university Consortium for Political and Social Research)；（ 5）博物馆与艺术作品： CIMI(Computer Interchange of Museum Information)、 CDWA(Categories for the Description of Works of Arts)、 RLG REACH Element Set；（ 6）视觉资料： VRA (Visual Resources Association) Core Categories for Visual Resources；（ 7）音乐资料： SMDL(Standard Music Description Language)；（ 8）政府信息： GILS(Government Information Locator Service)；（ 9）地理空间信息： FGDC/CSDGM(Federal Geographic Data Committee/Content Standards for Digital Geospatial Metadata)；（ 10）数字图像： MOA2metadata、 CDL metadata、 Open Archives Format、 VRACore、 NISO/CLIR/RLG Technical Metadata for Images；（ 11）档案库与资源集合： EAD(Encoding Archival Description)；（ 12）技术报告： RFC1807： A format for Bibliographic Records；（ 13） FTP文件和 FTP文件库： IAFA Templates (Internet Anonymous FTP Archives Templates)；（ 14）连续图像： MPEG-7。 4.1数字信息资源描述与组织以下主要阐述两种元数据： MARC与 DC MARC MARC为“机器可读的目录”，也称机读目录，起源于 1965年的美国，是计算机能够识别和阅读的目录。造成 MARC适用性日益降低的原因：字段众多，重复严重 ; 技术过时 ; 著录规则不统一，语义含糊 ; 字段、子字段标识和结构复杂。 DC元数据 DC的 15个元素依据其所描述内容的类型和范围分为三组：一是对资源内容的描述。有标题、主题、描述、来源、语言、关系和层次；二是对知识产权的描述。有创建者、出版者、投稿者和权限；三是对外部属性的描述。有日期、类型、格式和标识。 4.1数字信息资源描述与组织 DC15个元素含义如下： (1) subject: 主题词或关键词项，资源的主题，一般是描述资源的主题和内容的关键词或短语。建议采用受控词表和规范的分类体系。 (2) Title: 标题项，由资源作者或出版者给出的被描述资源的名称。 (3) Creator : 作者或创建者项，对创造资源知识内容负主要责任的个人或机构。例如：书写文献的作者，视频作品的艺术家、摄影师或插图画家等。 (4) Publisher:出版者项，负责发行被描述资源的组织。如出版杜、公司实体等。 (5) Description:描述项，资源内容的文本描述，包括文献类对象的文摘或视频作品的内容描述等。 (6) Contributor :其他参与者项，指没有在 Creator元素中列出的对被描述资源的创作作出了贡献的其他人或组织，其贡献次于创建者 (如编辑、誊写员、描图作者等 )。 (7) Date:发布日期项，被描述资源公开发布的日期，采用 ISO8601所规定的格式。 (8) Type:类型项，被描述资源属性的范畴或类型，例如主页、小说、诗歌、手稿、技术报告、论文、词典等 , 资源类型通常从资源类型列表中选取，目前这一列表正在发展完善中。 (9) Format:格式项，被描述资源的数据格式，用于注明需要什么软件或硬件来显示和执行这一资源。为了提高互操作性，格式值应从格式列表中选取，目前这一列表正在发展完善中。 (10) Identifier :标识项，能够唯一标识描述资源的字符或数字。例如网络资源中的 URL，国际标准书号 ISBN或其它规范名称皆可作为标识值。 (11) Relation:关联项，被描述资源与其他资源之间的关系。例如，再编自、翻译自、节选自、格式转换自。为保证互操作性，关联值应从关联列中选取 , 目前这一列表正在发展完善中。 (12) Source:来源项，用来唯一标识被描述资源的衍生源。如当前资源为其原始形式 , 来源项元素可以不用。 (13) Languag e: 语言项，被描述资源内容的描述语言。如有可能，该字段内容应遵循 RFC1766的规定，如 ZH(ISO639)等。 (14) Coverage: 时空范围项，被描述资源空间或时间特性。空间范围指物理区域，来自于规范词表的地名或全称。时间范围指资源内容，而非资源产生的时间 ( 由日期 Date元素表示 )。时间描述 ( 通常是一个时间范围 )采用与日期 Date相同的格式，或者采用规范列表中的时间范围描述或全称。 (15) Rights:版权管理项，被描述资源的版权声明和使用范围。 4.1数字信息资源描述与组织 DC的特点主要表现在：简易性，只有 15个元素；通用性，可用于任何学科或领域的资源描述；可修饰性，可通过使用限定词对资料进行详细著录；可扩展性；可重复性。目前 DC元数据已包括由一系列扩展元素、元素修饰词、编码体系修饰词、抽象模型、应用纲要等规范组成的标准体系，成为一般性资源描述、特别是互联网语义信息描述（ Semantic Web）的基础性规范。这套体系还在不断地发展、完善中。 DC有简单 DC和复杂 DC之分简单 DC指的是 DC的 15个核心元素如题名、主题等。与复杂的 MARC格式相比， DC只有 15个基本元素，较为简单，而且根据 DC的可选择原则，可以简化著录项目，只要确保最低限度的 7个元素 (题名、出版者、形式、类型、标记符、日期和主题 )就可以了。复杂 DC是在简单 DC的基础上引进修饰词的概念，如体系修饰词 (SCHEME)、语种修饰词 (LANC)、子元素修饰词 (Subelement)，进一步明确元数据的特性。特别是通过体系修饰词，把 MARC的优点和各种已有的分类法、主题词表等控制语言吸收进去。 4.1数字信息资源描述与组织 RDF资源描述框架 1.概述资源描述框架 (Resource Description Framework,简称 RDF)是一个用表达关于万维网 (World Wide Web)上的资源的信息的语言。它专门用于表达关于 Web资源的元数据，比如 Web页面的标题、作者和修改时间， Web文档的版权和许可信息，某个被共享资源的可用计划表等。然而，将“ Web资源（ Web resource）”这一概念一般化后， RDF可被用于表达关于任何可在 Web上被标识的事物的信息，即使有时它们不能被直接从 Web上获取。比如关于一个在线购物机构的某项产品的信息（例如关于规格、价格和可用性信息），或者是关于一个 Web用户在信息递送方面的偏好的描述。 RDF用于信息需要被应用程序处理而不是仅仅显示给人观看的场合。 RDF提供了一种用于表达这一信息、并使其能在应用程序间交换而不丧失语义的通用框架。既然是通用框架，应用程序设计者可以利用现成的通用 RDF解析器（ RDF parser）以及通用的处理工具。能够在不同的应用程序间交换信息意味着对于那些并非信息的最初创建者的应用程序也是可利用这些信息。 4.1数字信息资源描述与组织资源陈述 RDF用一套特定的术语来表达陈述中的各个部分。确切地说，关于事物（譬如上例中的网页）的陈述中用于识别事物的那部分就叫做主体，而用于区分陈述对象主语的各个不同属性（譬如：作者，创建日期，语种等等）的那部分就叫做谓词，陈述中用于区分各个属性的值的那部分叫做客体。因此，考虑英文陈述： http:/www.example.org/index.html has a creator whose value is John Smith 这个陈述里的不同部分用 RDF术语来说就是：主体是 URL-http:/www.example.org/index.html；谓词是词“ creator”；客体是短语“ John Smith”。正如英语是作为（用英语沟通的）人们之间很好沟通工具一样， RDF 是用来做出机器可处理的声明的工具。那么，如果想做出这种适合机器处理的声明，还需要两件事：一个可用来区分标识一个陈述中的主体，谓词，客体的机器可处理的标识符系统，同时这个标识符系统不会和其他人可能在 Web上使用的相似的标识符系统混淆；一种用以表示这些陈述并让这些陈述可在机器间交流的机器可处理的语言。 4.1数字信息资源描述与组织 RDF模型 RDF基于图论思想描述陈述，图中包含节点与弧。这样，一个陈述可表示为：一个表示主体的节点；一个表示客体的节点；一个由主体节点指向客体节点的表示谓词的弧。因此如下 RDF陈述， eg： http:/www.example.org/index.html has a creator whose value is John Smith 可以描述如图 4.1所示：图 4.1 一个简单的 RDF陈述 4.1数字信息资源描述与组织这样，一组陈述相应地被一组节点和弧表示。所以，为了在 RDF中表示其他的英文陈述： http:/www.example.org/index.html has a creation-date whose value is August 16, 1999; http:/www.example.org/index.html has a language whose value is English. 可以用图 4.2所示的图（用合适的 URIrefs标识属性 creation-date和 language）：图 4.2 关于同一资源的多个陈述图 4.2说明了 RDF陈述中的客体可以是 URIrefs，也可以是常量值（称作文字），用于表示某种属性值的字符串。图 4.2表明，为了表示多种类型的属性值，为了表示多种类型的属性值， RDF陈述中的客体可能是 URIrefs或字符串表示的常数（称为文字， literal）。 4.1数字信息资源描述与组织也可以将图论表示法转化为三元组表示法，在三元组表示法中，图中的每个陈述都可以写成一个依次为主体，谓词，客体的三元组。如图 4.1所表示的陈述用三元组表示法来写就是： http:/www.example.org/index.html; http:/purl.org/dc/elements/1.1/creator; http:/www.example.org/staffid/85740; . http:/www.example.org/index.html; http:/www.example.org/terms/creation-date; August 16, 1999 . http:/www.example.org/index.html; http:/purl.org/dc/elements/1.1/language; en . 每一个三元组均对应于图中的一条弧，且这个弧的起始节点和终止节点分别是陈述中的主体和客体。和图形表示法不同，三元组表示法要求一个节点在它出现的每个陈述中都要有标识。因此，例如“ http:/www.example.org/index.html” ，在三元组表示法中共出现了三次（在每个三元组中均出现一次），而在图形表示法中只出现了一次。但是，三元组表示法和图示法描述了完全相同的信息，这揭示了一个要点： RDF的基础是陈述的图模型，而用于表示或描述这个图的表示法则是次要的。 4.1数字信息资源描述与组织用 URIref来标识属性的重要性是基于很多原因的：它可以把一个人用的属性和其他人用的属性区别开来，尽管他们可能用相同的字符串来表示属性。使用 URIrefs来区分属性能使属性被看成是资源本身。 RDF/XML语法 RDF的概念模型是一张图（ graph）。 RDF提供了一种被称为 RDF/XML的 XML语法来书写和交换 RDF图。与 RDF的简略记法三元组（ triples）不同， RDF/XML是书写 RDF的规范性语法（ normative syntax）。 RDF/XML定义于 RDF/XML语法规范。 RDF/XML语法（ 1)基本原理 (2)简写与组织 RDF URIrefs 4.1数字信息资源描述与组织 RDF的特点（ 1）易控制 RDF使用简单的资源属性值三元组，所以很容易控制，即使是数量很大的时候。这个特点很重要，因为现在 Web资源越来越多，如果用来描述资源的元数据格式太复杂，势必会大大降低元数据的使用效率，其实从功能的角度来看，完全可以直接使用 XML来描述资源，但 XML 结构比较复杂，允许复杂嵌套，不容易进行控制。采用 RDF可以提高资源检索和管理的效率，从而真正发挥元数据的功用。（ 2）易扩展在使用 RDF描述资源的时候，词汇集和资源描述是分开的，所以可以很容易扩展。例如如果要增加描述资源的属性，只需要在词汇集中增加相应元数据即可，而如果使用的是关系数据库，增加新字段可不是件容易的事情。（ 3）包容性 RDF允许任何人定义自己的词汇集，并可以无缝的使用多种词汇集来描述资源，以根据需要来使用，使各尽其能。比如，在上个例子里描述网页资源时用 Dublin Core 描述其作者属性，而在描述作者的姓名时又使用了另外一个专门描述人的词汇集来描述。（ 4）可交换性 RDF使用 XML语法，可以很容易的在网络上实现数据交换；另外， RDF Schema定义了描述词汇集的方法，可以在不同词汇集间通过指定元数据关系来实现含义理解层次上的数据交换。（ 5）易综合在 RDF中资源的属性是资源，属性值可以是资源，关于资源的陈述也可以是资源，都可以用 RDF来描述，这样就可以很容易的将多个描述综合，以达到发现知识的目的。 DC在 XML中的描述例子 4.2信息资源的智能化分析分词处理文本表示是文本分类的关键技术之一，而中文文本中词和词之间不像英文一样存在边界，所以对中文文本表示之前，需要先进行分词处理。分词概念通过“分词规范 +词表 +分词语料库”的方法，使中文词语在真实文本中得到了可计算的定义，这是实现计算机自动分词和可比评测的基础；实践证明，基于手工规则的分词系统在评测中不敌基于统计学习的分词系统；在 Bakeoff数据上的评估结果表明，未登录词造成的分词精度失落至少比分词歧义大 5倍以上；实验证明，能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词 (或词典 ) 的方法，并使自动分词系统精度达到了新高。 4.2信息资源的智能化分析分词理论方法目前分词算法很多，大致可归纳为三大类：词典分词方法、理解分词方法、统计分词方法。词典分词方法算法机械分词方法包含两个核心内容：分词算法与词典结构，改进方法可依据此核心内容进行：字典结构改进，字符串匹配算法精度与速度受制于词典，词典数据结构会影响分词性能，所以该算法需要先进的词典数据结构，以提高分词速度。同时词典词收录量有限，而导致匹配错误，影响分词精度。通过对字典结构改进，加快检索时间，提高检索的速度。改进扫描方式，优先在待分析字符串中识别和切分出一些带有明显特征的词（如标点符号），以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率。将词典中的词按由长到短递减顺序逐字搜索整个待处理材料，一直到分出全部词为止梁南元 .书面汉语的自动分词与一个自动分词系统 4.2信息资源的智能化分析正向对大匹配（ Maximum Matching Method,MM）算法基本思想：设自动分词词典中最长词条所含汉字个数为 I；取被处理材料当前字符串序数中的 I个字作为匹配字段，查找分词词典。若词典中有这样的一个 I字词，则匹配成功，匹配字段作为一个词被切分出来，转；如果词典中找不到这样的一个 I字词，则匹配失败；匹配字段去掉最后一个汉字， I-；重复 -，直至切分成功为止； I重新赋初值，转，直到切分出所有词为止。词典结构高效的分词词典需要考虑如下三个因素：词查询速度，任何一种词典分词算法都需要进行词匹配，查询速度是最关注的指标；词典空间利用率，词容量大，但占空间小，则查询时间也少；词典维护性能，能方便支持词的删除、插入、修改等操作。理解分词方法人工智能技术（专家系统、人工智能、生成测试法）统计模型技术 4.2信息资源的智能化分析统计分词方法统计方法思想基础是：词是稳定的汉字的组合，在上下文中汉字与汉字相邻共现的概率能够较好地反映成词的可信度。下面给出最大概率分词算法思想：对一个待分词的字串 S，按照从左到右的顺序取出全部候选词。到词典中查出每个候选词的概率值 P()，并记录每个候选词的全部前驱词。按照公式 1计算每个候选词的累计概率，同时比较得到每个候选词的最佳前驱词。如果当前词是字串 S的尾词，且累计概率 P ()最大，则就是 S的终点词。从 S的终点词开始，按照从右到左顺序，依次将每个词的最佳前驱词输出，即为 S的分词结果。三种主流方法比较组合方法 1)字典与统计组合 2)分词与词性标注组合 EBST的优点：对于训练语料相关的文本 (即与训练语料相同、相似或同领域的文本 ) , EBST系统的分词 -词性标注结果具有极高的准确率； EBST系统的分词 -词性标注结果与训练语料中的分词 -词性标注具有很好的一致性。 4.2信息资源的智能化分析歧义消除研究歧义类型消歧方法： 1)三种主要分词及组合算法。 2)穷举法 3)联想 -回溯法 4)词性标注 5)EM法 6)短语匹配与语义规则法未登录词研究（ 1）未登录词类型新涌现的通用词或专业术语等；专有名词（ 2）未登录词识别 1)专有名词库 2)启发式规则 3)通用解决方案 4.2信息资源的智能化分析分词系统研究进展早期自动分词系统现代分词系统中科院计算所汉语词法分析系统 ICTCLAS 海量智能分词研究版分词与词性标注测评研究难点与热点分词研究难点分词研究热点趋势创新算法统计组合算法 4.2信息资源的智能化分析文档聚类聚类方法通常有：层次聚类法、平面划分法、简单贝叶斯聚类法、最近邻参照聚类法、分级聚类法、基于概念的文本聚类等。文档聚类在以下几方面得到广泛应用：文档聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤，比较典型的例子是哥伦比亚大学开发的多文档文摘系统 Newsblaster。 Newsblaster将每天发生的重要新闻文本进行聚类处理，并对同主题文档进行冗余消除、信息融合、文本生成等处理，从而生成一篇简明扼要的摘要文档。对搜索引擎返回的结果进行聚类，使用户迅速定位到所需要的信息。 Hua- Jun Zeng等人提出了对搜索引擎返回的结果进行聚类的学习算法。比较典型的系统则有 vivisimo和 infonetware等。系统允许用户输入检索关键词，而后对检索到的文档进行聚类处理，并输出各个不同类别的简要描述，从而可以缩小检索的范围，用户只需关注比较有希望的主题。另外这种方法也可以为用户二次检索提供线索。对用户感兴趣的文档（如用户浏览器 cache中的网页）聚类，从而发现用户的兴趣模式并用于信息过滤和信息主动推荐等服务。聚类技术还可以用来改善文本分类的结果，如俄亥俄州立大学的 Y.C. Fang, S. Parthasarathy和 F. Schwartz等人的工作。数字图书馆服务。通过 SOM神经网络等方法，可以将高维空间的文档拓扑保序地映射到二维空间，使得聚类结果可视化和便于理解，如 SOMlib 中括号里面是什么？系统。文档集合的自动整理。如 Scatter/Gather是一个基于聚类的文档浏览系统。而微软的 Ji-Rong Wen等人则利用聚类技术对用户提出的查询记录进行聚类，并利用结果更新搜索引擎网站的 FAQ。 4.2信息资源的智能化分析文本挖掘文本挖掘概念文本挖掘的过程文本预处理文本特征表示文本特征的提取文本知识发现文本模式的评价文本模式的呈现文本分类文本分类定义文本分类发展历史文本分类过程文本表示特征降维分类器构建效果评估文本分类应用自动索引信息组织词感应消歧信息过滤邮件分类话题跟踪新信息检测网络舆情分析 (sentiment analysis) 4.2信息资源的智能化分析信息抽取与自动文摘数字图书馆工作者在大量文献资源基础上为用户提供有价值的信息是其追求的目标，一般来说有三种主要的方式来提供增值信息：通过有选择性的资源选取为特定领域的人员提供有价值高，权威性强的资源；为资源增加高质量的元数据，为用户查找与浏览提供方便；通过数据挖掘与信息抽取方法，帮助提高资源定位与呈现。按照生成文摘的句子来源，自动文摘方法可以分成两类：一类是完全使用原文中的句子来生成文摘；另一类是可以自动生成句子来表达文档的内容。后者的功能更强大，但在实现的时候，自动生成句子是一个比较杂的问题，经常出现产生的新句子不能被理解的情况，因此目前大多用的是抽取生成法。 4.3信息资源存储几种资源存储模式 DAS（直接连接存储）； NAS（网络连接存储）； FC-SAN(存储区域网络 )； IP SAN-NAS； IP SAN-iSCSI；云存储 4.3信息资源存储 iSCSI有其自身的诸多优势，主要表现在 iSCSI更加经济。可从以下几个方面体现：（ 1）在一般的数据和 SAN网络之间存在的公用技术可使培训费用降低，而且也不必设立单独的岗位职员，这两者都可使成本降低；而且以太网大量的安装基础也可使价格降低；（ 2） iSCSI可利用现有的、容易理解的 TCP/IP基础设施来构筑 SAN，随着在 QoS和安全方面的进步，在存储与现有的基础设施之间的共享表明，在硬件、培训、实施等几个方面都有机会实现可观的成本节约； (3)随着千兆以太网的实现，用户将可得到传输速率为 1Gbps的存储网络，而不需改变现有的基础设施。 iSCSI的好处打破了 FC或 SCSI 的距离限制，并且使多台服务器用享有后端的存储设备资源，并且原本 SCSI限制只能连接 8或 16个设备， iSCSI则允许比前者可连接更多存储设备。简单地说， iSCSI可以实现在 IP网络上运行 SCSI协议，使其能够在诸如高速千兆以太网上进行路由选择 52，通过 iSCSI 存储技术，可以实现异地数据的交换，实现异地数据的备份与恢复。 4.4 信息压缩数据压缩概念数据压缩包括有损压缩和无损压缩：无损压缩是指使用压缩后的数据进行分析，效果与压缩前相同。一些常用的无损压缩方法有哈夫曼 (Huffman)编码方法和 LZW( Lempel- Ziv- Welch)压缩方法；有损压缩是指在允许一定的精度损失的情况下，压缩掉数据中一些无关紧要的数据，不影响结果。常用的有损压缩算法有 PCM、变换编码等。压缩算法依据离散无记忆信源的冗余度寓于信源符号的非等概率分布之中 ,这是数据压缩的基本途径之一；联合信源的冗余度也寓于信源间的相关性之中，消除或减少它们之间的相关性，使之成为或几乎成为不相关信源，是数据压缩的又一条基本途径。消除或减少 (降低 )信源的冗余度是实际数据压缩的基本依据。图像数据的冗余类型主要有：空间冗余、时间冗余和纹理的统计冗余。 4.3信息资源存储云存储系统的结构模型由四层组成：存储层。存储层是云存储最基础的部分。存储设备可以是 FC光纤通道存储设备，可以是 NAS和 iSCSI等 IP存储设备，也可以是 SCSI或 SAS等 DAS存储设备。云存储中的存储设备往往数量庞大且分布多不同地域，彼此之间通过广域网、互联网或者 FC光纤通道网络连接在一起。存储设备之上是一个统一存储设备管理系统，可以实现存储设备的逻辑虚拟化管理、多链路冗余管理，以及硬件设备的状态监控和故障维护。基础管理层。基础管理层是云存储最核心的部分，也是云存储中最难以实现的部分。基础管理层通过集群、分布式文件系统和网格计算等技术，实现云存储中多个存储设备之间的协同工作，使多个的存储设备可以对外提供同一种服务，并提供更大更强更好的数据访问性能。 CDN内容分发系统、数据加密技术保证云存储中的数据不会被未授权的用户所访问，同时，通过各种数据备份和容灾技术和措施可以保证云存储中的数据不会丢失，保证云存储自身的安全和稳定。应用接口层。应用接口层是云存储最灵活多变的部分。不同的云存储运营单位可以根据实际业务类型，开发不同的应用服务接口，提供不同的应用服务。比如视频监控应用平台、 IPTV和视频点播应用平台、网络硬盘引用平台，远程数据备份应用平台等。访问层。任何一个授权用户都可以通过标准的公用应用接口来登录云存储系统，享受云存储服务。云存储运营单位不同，云存储提供的访问类型和访问手段也不同。 4.4 信息压缩研究进展图像领域的压缩技术视频领域的压缩技术音频领域的压缩技术本章小结数字图书馆技术是一门多学科综合交叉的技术，包括信息技术、计算机技术、网络技术、多媒体技术等。数字信息资源的有效处理是数字图书馆支撑技术之一。本章主要阐述相关信息资源处理所用到的技术，如信息资源描述技术、元数据技术、分词技术、文本分类技术、信息抽取技术等。其中信息资源描述这个小节主要就描述语言、元数据、 RDF资源描述框架进行讲解。信息资源管理智能化这个小节围绕分词处理、文本挖掘等进行。信息资源存储主要讲述了资源存储模式，信息压缩就其基本概念、算法进行了阐述。关键术语元数据资源描述框架 html xml 文本分类文档聚类数据压缩舆情云存储文本挖掘数据挖掘综合练习一、名词解释元数据描述型元数据 RDF 分词歧义数据挖掘文本挖掘舆情文档聚类二、问答题 1.XML的优势？ 2.元数据的功能？ 3.元数据的类型？ 4.元数据主要类型？ 5.简述 RDF，并举例 6.RDF的特点？ 7.简述词典分词方法？ 8.简述理解分词法？ 9.神经网络与专家系统的人工智能分词算法与其他方法相比具有什么特点？ 10.简述统计分词方法？ 11.对比三种分词方法？ 12.分词方法方法组合通常采用哪几种？ 13.歧义消除类型、方法？ 14.未登录词类型？ 15.未登录词识别方法？ 16.目前中文分词研究难点和热点？ 17.对比数据挖掘和文本挖掘？ 18.文本分类应用？ 19.文档聚类在哪些几方面得到广泛应用？ 20.列举几种资源存储模式？ 21.云存储系统？ 22.简述文本挖掘过程？ 23.什么叫数据压缩？数据压缩可分为几种类型 ? 24.请简单分析数据压缩为什么可以进行？三、论述题 1.试阐述 MARC. 2.试阐述元数据 DC. 3.试用 DC在 XML中的描述例子 .

展开阅读全文

《数字信息资源处理》PPT课件.ppt

最新文档