第2章WEB20信息组织课件

上传人:沈*** 文档编号:241602150 上传时间:2024-07-08 格式:PPT 页数:81 大小:1.60MB
返回 下载 相关 举报
第2章WEB20信息组织课件_第1页
第1页 / 共81页
第2章WEB20信息组织课件_第2页
第2页 / 共81页
第2章WEB20信息组织课件_第3页
第3页 / 共81页
点击查看更多>>
资源描述
第第2 2章章 Web2.0 Web2.0信息组织研究信息组织研究第1节 Web2.01web2.0的概念与特征(1)web2.0的概念Web2.0是第2代因特网的简称,是互联网新的理念和思想体系的结晶,由原来的自上而下网站为主导的集中控制的互联网转变为自下而上的由用户为主导的互联网体系。其内在的动力来源是将互联网的主导权交还个人,从而充分发掘了个人的积极性,并参与到网络活动中来。(2 2)web2.0web2.0的信息组织特征的信息组织特征互联网成为平台或用户参与体系(非统治和控制的)充分重视并利用用户的集体力量和智慧;用户数据成为因特网内存;用户由接受者变为制造者和传播者。分享和参与的网络架构和网络效应;通过带动分散的、独立的开发者把各个系统和网站组合形成集成资源体系的能力;通过内容和服务的联合使轻量级的业务模型可行,并分享经济的模式;注重用户体验的持续的服务;服务和应用无处不在(非单机版和单一平台版本);由少数重要用户扩展到全体用户,包括大量的普通用户,要有拉动长尾的能力。.(3 3)web2.0web2.0的信息组织特征的信息组织特征从信息组织角度总结WEB2.0的几个特征参与性:用户中心,个人深度参与,即用户创造、发布、传播、修改、使用信息;自组织性:人与人、内容与内容、群体与群体以自组织方式形成结构;开放性:开放软件(API)或服务,开放版权,如GOOGLE的MAP,维基百科按GNU的自由文档许可证(GFDL)就是反版权的,可以自由获取、修改、复制、甚至销售。部分内容也是开放的、真实的(反虚拟的),如用户照片共享、部分内容开放。(2 2)web2.0web2.0的特征的特征2 2 聚合性:web2.0是使用标准化协议(RSS、RDF、Atom)的网站内容和服务的聚合,允许用户同时利用一个甚至跨站资源和服务。这些协议都是基于XML的。微内容:web2.0将信息内容分解成很小的单元(类似数据元、知识元、信息元)。一篇文章、一条评论、图片、书签、认识的人等都是微内容。2 web2.02 web2.0对信息组织的影响对信息组织的影响(1)web2.0促进信息组织观念的改变(2)1)由专家到大众:folksonomy的兴起;2)主动:“主动”是指“以用户个人为中心”,以个性化为核心价值的个人时代,每个人深度参与到互联网中,并彼此相连;3)互动:“互动是指“以自组织为中心”,个人与个人之间,个人创造的内容与内容之间,以及个人组成的群体与群体之间,都以不同的自组织方式联结起来,以自组织的方式让人、内容和应用等充分活动起来。4)由受控标引到自由标引;(2)web2.0改变了信息组织模式1)个性化;强调资源特点和组织方式的独特性;2)个人化:以用户个人资源为基本组织对象;3)兴趣化:以用户群的兴趣为信息组织目标;4)分群化:用户群围绕标签(tags)Users,tags,tagging,resources成为研究大众分类法语义的主要模型,并形成资源与组织资源;5)以人物为重要信息组织对象,名人、热点人物等成为资源组织的标识,粉丝围绕名人或中心人物形成资源结构与组织结构;6)资源与用户的匹配更加有效,一般地,用户拥有的资源比传统方法更关切和有兴趣。Web2.0的聚合技术:一是内容聚合(Mashup 混搭),包括网站内和网际内容聚合;当你查询一个网站的某个主题时,各站点的相关内容会显示出来。如一本书在各站的价格等都会出现。二是桌面软件和网络已混为一体;三是软件即服务(S-a-a-S),应用软件成为提供服务的工具或平台。第二节第二节 web2.0 web2.0的信息组织类型的信息组织类型1博客(Blog)信息组织博客是个人或群体不断更新的、按时间顺序形成的一种思想、活动、事件等的记录。博客的作用是快速发布观点、体会、新闻或日常记录等,并通过回溯(TrackBack)和评论(comment)进行交流,展示用户的个性。博客的主要组织技术是内容聚合。聚合技术包括三个方面:一是内容聚合(Mashup 混搭),包括网站内和网际内容聚合;当查询一个网站的某个主题时,各站点的相关内容会显示出来。如一本书在各站的价格等都会出现。二是桌面软件和网络已混为一体;三是软件即服务(S-a-a-S),应用软件成为提供服务的工具或平台。用户可以通过聚合软件订阅感兴趣的博客,追踪更新。作者可以利用聚合让电脑理解并摘要自己的文章。2)博客信息组织的主要特点是:以用户个人为中心,作为组织用户博客的基本单位,并以日期为个人资源排序的次要标准;用用户个人选取(或标注)的标签作为个人相关内容资源集中在一起(当检索时)以标签聚合技术把相关知识集成在一起(站内或跨站的);基于知识共享、互动、交流,即基于服务的信息组织模式;用户的评论(反对、赞成、补充、修正等)丰富了资源的多方面内容;在效果上,微内容、交流和围绕问题或工作形成资源结构,提高了信息组织的质量和针对性。2 2 维基(维基(WikiWiki,有人译成威客或维客)的信息组织,有人译成威客或维客)的信息组织Wiki源于夏威夷语源于夏威夷语wee kee wee kee,意为,意为“快点快快点快点点”。维基是由一种支持面向社群协作式写作的超。维基是由一种支持面向社群协作式写作的超文本系统和辅助工具。它颠覆了信息写作者和使用文本系统和辅助工具。它颠覆了信息写作者和使用者的旧模式,开创了一种基于用户自由写作的开放者的旧模式,开创了一种基于用户自由写作的开放模式。模式。1995年,沃德年,沃德.坎宁安坎宁安(Ward Cunningham)建立了世界上首个建立了世界上首个Wiki系统系统,并用它建立了波特,并用它建立了波特兰模式知识库(兰模式知识库(Portland Pattern Repository),),从从19962000,这个库开发了很多辅助工具,对,这个库开发了很多辅助工具,对Wiki系统的协同写作进行支持。从而形成了维基模系统的协同写作进行支持。从而形成了维基模式。式。维基的信息组织方式集体知识。Wiki是一个集体创作的网络公共知识库,是网民的集体智慧形成的人类知识的网络系统。维基可以构建网络百科全书,形成专门(领域)知识结构(如讨论菜谱、剧本创作、服装设计等)。知识分享。可以帮助用户分享和利用社群内某个领域的知识,用户对维基内容有很大的权力,可以阅读、下载、创建和修改文本,自由开放度很高。发布简便、内容开放是它的重要优势;此外它还具有可增长、自组织、可观察的特点。动态性、个人性与分群化的结构。Wiki又是一个动态的个人或群体的协作工具,要具有群体共识才能积累大家认同的知识。维基百科的信息组织特点是:维基百科的信息组织特点是:多元化的组织方法(从不同角度组织知识);多元化的组织方法(从不同角度组织知识);严谨的分类系统;严谨的分类系统;字顺系统。字顺系统。目前目前Wiki系统最成功的应用是维基百科系统最成功的应用是维基百科(Wikipedia)。2001年,一个小型互联网公司(年,一个小型互联网公司(Bomis)的)的CEO保尔保尔.威尔士和威尔士和Larry Stanger推出了维基百科,推出了维基百科,2006年已有年已有120多处语种的版本,多处语种的版本,200多万个词多万个词条,成为全球点击率最高的条,成为全球点击率最高的50个网站之一。个网站之一。3 3 网摘(网摘(Social BookmarkSocial Bookmark,社会书签),社会书签)网摘实际上是一个网络海量收藏夹,它基于个人网摘实际上是一个网络海量收藏夹,它基于个人收藏、积累,然后成为集体收藏和共享,随着用收藏、积累,然后成为集体收藏和共享,随着用户增加和收藏的网址增加,大规模的资源积聚和户增加和收藏的网址增加,大规模的资源积聚和知识分类就形成了。所以,网摘本质上是一个随知识分类就形成了。所以,网摘本质上是一个随着用户增多和网址数量的积累,而成长起来的信着用户增多和网址数量的积累,而成长起来的信息息/知识性汇集系统。知识性汇集系统。网摘是一个积累性的信息网摘是一个积累性的信息/知识收藏、分类、排知识收藏、分类、排序、分享网络资源的服务工具。序、分享网络资源的服务工具。网摘的组织方式网摘的组织方式1)按标签聚合相同内容的网址。)按标签聚合相同内容的网址。它存储网址和相关信息列表,再用标签对网址编制它存储网址和相关信息列表,再用标签对网址编制分类索引,标签是一个聚类符号,用户按标签查分类索引,标签是一个聚类符号,用户按标签查找有用的信息,进行分享和交流。所以又叫分众找有用的信息,进行分享和交流。所以又叫分众分类法(分类法(Folksonomy)。如博客网摘就克服了)。如博客网摘就克服了个人视野的限制,通过网摘让读者评个人视野的限制,通过网摘让读者评论,从而形成各种观点和内容的汇集,使用户和内论,从而形成各种观点和内容的汇集,使用户和内容都实现了按问题或兴趣分群的功能,是一种信容都实现了按问题或兴趣分群的功能,是一种信息组织方式的创新。这种组织方式的针对性、有息组织方式的创新。这种组织方式的针对性、有效性和全面性都是过去没有的。效性和全面性都是过去没有的。网摘的主要作用是:分享;标签聚类和查询以形成网摘的主要作用是:分享;标签聚类和查询以形成知识体系;形成共同兴趣的交流群,实现沟通、知识体系;形成共同兴趣的交流群,实现沟通、表达、提高知识水平的社会功能。表达、提高知识水平的社会功能。2)以个人选择与群体选择形成基于不同兴趣的资源)以个人选择与群体选择形成基于不同兴趣的资源结构。底层是个人选择,相同的个人选择形成相结构。底层是个人选择,相同的个人选择形成相同兴趣的用户群,不同的用户群就是不同知识资同兴趣的用户群,不同的用户群就是不同知识资源群。源群。3)个人选择与群体选择是对海量资源的内容选择与)个人选择与群体选择是对海量资源的内容选择与质量选择,选择的结果是网摘质量的提高和基于质量选择,选择的结果是网摘质量的提高和基于标签的不同内容集合,不同标签形成不同知识分标签的不同内容集合,不同标签形成不同知识分类或内容分类。类或内容分类。4)基于积累资源收集和结构形成过程。)基于积累资源收集和结构形成过程。4 4 内容聚合(内容聚合(RSSRSS)RSS源于网景通讯公司的推送(源于网景通讯公司的推送(push)技术,是一)技术,是一个共享新闻和网络内容的数据交换规范。个共享新闻和网络内容的数据交换规范。RSS有三种解释:有三种解释:Really Simple Syndication(真(真 正简单聚合);正简单聚合);RDF(Resource Description Framework)Site Summary(RDF站点摘要);站点摘要);Rich Site summary(丰富站点摘要)。(丰富站点摘要)。RSS广泛应用于新闻、博客、维基的内容或频道订阅。广泛应用于新闻、博客、维基的内容或频道订阅。RSS的信息组织方式:的信息组织方式:推推-拉式:用户主动订阅,网站自动推送;用户也可以通过增拉式:用户主动订阅,网站自动推送;用户也可以通过增添(拉)阅读到的精彩内容。添(拉)阅读到的精彩内容。个人性:所有的内容都是个人订阅的,内容与个人兴趣、需要个人性:所有的内容都是个人订阅的,内容与个人兴趣、需要密切相关;密切相关;即时性,各种更新都是即时的;内容可以随时更新和增加。即时性,各种更新都是即时的;内容可以随时更新和增加。易用性:只要粘贴易用性:只要粘贴RSS网址即可完成订阅和退订;网址即可完成订阅和退订;内容聚合性:内容聚合性:RSS标准可以把博客、维基、搜索引擎、标准可以把博客、维基、搜索引擎、在线新闻、商业信息等的内容聚合在一起。在线新闻、商业信息等的内容聚合在一起。5 社会性网络(社会性网络(SNS)的信息组织)的信息组织SNS理念源于美国社会会心理学家米尔格伦理念源于美国社会会心理学家米尔格伦(Stanley Milgram)在)在1967年提出的六度分割理论:年提出的六度分割理论:“你和任何一个陌生人之间所间隔的人不会超过六个,你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就会认识任何陌生人。也就是说,最多通过六个人你就会认识任何陌生人。”按照这个理论,每个人的社交圈都不断放大,最后形按照这个理论,每个人的社交圈都不断放大,最后形成一个大型社交网络成一个大型社交网络SNS。SNS的核心价值是社交无限化,即假如人均交友的核心价值是社交无限化,即假如人均交友260人,六度就是人,六度就是2605 5=1=1万万1 1千多亿。在千多亿。在web2.0web2.0中,中,用户的交际工具有博客、播客、自己维护的维基、用户的交际工具有博客、播客、自己维护的维基、网摘和社会性网络等。可以通过标签、网摘和社会性网络等。可以通过标签、RSSRSS、邮件等、邮件等实现广泛的沟通交流。方式是朋友的朋友实现滚雪实现广泛的沟通交流。方式是朋友的朋友实现滚雪球式发展。球式发展。其次是社交垂直化(即按问题或兴趣形成社会性网其次是社交垂直化(即按问题或兴趣形成社会性网络),可以带来物质和精神方面的利益和效应。络),可以带来物质和精神方面的利益和效应。SNS的信息组织方式的信息组织方式1)基于交流的信息组织。交流驱动的知识生产机制)基于交流的信息组织。交流驱动的知识生产机制和资源形成机制以及结构,基于多样化的交流内和资源形成机制以及结构,基于多样化的交流内容,形成了不同的社群和动态的资源结构。容,形成了不同的社群和动态的资源结构。2)基于兴趣和问题的知识(或资源)结构,即所谓)基于兴趣和问题的知识(或资源)结构,即所谓垂直化的社交群。垂直化的社交群。3)多样化的互动社交群体组织模式(本身也形成了)多样化的互动社交群体组织模式(本身也形成了多元、动态的资源或知识结构)。基于知识、信多元、动态的资源或知识结构)。基于知识、信息、交友、婚姻、问题、活动等交流内容。息、交友、婚姻、问题、活动等交流内容。第三节第三节web2.0web2.0的信息组织方法的信息组织方法1 标签与标签云(标签与标签云(tag and tag cloud)(1)标签与标签云的含义标签与标签云的含义标签(标签(tag)是用户标注个人或相关资源的符号。是用户标注个人或相关资源的符号。是目前是目前web2.0网站广泛使用的资源组织方法网站广泛使用的资源组织方法.标签云(标签云(tags clouds或或 label clouds)是一个集是一个集合用户标签的简洁的聚合工具,一般按字顺和权重合用户标签的简洁的聚合工具,一般按字顺和权重(重要性)组织起来,用字体大小显示各个标签的价(重要性)组织起来,用字体大小显示各个标签的价值,是一个广受用户欢迎的查询窗口。值,是一个广受用户欢迎的查询窗口。标签云图标签云图护护肤肤 心心情情 郭郭敬敬明明 网网站站 美美白白 BapeBape 鸡鸡蛋蛋 LOVELOVE 街街拍拍 自自行行车车 绿绿色色 农农村村 毕毕业业 英英语语学学习习 珠珠宝宝 设设计计 坚坚强强 广广告告 手手工工 友友情情 励励志志 事事实实 搭搭配配 悲悲哀哀 人人生生 母母亲亲 想想法法 完完美美 猫猫 自自然然 StoryStory 家家教教 YouTubeYouTube 标标签签:关关键键字字 汽汽车车 眼眼霜霜 IndieIndie 简简约约 老老友友记记 广广播播剧剧 丰丰胸胸 灵异灵异 LondonLondon andand collegecollege twittertwitter 基金基金 WOWWOW 教程教程 poppop blogbus的标签云 来源http:/ 1标签标签N相同标签的文档集中相同标签的文档集中(4)(4)标签云的功能标签云的功能 1)组织功能。组织功能。每个每个标签集合同类资源标签集合同类资源;每个标签与一个或几个文件每个标签与一个或几个文件和文件片断和文件片断用用URIURI联系起来联系起来每个标签由用户自由选择与标注,构成一次分类;每个标签由用户自由选择与标注,构成一次分类;标签组织的资源标签组织的资源内容是混合内容是混合的,是基于的,是基于混搭混搭(mashupmashup,又译揉合)技术的。,又译揉合)技术的。MashupMashup技术是一种技术是一种资源与服务的整合工具,是一种按需定制内容和功资源与服务的整合工具,是一种按需定制内容和功能的、用户自我创建内容的信息组织方法。它的特能的、用户自我创建内容的信息组织方法。它的特点是一个页面可以由多个点是一个页面可以由多个APIAPI软件形成聚合内容。软件形成聚合内容。标签云把所有单个标签集合到一个检索界面。标签云把所有单个标签集合到一个检索界面。2)推荐功能推荐功能。推荐工具推荐工具 推荐话题表;推荐话题表;推荐流行性;焦点、热点、排行榜等推荐流行性;焦点、热点、排行榜等 最新资源推荐最新资源推荐;标签云的组织方式具有非常优秀的推荐功能,它首先是一个基标签云的组织方式具有非常优秀的推荐功能,它首先是一个基于用户选择的,用户可以从里面找到最流行的热点话题。实于用户选择的,用户可以从里面找到最流行的热点话题。实际上,标签的频率统计与选取本身就是一个热点资源推荐表。际上,标签的频率统计与选取本身就是一个热点资源推荐表。其次,加红、加重与大字显示是最明显的推荐,它在心理上其次,加红、加重与大字显示是最明显的推荐,它在心理上创造了一种创造了一种“心理排序心理排序”,具有很强的引导用户阅读的功能,具有很强的引导用户阅读的功能,从众心理与别人在看什么的好奇感,具有一种功能非凡的心从众心理与别人在看什么的好奇感,具有一种功能非凡的心理推荐作用。理推荐作用。3)搜索功能搜索功能。标签云首先是一个平面搜索窗口,其功能如一般的搜索引擎一标签云首先是一个平面搜索窗口,其功能如一般的搜索引擎一样,可以迅速地把聚合的资源显示在用户的桌面上。使用混样,可以迅速地把聚合的资源显示在用户的桌面上。使用混搭(搭(Mashup)技术,)技术,web2.0网站的标签云搜索工具查询到网站的标签云搜索工具查询到的资源,大多具有聚合特征,即它是面向问题的知识而不是的资源,大多具有聚合特征,即它是面向问题的知识而不是简单的链接。简单的链接。(5)(5)标签云的问题标签云的问题 1)用户标签的差异用户标签的差异 不同不同用户标注用户标注同一资源同一资源使用的使用的标签差异标签差异性极大,形成难以性极大,形成难以控制的局面。因为各自相异的用户对于相同的资源,具有控制的局面。因为各自相异的用户对于相同的资源,具有完全不同的理解和完全不同的表达。这些都曾是用户标签完全不同的理解和完全不同的表达。这些都曾是用户标签的优势,因为千姿百态的标签有利于反映用户的优势,因为千姿百态的标签有利于反映用户异质化的兴异质化的兴趣趣和和多样化的需求多样化的需求,这对于从不同角度形成资源和利用资,这对于从不同角度形成资源和利用资源,是一个有利条件。然而对于资源组织来说,同一资源源,是一个有利条件。然而对于资源组织来说,同一资源形成多样化的标签却是一件令人棘手的难题。例如,一张形成多样化的标签却是一件令人棘手的难题。例如,一张玫瑰花图片,用户可能用玫瑰花图片,用户可能用“玫瑰玫瑰”、“玫瑰花玫瑰花”、“情人节礼情人节礼物物”、“爱的感情爱的感情”、“爱之心爱之心”等等来表达。这些花花绿绿等等来表达。这些花花绿绿的标签,对于表达用户趣味是十分有利的,但是对于信息的标签,对于表达用户趣味是十分有利的,但是对于信息组织却是十分困难的。组织却是十分困难的。2 2)反长尾理论与资源局限反长尾理论与资源局限 长尾理论的原意是要人们关注长尾的尾部,关注被长尾理论的原意是要人们关注长尾的尾部,关注被忽略的大多数,但是标签云实践却是一个忽略的大多数,但是标签云实践却是一个“反长尾反长尾理论理论”的模型,的模型,为了效率不得不忽略长尾尾部的大为了效率不得不忽略长尾尾部的大部分标签。这在部分标签。这在web2.0web2.0世界中造成一种强大的世界中造成一种强大的从众从众趋势。趋势。流行标签有一种大众化的品质,大量资源和流行标签有一种大众化的品质,大量资源和用户兴趣集中在少量的标签上,忽略大多数社会话用户兴趣集中在少量的标签上,忽略大多数社会话题和少数数用户的兴趣,有时会转移社会关注点,题和少数数用户的兴趣,有时会转移社会关注点,淹没具有异质思维的用户,这十分不利于知识的创淹没具有异质思维的用户,这十分不利于知识的创新。这样形成的资源结构是畸形的,只限于部分活新。这样形成的资源结构是畸形的,只限于部分活跃用户的趣味和一时流行的话题,对于资源长期保跃用户的趣味和一时流行的话题,对于资源长期保存价值来说也是一个挑战。存价值来说也是一个挑战。3)标签成族与集成问题标签成族与集成问题 标签云是一个结构松散的标签云是一个结构松散的平面资源组织工具,适应以每个用户为单元的个平面资源组织工具,适应以每个用户为单元的个人门户网站。但是它很难适应资源结构复杂的大人门户网站。但是它很难适应资源结构复杂的大型网站的信息组织。因为标签云在本质上是一个型网站的信息组织。因为标签云在本质上是一个平面化的资源浏览窗口,可容纳的标签有限。目平面化的资源浏览窗口,可容纳的标签有限。目前,大多数网站采用栏目(或主题树)加局部标前,大多数网站采用栏目(或主题树)加局部标签云的方式解决标签的平面化缺点,大多数博客签云的方式解决标签的平面化缺点,大多数博客仍然以栏目为主,这说明了标签云简单化的仍然以栏目为主,这说明了标签云简单化的“反结反结构构”特征正在限制它的广泛使用。从资源集成和标特征正在限制它的广泛使用。从资源集成和标签聚类来看,长期积聚的资源不可能用当时流行签聚类来看,长期积聚的资源不可能用当时流行的松散标签来表达,所以大量的松散标签来表达,所以大量标签实行集成聚类,标签实行集成聚类,形成等级式的主题树形成等级式的主题树是不可避免的。是不可避免的。2 2 标签之间的聚类标签之间的聚类(1)标签的语义聚类与语用聚类标签的语义聚类与语用聚类 标签云是一个平面化的搜索工具,要克服它的非结构缺陷标签云是一个平面化的搜索工具,要克服它的非结构缺陷的较好措施是实现标签的的较好措施是实现标签的等级聚类等级聚类,即把标签归入到某个,即把标签归入到某个更广义的更广义的“类类”或或“栏目栏目”中,实现中,实现标签的层次化标签的层次化。前一种聚。前一种聚类方法一般按照类方法一般按照“标签标签-二级栏目二级栏目-一级栏目一级栏目”实现标签聚合。实现标签聚合。如如“张爱玲张爱玲”可以属于可以属于“作家作家”或或“文学家文学家”二级栏目,二级栏目,“作家作家”可以属于可以属于“文学文学”一级栏目。后一种聚类模式(即标签层次一级栏目。后一种聚类模式(即标签层次化)可以根据需要把不同的标签分成等级,如小团圆化)可以根据需要把不同的标签分成等级,如小团圆这个书名本身就可以是标签,它可以属于这个书名本身就可以是标签,它可以属于“小说小说”或或“张爱张爱玲作品玲作品”这个上位标签,这个上位标签,“小说小说”又可以属于又可以属于“文学文学”这个一这个一级标签。级标签。聚类方法一般有聚类方法一般有语义聚类和语用聚类语义聚类和语用聚类。语义聚类。语义聚类是词语之间有明晰的意思或意义上的关系或联系;是词语之间有明晰的意思或意义上的关系或联系;语用聚类语用聚类是词语和其他符号因表达或其它需要而是词语和其他符号因表达或其它需要而延伸到应用领域,从而与该领域产生的联系。如延伸到应用领域,从而与该领域产生的联系。如图表示一个词图表示一个词“玫瑰玫瑰”的语义聚类和语用聚类,这的语义聚类和语用聚类,这里,用方形图表示语义聚类,用圆形图表示语用里,用方形图表示语义聚类,用圆形图表示语用聚类。聚类。玫 瑰花玫瑰花卉情人节植物节日人文礼物爱感情心理 上面上面 聚类网络既是语义的,又是语用(应用)的,聚类网络既是语义的,又是语用(应用)的,它们形成了一个网状结构,体现了一个标签从语它们形成了一个网状结构,体现了一个标签从语义聚类向语用聚类的延伸情况。义聚类向语用聚类的延伸情况。“玫瑰玫瑰”与与“玫瑰花玫瑰花”既是既是“花卉花卉”、“植物植物”,由此形成语义网络;它们,由此形成语义网络;它们同时又是社会的、同时又是社会的、“人文人文”的符号,在语用(应用)的符号,在语用(应用)关系上形成聚类网络。在标签聚类中,语用聚类关系上形成聚类网络。在标签聚类中,语用聚类是一个普遍现象,为适应以用户为中心的标签聚是一个普遍现象,为适应以用户为中心的标签聚类或资源聚合开辟了一条新路径。类或资源聚合开辟了一条新路径。基于以上考虑,我们把标签的一般聚类分为两大类型:基于以上考虑,我们把标签的一般聚类分为两大类型:语语义聚类与语用聚类。义聚类与语用聚类。语义聚类的特征是语义聚类的特征是根据标签之间的意根据标签之间的意义(由人类认识的事物关系结构赋予事物集合以一定的层义(由人类认识的事物关系结构赋予事物集合以一定的层次)联系实现聚类,次)联系实现聚类,由标签聚类代表的资源实现网页资源由标签聚类代表的资源实现网页资源的意义集合。语义聚类一般的意义集合。语义聚类一般按事物分类系统按事物分类系统(如植物分类(如植物分类等)表达事物间的联系或等)表达事物间的联系或结构结构,因而符合人类的认识规律,因而符合人类的认识规律和认知原则,从而按此规律或原则实现快速地查询。和认知原则,从而按此规律或原则实现快速地查询。语用语用聚类则是一种基于应用的聚类方法,它考虑的基点是资源聚类则是一种基于应用的聚类方法,它考虑的基点是资源在应用上联系而不是语义上的联系。在应用上联系而不是语义上的联系。如如“玫瑰花玫瑰花”用标签用标签“情人节情人节”、“礼物礼物”两个标签标注,就是语用聚类,它不考两个标签标注,就是语用聚类,它不考虑虑“玫瑰花玫瑰花”的的“花卉花卉”、“植物植物”等符合认识规律的语义联系,等符合认识规律的语义联系,而是考虑它作为礼物符号的作用方面。在这里,语用聚类而是考虑它作为礼物符号的作用方面。在这里,语用聚类把玫瑰花作为一个社会性的表达符号,也是用户感情的表把玫瑰花作为一个社会性的表达符号,也是用户感情的表达符号。这样,达符号。这样,“玫瑰花玫瑰花”就冲破了它的语义范畴,延伸到就冲破了它的语义范畴,延伸到它的应用阈。而应用阈是不确定的,所以这种聚类情况复它的应用阈。而应用阈是不确定的,所以这种聚类情况复杂,因为杂,因为“玫瑰花玫瑰花”也可以应用于装饰的符号等等。所以语也可以应用于装饰的符号等等。所以语用聚类在很大程度上随不同用户的表达需要和其他需要而用聚类在很大程度上随不同用户的表达需要和其他需要而定。定。2 2 标签之间的聚类续标签之间的聚类续(2)标签之间的聚类结构标签之间的聚类结构 不管是标签的语义聚类或语用聚类,其结构都是基本相同不管是标签的语义聚类或语用聚类,其结构都是基本相同的。因为语义和语用聚类都形成基本相同的一般性层次化的。因为语义和语用聚类都形成基本相同的一般性层次化结构,即它们都是一种基于符号类型划分的框架性组织模结构,即它们都是一种基于符号类型划分的框架性组织模式。这种结构的共同特点是式。这种结构的共同特点是等级性的事物集合分层等级性的事物集合分层,通常,通常使用使用内涵包容式内涵包容式(代表事物的上位符号)或(代表事物的上位符号)或外延归属式外延归属式(代表事物的下位符号)来形成类集。符号(标签即是一(代表事物的下位符号)来形成类集。符号(标签即是一种符号)等级代表事物(或资源)等级,每个等级的划分种符号)等级代表事物(或资源)等级,每个等级的划分形成层次性的、意义相近的可选资源窗口(每个标签代表形成层次性的、意义相近的可选资源窗口(每个标签代表一个类型的窗口)供用户选择阅读。一个类型的窗口)供用户选择阅读。标签聚类结构的目标就是首先实现具有相同标签的资源聚标签聚类结构的目标就是首先实现具有相同标签的资源聚合在一起;其次标签之间再形成不同的等级,若干个可以合在一起;其次标签之间再形成不同的等级,若干个可以包涵在上位标签(或栏目、频道)的下位标签排列在一起,包涵在上位标签(或栏目、频道)的下位标签排列在一起,依次类推,从而形成层次化的集成组织结构。依次类推,从而形成层次化的集成组织结构。标签聚类的三级结构示意图标签聚类的三级结构示意图文件文件集合集合标签词标签词频统计频统计标签云标签云栏目或栏目或频道频道一级结构:以单一级结构:以单个标签为资源聚个标签为资源聚类单位类单位二级结构:以选二级结构:以选择的标签组成平择的标签组成平面检索窗口面检索窗口三级结构:三级结构:结构化的检结构化的检索窗口索窗口3 3 标签的优化控制标签的优化控制标签云的控制决不能重走专家化的老路,而是要打通标签云的控制决不能重走专家化的老路,而是要打通专家模式专家模式和大众模式和大众模式两个藩篱,吸取两种方法优势,既保存标签云两个藩篱,吸取两种方法优势,既保存标签云大众大众化的优点化的优点,又用控制手段,又用控制手段克服它的缺陷克服它的缺陷。控制的方法仍然是。控制的方法仍然是同同义词优选、相关词关联等义词优选、相关词关联等,但是内容与传统词汇控制方法不同。,但是内容与传统词汇控制方法不同。用户标签优选不同于传统词表中的正式叙词和非正式叙词,叙用户标签优选不同于传统词表中的正式叙词和非正式叙词,叙词表中的同义词优选是基于一般概念的,词汇和资源的关系是词表中的同义词优选是基于一般概念的,词汇和资源的关系是不明确的;而用户标签优选是基于用户标注资源时已经使用的不明确的;而用户标签优选是基于用户标注资源时已经使用的词汇,所以词汇与资源有明确的联系。其次,由于用户标签优词汇,所以词汇与资源有明确的联系。其次,由于用户标签优选时,优选标签与非优选标签都是用户使用的标签,所以选时,优选标签与非优选标签都是用户使用的标签,所以非优非优选标签不是淘汰掉,而是与优选标签联系起来选标签不是淘汰掉,而是与优选标签联系起来。这样,优选标签这样,优选标签不是不是“代替代替”非优选标签,而是非优选标签,而是“代表代表”非优选标签非优选标签。只是在后台数据库中,优选标签才可。只是在后台数据库中,优选标签才可以代替非优选标签,这是为了集中相同内容的资源。以代替非优选标签,这是为了集中相同内容的资源。所以用户标签优选,实际上是所以用户标签优选,实际上是联系(或聚联系(或聚 类)同一类)同一标签的不同形式标签的不同形式,这与同义词的控制虽然道理一,这与同义词的控制虽然道理一样,但是在实质内容上是完全不同的。采用这种方样,但是在实质内容上是完全不同的。采用这种方法,是为了保持标签的用户兴趣与特色,也是为了法,是为了保持标签的用户兴趣与特色,也是为了配合使用相同标签的用户群的标引与查询习惯。配合使用相同标签的用户群的标引与查询习惯。(1)用户标签优选控制的集中模式)用户标签优选控制的集中模式 这种模式采用这种模式采用“用户分散标注用户分散标注-后台集中后台集中-显示集显示集中中”,即同一内容的不同标签全部映射到一个共同的即同一内容的不同标签全部映射到一个共同的后台数据库的唯一标签中,显示页面上出现的内容后台数据库的唯一标签中,显示页面上出现的内容与后台数据库相同。如图所示。与后台数据库相同。如图所示。爱 礼物 玫瑰玫瑰花 情人节心 感情 挚爱 玫瑰用户全部标签数据库中的唯一标签显示内容全部关于“玫瑰”的web文件(2 2)标签优选控制的分散模式)标签优选控制的分散模式标签优选的分散模式采用标签优选的分散模式采用“用户分散标注用户分散标注后台数后台数据库分散存储据库分散存储镜像映射集中镜像映射集中显示集中显示集中”,即同,即同一内容的网页文件由用户分散标注,后台数据库一内容的网页文件由用户分散标注,后台数据库分散存储,采用镜像索引技术集中各种标签,显分散存储,采用镜像索引技术集中各种标签,显示内容与镜像索引内容相同。其中关键的技术是示内容与镜像索引内容相同。其中关键的技术是建立镜像索引,其方法同集中模式中的第一和第建立镜像索引,其方法同集中模式中的第一和第二步,即在众多标签中先优选一个代表性的唯一二步,即在众多标签中先优选一个代表性的唯一标签,然后把相关标签映射到索引中。标签,然后把相关标签映射到索引中。标签优选控制的分散模式示意图标签优选控制的分散模式示意图爱爱 礼礼物物 玫玫瑰瑰 玫瑰花玫瑰花情情人人节节 心心 感情感情 挚爱挚爱所有标签分散存储用户全部标签数据库中的唯一标签显示内容全部关于“玫瑰”的web文件镜像集中镜象索引中的唯一标签(3 3)标签优选控制的特点)标签优选控制的特点 标签优选与叙词处理相比,具有如下特点:标签优选与叙词处理相比,具有如下特点:标签优选只是将同一文件的各种标签之间标签优选只是将同一文件的各种标签之间联系联系起起来,来,不是用优选词代替非优选词不是用优选词代替非优选词;标签优选后,不同的标签(包括非优选词)通过标签优选后,不同的标签(包括非优选词)通过映射仍然可以查询用户标注的文件,而映射仍然可以查询用户标注的文件,而不仅仅是入不仅仅是入口词;口词;标签优选是一种标签优选是一种基于用户标注基于用户标注系统的灵活词汇处系统的灵活词汇处理机制,它不是在既定词表基础上进行的,而是基理机制,它不是在既定词表基础上进行的,而是基于用户服务或趣味的、动态的词语控制方法。所以于用户服务或趣味的、动态的词语控制方法。所以标签控制不是一次决定的,而是连续性的活动。同标签控制不是一次决定的,而是连续性的活动。同时,标签优选基本上是一种在镜像中时,标签优选基本上是一种在镜像中“暂时暂时”的聚类,的聚类,是一种基于用户的处理方式。是一种基于用户的处理方式。4 web2.0网站信息组织实例分析网站信息组织实例分析(1)维基百科的信息组织)维基百科的信息组织维基百科的首页维基百科的首页英文维基百科的分类框架英文维基百科的分类框架:上部有概览、主题、知上部有概览、主题、知识纲要、导航、特色内容、术词表、分类和字顺识纲要、导航、特色内容、术词表、分类和字顺索引索引人文学中的文学子类人文学中的文学子类:点击子类名点击子类名,显示全部内容显示全部内容,点击点击“+”号,显示细目。号,显示细目。人文学中的人类学子类人文学中的人类学子类:点击子类名点击子类名,显显示全部内容示全部内容,点击点击“+”号,显示细目。号,显示细目。与分类索引中的类目不一样。灵活的与分类索引中的类目不一样。灵活的体系。体系。中文维基百科的分类索引局部中文维基百科的分类索引局部(上上)中文维基百科的分类索引中文维基百科的分类索引(下下)中文维基百科的主题导航中文维基百科的主题导航特色内容导览特色内容导览多重分类方式多重分类方式:分别按字顺、音序、分别按字顺、音序、学科、时间、相关等多维方式分类。学科、时间、相关等多维方式分类。维基维基”文化文化”类词条中的类词条中的”乌托邦乌托邦”词条目录词条目录乌托邦作品和反乌托邦作品乌托邦作品和反乌托邦作品Flikr上的热门标签云上的热门标签云来源:来源:http:/ 美味书签的建议标签与标签箱:右为左列的文章提供的建议标签。美味书签的相关标签第4节用户标注的语义与大众分类法本体1 用户标注的语义模型用户标注的语义模型标签的标签的三元组模型三元组模型由由Mika等人于等人于2005年提出,年提出,2006和和2007年年Halpin等分别从不同角度研究了这个模型。这个模等分别从不同角度研究了这个模型。这个模型是:型是:Tagging:(:(U,T,R)。三元组由用户、标签和。三元组由用户、标签和资源组成,其中资源组成,其中U表示参与标注标签的用户集合,表示参与标注标签的用户集合,T表示表示已经标注的标签集合,已经标注的标签集合,R表示被标注的资源集合。后来表示被标注的资源集合。后来Gruber提出了标签的扩展模型:提出了标签的扩展模型:Tagging:(object,tag,tagger,sources,+or-)。其中,前三项与三元组模型相。其中,前三项与三元组模型相同,同,sources表示标引对象的来源或标引者加注标签使用表示标引对象的来源或标引者加注标签使用的标签空间,正负参数表示垃圾标签协同过滤的参数配置。的标签空间,正负参数表示垃圾标签协同过滤的参数配置。目前数字环境中词汇处理的主流技术是关系处理,目前数字环境中词汇处理的主流技术是关系处理,语义网中的语义网中的XML、RDF、OWL及其他本体技术都及其他本体技术都采取结构采取结构关系处理模式来规范类与属性之间的关系处理模式来规范类与属性之间的关系,所以用户标注的词汇处理采用通行的描述关系,所以用户标注的词汇处理采用通行的描述方法是一个经济的办法。下面的片断就是采用叙方法是一个经济的办法。下面的片断就是采用叙词表的词表的OWL语义描述方法的一个实例语义描述方法的一个实例标签关系表标签关系表OWL描述语句描述语句TagSetOWL:Class类类 TagTagSet 类的个体类的个体individual PThasPreferredTag BThasBroaderTag RThasRelatedTag UFhasNonPreferredTag NThasNarrowerTag a tag consist of all literary works 2国外大众分类法本体研究国外大众分类法本体研究前面已经提到,国外的前面已经提到,国外的Gruber、Newman等人,提等人,提出用本体模型或语义模型法解决大众分类法的语义出用本体模型或语义模型法解决大众分类法的语义模糊、平面结构问题,模型法的主要成果就是建立模糊、平面结构问题,模型法的主要成果就是建立一个模型,按照模型来描述标签及各元素之间的语一个模型,按照模型来描述标签及各元素之间的语义关系。义关系。(1)模型法)模型法模型法是用模型表示大众分类法各元素之间关系的方法。模型法是用模型表示大众分类法各元素之间关系的方法。Limitations of tagging:Ambiguity of tags(example:apple is it a fruit or th。computer company?)Lack of synonymy(example:lorry or truck)Discrepancies(差异)(差异)in granularity(粒度)(粒度)(example:j ava vs programming language)Flat Organisation of FolksonomyHow do we overcome these?Use:CommonTag,M OAT,SCOT一个简单的标签本体模型图一个简单的标签本体模型图SCOT模型图模型图Social Semantic Cloud of Tags(SCOT)An ontology aimed to represent set of tags Built on top of Richard Newmans Tag OntologyTagging(User,Resou rce,Tag,Mean i ng)MOAT模型描述代码模型描述代码W3C的的SIOC(Semantically-Interlinked Online Communities).Creating connections between discussion clouds with SIOC 2006-09-07T09:33:30Z SIOC provides a unified vocabulary for content and interaction description:a semantic layer that can co-exist with existing discussion platforms.几种方法的综合几种方法的综合(2)聚类法)聚类法大众分类法丰富语义方法大众分类法丰富语义方法(3)另一种方法)另一种方法:词汇表引导的用户标注词汇表引导的用户标注类似的有通类似的有通用标签、建用标签、建议标签等议标签等
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!