第六章-网络信息检索课件

上传人:痛*** 文档编号:241702063 上传时间:2024-07-17 格式:PPT 页数:109 大小:4.66MB
返回 下载 相关 举报
第六章-网络信息检索课件_第1页
第1页 / 共109页
第六章-网络信息检索课件_第2页
第2页 / 共109页
第六章-网络信息检索课件_第3页
第3页 / 共109页
点击查看更多>>
资源描述
网络信息检索网络信息检索南京中医药大学南京中医药大学文献检索教研室文献检索教研室教学内容教学内容网络信息检索基础网络信息检索基础网络信息采集网络信息采集网络信息的组织网络信息的组织网络信息的整合网络信息的整合网络信息的搜索网络信息的搜索搜索引擎搜索引擎常用搜索引擎的检索与利用常用搜索引擎的检索与利用网络信息检索基础网络信息检索基础网络信息检索:借助网络信息检索:借助Internet检索信息资源检索信息资源的一种方式,是检索技术、网络技术及信的一种方式,是检索技术、网络技术及信息存储和处理技术相结合的产物。广义:息存储和处理技术相结合的产物。广义:信息采集、组织、存储与检索信息采集、组织、存储与检索浏览器:是为了阅读浏览网页而编制的客浏览器:是为了阅读浏览网页而编制的客户端应用程序。如户端应用程序。如IE浏览器、浏览器、360浏览器、浏览器、QQ浏览器、浏览器、Google Chrome、NetScape浏浏览器等览器等WEB图结构图结构WEB图中的一些概念图中的一些概念节点节点(Node):指每个网页,当图中每个连:指每个网页,当图中每个连接的单位是网站时,每个网站看成一个接的单位是网站时,每个网站看成一个Node。入度入度(In degree):每个:每个Node的入度指的是的入度指的是指向该指向该Node的的Node数目。数目。出度出度(Out degree):每个:每个Node的出度指的是的出度指的是该该Node指向的指向的Node数目。数目。网络信息检索的特点网络信息检索的特点检索主题广泛:存取范围覆盖检索主题广泛:存取范围覆盖Internet上的上的所有资源所有资源内容新颖实时内容新颖实时功能完善友好:用户界面友好易操作;具功能完善友好:用户界面友好易操作;具有良好的导航及编辑功能有良好的导航及编辑功能检索灵活多元:传统检索方法与全新检索检索灵活多元:传统检索方法与全新检索技术相结合技术相结合用户透明用户透明网络信息检索工具:构成网络信息检索工具:构成1)1)信息采集机制(信息采集机制(信息采集机制(信息采集机制(Harvesting mechanismHarvesting mechanism)I.自动程序自动程序自动程序自动程序 RobotRobotII.人工选择、采集人工选择、采集人工选择、采集人工选择、采集III.网络用户递交网络用户递交网络用户递交网络用户递交2)2)标引机制(标引机制(标引机制(标引机制(Indexing mechanismIndexing mechanism):自动、人自动、人自动、人自动、人工工工工3)3)组织机制:数据库组织机制:数据库组织机制:数据库组织机制:数据库4)4)检索机制检索机制检索机制检索机制(Searching facility)(Searching facility):检索代理软件、:检索代理软件、:检索代理软件、:检索代理软件、用户界面(用户界面(用户界面(用户界面(InterfaceInterface)网络信息检索工具:网络信息检索工具:分类分类1)1)按按按按检索对象检索对象检索对象检索对象分:分:分:分:I.I.WebWeb资源检索工具:主流资源检索工具:主流资源检索工具:主流资源检索工具:主流II.II.非非非非WebWeb资源检索工具:资源检索工具:资源检索工具:资源检索工具:FTPFTP:ArchieArchie等等等等 UsenetUsenet:DejaDeja News News等等等等 ListsLists:LisztLiszt等等等等 GopherGopher:VeronicaVeronica等等等等 全文信息全文信息全文信息全文信息:WAIS:WAIS等等等等2)2)按按按按包含检索工具数量包含检索工具数量包含检索工具数量包含检索工具数量分:分:分:分:I.I.单一型(单一型(单一型(单一型(Singular search toolsSingular search tools)II.II.集合型(集合型(集合型(集合型(Collective search toolsCollective search tools):):):):元搜索引擎元搜索引擎元搜索引擎元搜索引擎(MetasearchMetasearch Engine Engine或或或或MegasearchMegasearch Engine)Engine)网络信息检索工具:网络信息检索工具:分类分类3)3)按按按按检索机制检索机制检索机制检索机制分:分:分:分:目录型目录型目录型目录型(Subject directory,catalogue)(Subject directory,catalogue)索引型:搜索引擎索引型:搜索引擎索引型:搜索引擎索引型:搜索引擎(Search Engine)(Search Engine)混合型(混合型(混合型(混合型(Hybrid toolsHybrid tools)目录型检索工具和搜索引擎之间的界限越来越模糊,大目录型检索工具和搜索引擎之间的界限越来越模糊,大目录型检索工具和搜索引擎之间的界限越来越模糊,大目录型检索工具和搜索引擎之间的界限越来越模糊,大多数流行的网络检索工具均同时提供两种方式的检索,担负多数流行的网络检索工具均同时提供两种方式的检索,担负多数流行的网络检索工具均同时提供两种方式的检索,担负多数流行的网络检索工具均同时提供两种方式的检索,担负网络资源主题指南和索引双重责任。目前这种混合型网络资源主题指南和索引双重责任。目前这种混合型网络资源主题指南和索引双重责任。目前这种混合型网络资源主题指南和索引双重责任。目前这种混合型(hybrid)(hybrid)检索工具代表了网络检索工具的发展趋势,多被混称为搜索检索工具代表了网络检索工具的发展趋势,多被混称为搜索检索工具代表了网络检索工具的发展趋势,多被混称为搜索检索工具代表了网络检索工具的发展趋势,多被混称为搜索引擎。引擎。引擎。引擎。4)4)按按按按检索内容检索内容检索内容检索内容分:分:分:分:综合型综合型综合型综合型 专题型专题型专题型专题型 特殊型特殊型特殊型特殊型网络信息检索工具:优势网络信息检索工具:优势内容丰富、信息存储量大内容丰富、信息存储量大内容更新快、新颖内容更新快、新颖检索便捷、途径众多检索便捷、途径众多使用方便,不受限制使用方便,不受限制网络信息检索系统网络信息检索系统网络信息检索技术网络信息检索技术网页搜索技术网页搜索技术标引技术标引技术索引技术索引技术检索技术检索技术排序技术排序技术网络信息采集网络信息采集主要是指通过主要是指通过主要是指通过主要是指通过WebWeb页面之间的链接关系从页面之间的链接关系从页面之间的链接关系从页面之间的链接关系从WebWeb上自动获取上自动获取上自动获取上自动获取页面信息页面信息页面信息页面信息,并且随着链接不断向所需要的并且随着链接不断向所需要的并且随着链接不断向所需要的并且随着链接不断向所需要的WebWeb页面扩展的页面扩展的页面扩展的页面扩展的过程,信息采集系统也常常称为过程,信息采集系统也常常称为过程,信息采集系统也常常称为过程,信息采集系统也常常称为Robot,Spider,CrawlerRobot,Spider,Crawler等等等等等等等等信息采集是搜索引擎获得数据来源的过程,地位相当重要信息采集是搜索引擎获得数据来源的过程,地位相当重要信息采集是搜索引擎获得数据来源的过程,地位相当重要信息采集是搜索引擎获得数据来源的过程,地位相当重要信息采集的目标:快速获得高质量的网页信息采集的目标:快速获得高质量的网页信息采集的目标:快速获得高质量的网页信息采集的目标:快速获得高质量的网页信息采集是一项十分繁杂和庞大的工程信息采集是一项十分繁杂和庞大的工程信息采集是一项十分繁杂和庞大的工程信息采集是一项十分繁杂和庞大的工程l l不同的协议不同的协议不同的协议不同的协议l l不同的网络情况不同的网络情况不同的网络情况不同的网络情况l l时效性的要求时效性的要求时效性的要求时效性的要求l l网页质量的要求网页质量的要求网页质量的要求网页质量的要求实际上是图的遍历过程实际上是图的遍历过程实际上是图的遍历过程实际上是图的遍历过程l l通过种子页面或站点通过种子页面或站点通过种子页面或站点通过种子页面或站点(Seed)(Seed),获取更多的链接,将它,获取更多的链接,将它,获取更多的链接,将它,获取更多的链接,将它们作为下一步种子,循环们作为下一步种子,循环们作为下一步种子,循环们作为下一步种子,循环l l这个过程一般永远不会结束!这个过程一般永远不会结束!这个过程一般永远不会结束!这个过程一般永远不会结束!网络信息采集网络信息采集步骤:步骤:l l站点索引:网站搜索,提供站点列表(盲目搜站点索引:网站搜索,提供站点列表(盲目搜站点索引:网站搜索,提供站点列表(盲目搜站点索引:网站搜索,提供站点列表(盲目搜索和定向搜索)索和定向搜索)索和定向搜索)索和定向搜索)l l网络搜索:由网络机器人(网络蜘蛛)在网络网络搜索:由网络机器人(网络蜘蛛)在网络网络搜索:由网络机器人(网络蜘蛛)在网络网络搜索:由网络机器人(网络蜘蛛)在网络在爬行,访问在爬行,访问在爬行,访问在爬行,访问WebWeb上所有用户可以访问的地方,上所有用户可以访问的地方,上所有用户可以访问的地方,上所有用户可以访问的地方,收集收集收集收集WebWeb上的资源。上的资源。上的资源。上的资源。网络蜘蛛的类型网络蜘蛛的类型通用网络蜘蛛通用网络蜘蛛增量式网络蜘蛛增量式网络蜘蛛主题网络蜘蛛主题网络蜘蛛基于用户个性化的网络蜘蛛基于用户个性化的网络蜘蛛基于代理的网络蜘蛛基于代理的网络蜘蛛迁移的网络蜘蛛迁移的网络蜘蛛信息采集的基本结构信息采集的基本结构采集的遍历算法采集的遍历算法宽度优先宽度优先宽度优先宽度优先vs.vs.深度优先深度优先深度优先深度优先l l宽度优先:先采集完同一层的网页,再采集下一层网页宽度优先:先采集完同一层的网页,再采集下一层网页宽度优先:先采集完同一层的网页,再采集下一层网页宽度优先:先采集完同一层的网页,再采集下一层网页l l深度优先:先沿一条路径采到叶节点,再从同层其他路径进行采深度优先:先沿一条路径采到叶节点,再从同层其他路径进行采深度优先:先沿一条路径采到叶节点,再从同层其他路径进行采深度优先:先沿一条路径采到叶节点,再从同层其他路径进行采集集集集l l有研究表明:宽度优先的方法得到的网页集合的重要性更好有研究表明:宽度优先的方法得到的网页集合的重要性更好有研究表明:宽度优先的方法得到的网页集合的重要性更好有研究表明:宽度优先的方法得到的网页集合的重要性更好网站采集网站采集网站采集网站采集vs.vs.全局全局全局全局URLURL采集采集采集采集l l网站采集:一个网站一个网站采集网站采集:一个网站一个网站采集网站采集:一个网站一个网站采集网站采集:一个网站一个网站采集l l全局全局全局全局URLURL采集:将所有采集:将所有采集:将所有采集:将所有URLURL放入一个放入一个放入一个放入一个URLURL池,从中使用某种方法池,从中使用某种方法池,从中使用某种方法池,从中使用某种方法进行选择进行选择进行选择进行选择l l网站采集在支持应用方面灵活性大一些,但是采集效率可能不如网站采集在支持应用方面灵活性大一些,但是采集效率可能不如网站采集在支持应用方面灵活性大一些,但是采集效率可能不如网站采集在支持应用方面灵活性大一些,但是采集效率可能不如全局全局全局全局URLURL采集,通常的搜索引擎采用全局采集,通常的搜索引擎采用全局采集,通常的搜索引擎采用全局采集,通常的搜索引擎采用全局URLURL采集的方法。采集的方法。采集的方法。采集的方法。采集中的采集中的“礼貌礼貌”问题问题遵守网站上发布的遵守网站上发布的Robot.txt采集限制协议采集限制协议采集时尽量不要太过密集地采集某个网站,采集时尽量不要太过密集地采集某个网站,这种密集访问类似于这种密集访问类似于DoS攻击,导致普通用攻击,导致普通用户正常浏览网站产生困难。有些网站会严户正常浏览网站产生困难。有些网站会严密控制这种密集访问行为。密控制这种密集访问行为。信息采集的研究趋势信息采集的研究趋势高速、高质量信息采集高速、高质量信息采集个性化信息采集个性化信息采集l l只采集符合用户的兴趣的数据只采集符合用户的兴趣的数据只采集符合用户的兴趣的数据只采集符合用户的兴趣的数据基于主题的信息采集基于主题的信息采集l l采集某个领域的数据采集某个领域的数据采集某个领域的数据采集某个领域的数据信息采集及抽取信息采集及抽取l l采集后提取结构化信息采集后提取结构化信息采集后提取结构化信息采集后提取结构化信息主题信息采集策略主题信息采集策略基于内容评价的搜索策略基于内容评价的搜索策略基于链结构的评价策略基于链结构的评价策略基于未来回报价值评价的搜索策略基于未来回报价值评价的搜索策略基于综合价值评价的搜索策略基于综合价值评价的搜索策略基于动态价值评价的搜索策略基于动态价值评价的搜索策略网络信息的组织网络信息的组织分三个层次:语法信息组织、语义信息组织和语分三个层次:语法信息组织、语义信息组织和语分三个层次:语法信息组织、语义信息组织和语分三个层次:语法信息组织、语义信息组织和语用信息组织用信息组织用信息组织用信息组织组织规范:元数据、组织规范:元数据、组织规范:元数据、组织规范:元数据、MARCMARC元数据标准、元数据标准、元数据标准、元数据标准、DCDC元数元数元数元数据标准、据标准、据标准、据标准、RDFRDF、SGMLSGML(标准通用标记语言)、(标准通用标记语言)、(标准通用标记语言)、(标准通用标记语言)、HTMLHTML(超文本标记语言)、(超文本标记语言)、(超文本标记语言)、(超文本标记语言)、XMLXML(可扩展标记(可扩展标记(可扩展标记(可扩展标记语言)语言)语言)语言)组织方法:分类(分类标引、网站的主题分析和组织方法:分类(分类标引、网站的主题分析和组织方法:分类(分类标引、网站的主题分析和组织方法:分类(分类标引、网站的主题分析和网站归类)和主题(分类主题一体化、信息自组网站归类)和主题(分类主题一体化、信息自组网站归类)和主题(分类主题一体化、信息自组网站归类)和主题(分类主题一体化、信息自组织)织)织)织)实现方式:数据库组织方式、超链接方式、主页实现方式:数据库组织方式、超链接方式、主页实现方式:数据库组织方式、超链接方式、主页实现方式:数据库组织方式、超链接方式、主页方式、文件方式和主题树方式方式、文件方式和主题树方式方式、文件方式和主题树方式方式、文件方式和主题树方式元数据的作用元数据的作用(1)(1)用来组织和管理空间信息,并挖掘空间信息资源。通过用来组织和管理空间信息,并挖掘空间信息资源。通过用来组织和管理空间信息,并挖掘空间信息资源。通过用来组织和管理空间信息,并挖掘空间信息资源。通过它可以在广域网或因特网上准确地识别、定位和访问空间它可以在广域网或因特网上准确地识别、定位和访问空间它可以在广域网或因特网上准确地识别、定位和访问空间它可以在广域网或因特网上准确地识别、定位和访问空间信息。信息。信息。信息。(2)(2)帮助数据使用者查询所需空间信息。可以按照不同的地帮助数据使用者查询所需空间信息。可以按照不同的地帮助数据使用者查询所需空间信息。可以按照不同的地帮助数据使用者查询所需空间信息。可以按照不同的地理区间、指定的语言以及具体的时间段来查找空间信息资理区间、指定的语言以及具体的时间段来查找空间信息资理区间、指定的语言以及具体的时间段来查找空间信息资理区间、指定的语言以及具体的时间段来查找空间信息资源。源。源。源。(3)(3)组织和维护一个机构对数据的投资。组织和维护一个机构对数据的投资。组织和维护一个机构对数据的投资。组织和维护一个机构对数据的投资。(4)(4)用来建立空间信息的数据目录和数据交换中心。通过数用来建立空间信息的数据目录和数据交换中心。通过数用来建立空间信息的数据目录和数据交换中心。通过数用来建立空间信息的数据目录和数据交换中心。通过数据目录和数据交换中心等提供的空间元数据内容,用户可据目录和数据交换中心等提供的空间元数据内容,用户可据目录和数据交换中心等提供的空间元数据内容,用户可据目录和数据交换中心等提供的空间元数据内容,用户可以共享空间信息、维护数据结果,以及对它们进行优化等。以共享空间信息、维护数据结果,以及对它们进行优化等。以共享空间信息、维护数据结果,以及对它们进行优化等。以共享空间信息、维护数据结果,以及对它们进行优化等。(5)(5)提供数据转换方面的信息。使用户在获取空间信息的同提供数据转换方面的信息。使用户在获取空间信息的同提供数据转换方面的信息。使用户在获取空间信息的同提供数据转换方面的信息。使用户在获取空间信息的同时便可以得到空间元数据信息。上实现空间信息的网络共时便可以得到空间元数据信息。上实现空间信息的网络共时便可以得到空间元数据信息。上实现空间信息的网络共时便可以得到空间元数据信息。上实现空间信息的网络共享。享。享。享。MARC元数据标准元数据标准MARC是英文机器可读目录格式是英文机器可读目录格式4个单词的个单词的缩写,国内通常在前面加上缩写,国内通常在前面加上CN,即,即CNMARC表示中国机读目录格式表示中国机读目录格式MARC主要用于图书馆管理软件中,采访、主要用于图书馆管理软件中,采访、编目、典藏等环节都有重要的作用编目、典藏等环节都有重要的作用方便馆际之间的数据交流,是统一文献著方便馆际之间的数据交流,是统一文献著录规范,加速图书馆自动化管理的所必需录规范,加速图书馆自动化管理的所必需的数据格式的数据格式MARC元数据优点元数据优点具有标准的信息交换方式,方便数据交流。具有标准的信息交换方式,方便数据交流。完整的书目描述,并且具有多种检索点。完整的书目描述,并且具有多种检索点。各类信息资源在图书馆目录中的集成。各类信息资源在图书馆目录中的集成。兼容性比较强。兼容性比较强。MARC元数据的局限性元数据的局限性无法及时处理海量的网络数字信息无法及时处理海量的网络数字信息无法及时处理海量的网络数字信息无法及时处理海量的网络数字信息对信息标引的专业性要求很高,不适于大多数普对信息标引的专业性要求很高,不适于大多数普对信息标引的专业性要求很高,不适于大多数普对信息标引的专业性要求很高,不适于大多数普通信息用户。通信息用户。通信息用户。通信息用户。格式著录的工作流程比较复杂,需专用编目软件,格式著录的工作流程比较复杂,需专用编目软件,格式著录的工作流程比较复杂,需专用编目软件,格式著录的工作流程比较复杂,需专用编目软件,要掌握软件的操作方法和熟悉著录规则。要掌握软件的操作方法和熟悉著录规则。要掌握软件的操作方法和熟悉著录规则。要掌握软件的操作方法和熟悉著录规则。对于网络资源而言,其所设计的项目过于繁杂。对于网络资源而言,其所设计的项目过于繁杂。对于网络资源而言,其所设计的项目过于繁杂。对于网络资源而言,其所设计的项目过于繁杂。MARCMARC元数据的产生速度不如其他元数据标准快。元数据的产生速度不如其他元数据标准快。元数据的产生速度不如其他元数据标准快。元数据的产生速度不如其他元数据标准快。DC元数据标准元数据标准即即即即“都柏林核心(都柏林核心(都柏林核心(都柏林核心(Dublin CoreDublin Core)元数据)元数据)元数据)元数据”,由,由,由,由OCLCOCLC首倡于首倡于首倡于首倡于19941994年,因创始地在美国俄亥俄年,因创始地在美国俄亥俄年,因创始地在美国俄亥俄年,因创始地在美国俄亥俄(OhioOhio)首府都柏林而得名。)首府都柏林而得名。)首府都柏林而得名。)首府都柏林而得名。DCDC元数据规范最基本的内容是包含十五个元素的元数据规范最基本的内容是包含十五个元素的元数据规范最基本的内容是包含十五个元素的元数据规范最基本的内容是包含十五个元素的元数据元素集合,用以描述资源对象的语义信息元数据元素集合,用以描述资源对象的语义信息元数据元素集合,用以描述资源对象的语义信息元数据元素集合,用以描述资源对象的语义信息十五个元素是:题名十五个元素是:题名十五个元素是:题名十五个元素是:题名TitleTitle、创建者、创建者、创建者、创建者CreatorCreator、日期、日期、日期、日期DateDate、主题、主题、主题、主题SubjectSubject、出版者、出版者、出版者、出版者PublisherPublisher、类型、类型、类型、类型TypeType、描述描述描述描述DescriptionDescription、其他责任者、其他责任者、其他责任者、其他责任者ContributorContributor、格式、格式、格式、格式FormatFormat、来源、来源、来源、来源SourceSource、权限、权限、权限、权限RightsRights、标识符、标识符、标识符、标识符IdentifierIdentifier、语种、语种、语种、语种LanguageLanguage、关联、关联、关联、关联RelationRelation和覆盖和覆盖和覆盖和覆盖范围范围范围范围CoverageCoverageDC元数据标准的优势元数据标准的优势可以直接处理网络数据可以直接处理网络数据可以直接处理网络数据可以直接处理网络数据通用性:不针对特定学科通用性:不针对特定学科通用性:不针对特定学科通用性:不针对特定学科扩展性:允许网页制作者为了特定目的增加著录扩展性:允许网页制作者为了特定目的增加著录扩展性:允许网页制作者为了特定目的增加著录扩展性:允许网页制作者为了特定目的增加著录项目。项目。项目。项目。适应性:适应网络信息不断变化的发展适应性:适应网络信息不断变化的发展适应性:适应网络信息不断变化的发展适应性:适应网络信息不断变化的发展兼容性:与其他元数据兼容兼容性:与其他元数据兼容兼容性:与其他元数据兼容兼容性:与其他元数据兼容灵活性:每一著录项目可选,也可重复灵活性:每一著录项目可选,也可重复灵活性:每一著录项目可选,也可重复灵活性:每一著录项目可选,也可重复简单性:为网页制作者提供的一种网络信息的著简单性:为网页制作者提供的一种网络信息的著简单性:为网页制作者提供的一种网络信息的著简单性:为网页制作者提供的一种网络信息的著录格式。录格式。录格式。录格式。RDF资源描述框架资源描述框架是万维网联盟(是万维网联盟(是万维网联盟(是万维网联盟(W3CW3C)提出的一组标记语言的技术标准,)提出的一组标记语言的技术标准,)提出的一组标记语言的技术标准,)提出的一组标记语言的技术标准,以便更为丰富地描述和表达网络资源的内容与结构。以便更为丰富地描述和表达网络资源的内容与结构。以便更为丰富地描述和表达网络资源的内容与结构。以便更为丰富地描述和表达网络资源的内容与结构。主要含义:主要含义:主要含义:主要含义:a a、资源:包括一切在、资源:包括一切在、资源:包括一切在、资源:包括一切在WebWeb上被命名、具有上被命名、具有上被命名、具有上被命名、具有URLURL引用的东西;引用的东西;引用的东西;引用的东西;b b、描述:对资源特性的一个声明,包、描述:对资源特性的一个声明,包、描述:对资源特性的一个声明,包、描述:对资源特性的一个声明,包括资源本身的属性和资源之间的关系;括资源本身的属性和资源之间的关系;括资源本身的属性和资源之间的关系;括资源本身的属性和资源之间的关系;c c、框架:与被描、框架:与被描、框架:与被描、框架:与被描述资源及其领域无关的能用模型。述资源及其领域无关的能用模型。述资源及其领域无关的能用模型。述资源及其领域无关的能用模型。RDFRDF用形如用形如用形如用形如“主体谓词客体主体谓词客体主体谓词客体主体谓词客体”的三元组(资源的三元组(资源的三元组(资源的三元组(资源-属性属性属性属性-属性值)来描述属性值)来描述属性值)来描述属性值)来描述WebWeb上的各种资源和它们之间的关系,并上的各种资源和它们之间的关系,并上的各种资源和它们之间的关系,并上的各种资源和它们之间的关系,并提供一种基本的结构在提供一种基本的结构在提供一种基本的结构在提供一种基本的结构在WebWeb上对这些元数据进行编码、交上对这些元数据进行编码、交上对这些元数据进行编码、交上对这些元数据进行编码、交换和重用。换和重用。换和重用。换和重用。通过两个工具的支持:通过两个工具的支持:通过两个工具的支持:通过两个工具的支持:a a、URLURL:用来区分和标识一个声:用来区分和标识一个声:用来区分和标识一个声:用来区分和标识一个声明中的主体、谓词和客体的机器可处理的标识符系统;明中的主体、谓词和客体的机器可处理的标识符系统;明中的主体、谓词和客体的机器可处理的标识符系统;明中的主体、谓词和客体的机器可处理的标识符系统;b b、XMLXML:用以表示以这些声明并这些声明可在机器间交流:用以表示以这些声明并这些声明可在机器间交流:用以表示以这些声明并这些声明可在机器间交流:用以表示以这些声明并这些声明可在机器间交流的机器可处理的语言。的机器可处理的语言。的机器可处理的语言。的机器可处理的语言。具有独立性和可以使用具有独立性和可以使用具有独立性和可以使用具有独立性和可以使用XMLXML作为其描述语法的特点。作为其描述语法的特点。作为其描述语法的特点。作为其描述语法的特点。网络信息的整合网络信息的整合作用作用作用作用l l解决信息资源分散性与读者信息需求综合性的矛盾。解决信息资源分散性与读者信息需求综合性的矛盾。解决信息资源分散性与读者信息需求综合性的矛盾。解决信息资源分散性与读者信息需求综合性的矛盾。l l提高信息资源的利用率。提高信息资源的利用率。提高信息资源的利用率。提高信息资源的利用率。l l追求最大程度的资源共享。追求最大程度的资源共享。追求最大程度的资源共享。追求最大程度的资源共享。发展历程发展历程发展历程发展历程l l面向网络信息组织的整合阶段:主题指南和搜索引擎面向网络信息组织的整合阶段:主题指南和搜索引擎面向网络信息组织的整合阶段:主题指南和搜索引擎面向网络信息组织的整合阶段:主题指南和搜索引擎l l面向异构数据源的数据整合阶段:不同的网络库面向异构数据源的数据整合阶段:不同的网络库面向异构数据源的数据整合阶段:不同的网络库面向异构数据源的数据整合阶段:不同的网络库l l面向应用的信息整合阶段:数据整合和功能整合面向应用的信息整合阶段:数据整合和功能整合面向应用的信息整合阶段:数据整合和功能整合面向应用的信息整合阶段:数据整合和功能整合Z39.50标准标准是严格基于是严格基于是严格基于是严格基于ISOISO的的的的OSIOSI(开放系统互联)参考模型的应用层协议,是(开放系统互联)参考模型的应用层协议,是(开放系统互联)参考模型的应用层协议,是(开放系统互联)参考模型的应用层协议,是一个美国国家标准,其全称是一个美国国家标准,其全称是一个美国国家标准,其全称是一个美国国家标准,其全称是American National Standard American National Standard Information Retrieval Application Service Definition and Protocol Information Retrieval Application Service Definition and Protocol Specification for Open System InterconnectionSpecification for Open System Interconnection:信息检索:应用服务:信息检索:应用服务:信息检索:应用服务:信息检索:应用服务定义与协议规范定义与协议规范定义与协议规范定义与协议规范目的是为了信息系统的开放互联,由于各信息系统分别采用各自的数目的是为了信息系统的开放互联,由于各信息系统分别采用各自的数目的是为了信息系统的开放互联,由于各信息系统分别采用各自的数目的是为了信息系统的开放互联,由于各信息系统分别采用各自的数据库软件,数据的描述格式、访问方式等都各不相同,必须为各自数据库软件,数据的描述格式、访问方式等都各不相同,必须为各自数据库软件,数据的描述格式、访问方式等都各不相同,必须为各自数据库软件,数据的描述格式、访问方式等都各不相同,必须为各自数据库系统建立一个抽象、通用的用户视图,将各个系统的具体实现映据库系统建立一个抽象、通用的用户视图,将各个系统的具体实现映据库系统建立一个抽象、通用的用户视图,将各个系统的具体实现映据库系统建立一个抽象、通用的用户视图,将各个系统的具体实现映射到抽象模型上,才能使不同的系统在一个相互理解的、标准的通信射到抽象模型上,才能使不同的系统在一个相互理解的、标准的通信射到抽象模型上,才能使不同的系统在一个相互理解的、标准的通信射到抽象模型上,才能使不同的系统在一个相互理解的、标准的通信平台上进行交互平台上进行交互平台上进行交互平台上进行交互 允许计算机搜索远程系统上馆藏信息的一种协议,产生可进一步处理允许计算机搜索远程系统上馆藏信息的一种协议,产生可进一步处理允许计算机搜索远程系统上馆藏信息的一种协议,产生可进一步处理允许计算机搜索远程系统上馆藏信息的一种协议,产生可进一步处理的检索结果和检索信息,主要用于检索书目信息。的检索结果和检索信息,主要用于检索书目信息。的检索结果和检索信息,主要用于检索书目信息。的检索结果和检索信息,主要用于检索书目信息。基本服务:初始化、查询、检索、删除结果集、浏览、分类、存取控基本服务:初始化、查询、检索、删除结果集、浏览、分类、存取控基本服务:初始化、查询、检索、删除结果集、浏览、分类、存取控基本服务:初始化、查询、检索、删除结果集、浏览、分类、存取控制、资源控制、解释、扩展服务和终止。制、资源控制、解释、扩展服务和终止。制、资源控制、解释、扩展服务和终止。制、资源控制、解释、扩展服务和终止。应用:资源整合、应用:资源整合、应用:资源整合、应用:资源整合、OPACOPAC、集中编目、馆际互借和采购协调、集中编目、馆际互借和采购协调、集中编目、馆际互借和采购协调、集中编目、馆际互借和采购协调网络信息资源挖掘网络信息资源挖掘Web内容挖掘:从内容挖掘:从Web数据中抽取知识,实数据中抽取知识,实现现Web资源自动检索资源自动检索Web结构挖掘:对结构挖掘:对Web文本结构进行挖掘:文本结构进行挖掘:HITS算法和算法和PageRank算法算法Web使用挖掘:使用挖掘:Web日志挖掘日志挖掘挖掘方法:路径分析技术、关联挖掘技术、挖掘方法:路径分析技术、关联挖掘技术、序列模式挖掘技术、分类技术和聚类技术。序列模式挖掘技术、分类技术和聚类技术。网络信息搜索:搜索引擎网络信息搜索:搜索引擎搜索引擎是采用信息自动跟踪标引等技术、建立在因搜索引擎是采用信息自动跟踪标引等技术、建立在因搜索引擎是采用信息自动跟踪标引等技术、建立在因搜索引擎是采用信息自动跟踪标引等技术、建立在因特网上专门提供网络信息资源导航服务检索工具。特网上专门提供网络信息资源导航服务检索工具。特网上专门提供网络信息资源导航服务检索工具。特网上专门提供网络信息资源导航服务检索工具。分类:分类:分类:分类:基于目录的搜索引擎基于目录的搜索引擎基于目录的搜索引擎基于目录的搜索引擎 基于信息收集程序的搜索引擎基于信息收集程序的搜索引擎基于信息收集程序的搜索引擎基于信息收集程序的搜索引擎 基于客户的搜索引擎基于客户的搜索引擎基于客户的搜索引擎基于客户的搜索引擎 元搜索引擎元搜索引擎元搜索引擎元搜索引擎 分布式搜索引擎分布式搜索引擎分布式搜索引擎分布式搜索引擎三大特点:事先下载,事先组织,实时检索。三大特点:事先下载,事先组织,实时检索。三大特点:事先下载,事先组织,实时检索。三大特点:事先下载,事先组织,实时检索。搜索引擎也是信息检索搜索引擎也是信息检索搜索引擎也是信息检索搜索引擎也是信息检索(Information Retrieval)(Information Retrieval)这门这门这门这门学科的典型应用。学科的典型应用。学科的典型应用。学科的典型应用。搜索引擎的发展历程搜索引擎的发展历程19861986年,年,年,年,InternetInternet正式形成。正式形成。正式形成。正式形成。现代搜索引擎的祖先:现代搜索引擎的祖先:现代搜索引擎的祖先:现代搜索引擎的祖先:19901990年由加拿大蒙特利尔年由加拿大蒙特利尔年由加拿大蒙特利尔年由加拿大蒙特利尔McGillMcGill大学学生大学学生大学学生大学学生Alan Alan EmtageEmtage发明的发明的发明的发明的ArchieArchie,是对,是对,是对,是对FTPFTP文件名搜索,首次采用文件名搜索,首次采用文件名搜索,首次采用文件名搜索,首次采用“机器人机器人机器人机器人”自自自自动爬行程序。动爬行程序。动爬行程序。动爬行程序。第一个用于监测互联网发展规模的第一个用于监测互联网发展规模的第一个用于监测互联网发展规模的第一个用于监测互联网发展规模的“机器人机器人机器人机器人”程序是程序是程序是程序是19931993年年年年MITMIT的的的的Matthew GrayMatthew Gray开发的开发的开发的开发的World wide Web WandererWorld wide Web Wanderer。刚开始它只用来统。刚开始它只用来统。刚开始它只用来统。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。计互联网上的服务器数量,后来则发展为能够检索网站域名。计互联网上的服务器数量,后来则发展为能够检索网站域名。计互联网上的服务器数量,后来则发展为能够检索网站域名。LycosLycos:第一个现代意义上的:第一个现代意义上的:第一个现代意义上的:第一个现代意义上的WEBWEB搜索引擎,搜索引擎,搜索引擎,搜索引擎,CMUCMU机器翻译中心的机器翻译中心的机器翻译中心的机器翻译中心的Michael MauldinMichael Mauldin于于于于19941994年年年年7 7月创建月创建月创建月创建YahooYahoo:斯坦福大学博士生:斯坦福大学博士生:斯坦福大学博士生:斯坦福大学博士生DavidFiloDavidFilo和和和和Jerry Yang(Jerry Yang(杨致远杨致远杨致远杨致远)创建创建创建创建19951995年年年年GoogleGoogle:斯坦福大学博士生:斯坦福大学博士生:斯坦福大学博士生:斯坦福大学博士生Larry PageLarry Page与与与与Sergey Sergey BrinBrin于于于于19981998年年年年9 9月创月创月创月创建,目前是全世界最受欢迎的搜索引擎。建,目前是全世界最受欢迎的搜索引擎。建,目前是全世界最受欢迎的搜索引擎。建,目前是全世界最受欢迎的搜索引擎。BaiduBaidu:超链分析专利发明人、前:超链分析专利发明人、前:超链分析专利发明人、前:超链分析专利发明人、前InfoseekInfoseek资深工程师李彦宏与好友徐资深工程师李彦宏与好友徐资深工程师李彦宏与好友徐资深工程师李彦宏与好友徐勇发布于勇发布于勇发布于勇发布于20012001年年年年1010月,是目前最受欢迎的中文搜索引擎之一。月,是目前最受欢迎的中文搜索引擎之一。月,是目前最受欢迎的中文搜索引擎之一。月,是目前最受欢迎的中文搜索引擎之一。网络搜索引擎和一般信息检索的区别网络搜索引擎和一般信息检索的区别检索对象不同检索对象不同检索对象不同检索对象不同:前者面向大规模、半结构化、质:前者面向大规模、半结构化、质:前者面向大规模、半结构化、质:前者面向大规模、半结构化、质量不一、位置分散、交叉互联、冗余繁杂的量不一、位置分散、交叉互联、冗余繁杂的量不一、位置分散、交叉互联、冗余繁杂的量不一、位置分散、交叉互联、冗余繁杂的WEBWEB数据。后者通常只考虑较高质量自然语言表述的数据。后者通常只考虑较高质量自然语言表述的数据。后者通常只考虑较高质量自然语言表述的数据。后者通常只考虑较高质量自然语言表述的书面文本书面文本书面文本书面文本(如新闻等如新闻等如新闻等如新闻等)。查询方式不尽相同查询方式不尽相同查询方式不尽相同查询方式不尽相同:前者通常为:前者通常为:前者通常为:前者通常为1313个词的短查询,个词的短查询,个词的短查询,个词的短查询,后者考虑各种方式的查询。后者考虑各种方式的查询。后者考虑各种方式的查询。后者考虑各种方式的查询。用户对结果的反应不同用户对结果的反应不同用户对结果的反应不同用户对结果的反应不同:前者的用户通常只关心:前者的用户通常只关心:前者的用户通常只关心:前者的用户通常只关心前几页的结果,更关注准确度。而后者准确度和前几页的结果,更关注准确度。而后者准确度和前几页的结果,更关注准确度。而后者准确度和前几页的结果,更关注准确度。而后者准确度和全面度并重。全面度并重。全面度并重。全面度并重。搜索引擎与全文检索的区别搜索引擎与全文检索的区别数据量:要大于全文检索的数据量数据量:要大于全文检索的数据量内容相关性:内容相关性:安全性:基本无限制安全性:基本无限制个性化和智能化:不足个性化和智能化:不足搜索引擎类型搜索引擎类型按照检索机制分类按照检索机制分类l l检索型检索型检索型检索型/目录型目录型目录型目录型/混合型混合型混合型混合型按照检索内容分类按照检索内容分类l l综合型综合型综合型综合型(通用型通用型通用型通用型)/)/)/)/专题型专题型专题型专题型/特定型特定型特定型特定型按照检索工具数量分类按照检索工具数量分类l l单独型单独型单独型单独型/集合型集合型集合型集合型(元搜索引擎元搜索引擎元搜索引擎元搜索引擎)按照检索资源的类型分类按照检索资源的类型分类l lWEBWEBWEBWEB型型型型/非非非非WEBWEBWEBWEB型型型型搜索引擎基本组成搜索引擎基本组成wwwwww索索 引引 器器检检 索索 器器用用 户户 接接 口口robotrobot文档库文档库索引库索引库组成模块的功能组成模块的功能信息收集或采集信息收集或采集信息收集或采集信息收集或采集(Information Gathering)(Information Gathering)l l获取信息,通常是指从获取信息,通常是指从获取信息,通常是指从获取信息,通常是指从InternetInternet上自动获取信息上自动获取信息上自动获取信息上自动获取信息信息整理和组织信息整理和组织信息整理和组织信息整理和组织(Information Organization)(Information Organization)l l预处理预处理预处理预处理l l文本分析和处理文本分析和处理文本分析和处理文本分析和处理l l信息标引信息标引信息标引信息标引将查询和文档表示成方便检索的某种方式将查询和文档表示成方便检索的某种方式将查询和文档表示成方便检索的某种方式将查询和文档表示成方便检索的某种方式信息搜索信息搜索信息搜索信息搜索(Information Search)(Information Search)l l查询的分析查询的分析查询的分析查询的分析l l相似度计算和排序相似度计算和排序相似度计算和排序相似度计算和排序(Ranking)(Ranking)l l结果摘要结果摘要结果摘要结果摘要搜索引擎的结构与原理搜索引擎的结构与原理在在互互联联网网中中发发现现、搜集网页信息搜集网页信息对对信信息息进进行行提提取取和和组织,建立索引库组织,建立索引库根根据据用用户户的的查查询询在在索索引引库库中中快快速速检检出出文文档档,进进行行文文档档与与查查询询的的相相关关度度评评价价,对对将将要要输输出出的的结结果果进进行行排排序序,并并实实现现某某种种用用户户相相关关性反馈机制。性反馈机制。爬行器爬行器索索引引生生成器成器查查询询检检索器索器搜索引擎的工作流程搜索引擎的工作流程搜索引擎的组成搜索引擎的组成用户接口用户接口输输入入用用户户查查询询,显显示示查查询询结结果果,提提供供用用户户相关性反馈机制。相关性反馈机制。搜索引擎的组成与工作流程的关系搜索引擎的组成与工作流程的关系 爬行器爬行器负责信息的采集工作。它要尽可能多、尽可能快地搜集各负责信息的采集工作。它要尽可能多、尽可能快地搜集各负责信息的采集工作。它要尽可能多、尽可能快地搜集各负责信息的采集工作。它要尽可能多、尽可能快地搜集各种类型的种类型的种类型的种类型的新信息,新信息,新信息,新信息,同时因为互联网上的信息更新很快,还同时因为互联网上的信息更新很快,还同时因为互联网上的信息更新很快,还同时因为互联网上的信息更新很快,还要定期更新已经搜集过的要定期更新已经搜集过的要定期更新已经搜集过的要定期更新已经搜集过的旧信息旧信息旧信息旧信息,以避免死连接和无效连,以避免死连接和无效连,以避免死连接和无效连,以避免死连接和无效连接。接。接。接。搜索引擎的信息采集机制按照人工程度划分,可分为人工搜索引擎的信息采集机制按照人工程度划分,可分为人工搜索引擎的信息采集机制按照人工程度划分,可分为人工搜索引擎的信息采集机制按照人工程度划分,可分为人工采集和自动采集;按照信息时新性,可分为定期搜集和增采集和自动采集;按照信息时新性,可分为定期搜集和增采集和自动采集;按照信息时新性,可分为定期搜集和增采集和自动采集;按照信息时新性,可分为定期搜集和增量搜集两种。量搜集两种。量搜集两种。量搜集两种。人工采集是由专门的信息采集人员跟踪、选择有用的人工采集是由专门的信息采集人员跟踪、选择有用的人工采集是由专门的信息采集人员跟踪、选择有用的人工采集是由专门的信息采集人员跟踪、选择有用的WebWeb站点或页面,对站点的内容和性质进行规范化分析的分类站点或页面,对站点的内容和性质进行规范化分析的分类站点或页面,对站点的内容和性质进行规范化分析的分类站点或页面,对站点的内容和性质进行规范化分析的分类标引,并组建索引数据库。标引,并组建索引数据库。标引,并组建索引数据库。标引,并组建索引数据库。自动采集则是利用能够自动跟踪、收集并标引网页的自动采集则是利用能够自动跟踪、收集并标引网页的自动采集则是利用能够自动跟踪、收集并标引网页的自动采集则是利用能够自动跟踪、收集并标引网页的RobotRobot软件,自动访问软件,自动访问软件,自动访问软件,自动访问WWWWWW,并沿着,并沿着,并沿着,并沿着WWWWWW超文本链,超文本链,超文本链,超文本链,在整个在整个在整个在整个WWWWWW上搜寻页面,建立、维护、更新索引数据库。上搜寻页面,建立、维护、更新索引数据库。上搜寻页面,建立、维护、更新索引数据库。上搜寻页面,建立、维护、更新索引数据库。人工采集与自动采集人工采集与自动采集由于网络信息资源众多,每天都有新的信息出现,人工采由于网络信息资源众多,每天都有新的信息出现,人工采由于网络信息资源众多,每天都有新的信息出现,人工采由于网络信息资源众多,每天都有新的信息出现,人工采集的速度有限;而自动采集能够自动搜索、采集和标引网集的速度有限;而自动采集能够自动搜索、采集和标引网集的速度有限;而自动采集能够自动搜索、采集和标引网集的速度有限;而自动采集能够自动搜索、采集和标引网络上众多的站点和页面,从而保障了对网络信息资源跟踪络上众多的站点和页面,从而保障了对网络信息资源跟踪络上众多的站点和页面,从而保障了对网络信息资源跟踪络上众多的站点和页面,从而保障了对网络信息资源跟踪与检索的有效性和及时性。与检索的有效性和及时性。与检索的有效性和及时性。与检索的有效性和及时性。虽然人工采集的速度不及自动采集,但它是基于专业性的虽然人工采集的速度不及自动采集,但它是基于专业性的虽然人工采集的速度不及自动采集,但它是基于专业性的虽然人工采集的速度不及自动采集,但它是基于专业性的资源选择和分析标引,因此可以保证所采集的资源质量和资源选择和分析标引,因此可以保证所采集的资源质量和资源选择和分析标引,因此可以保证所采集的资源质量和资源选择和分析标引,因此可以保证所采集的资源质量和标引质量。标引质量。标引质量。标引质量。利用人工采集的搜索引擎具有查准率高,查全率低,搜索利用人工采集的搜索引擎具有查准率高,查全率低,搜索利用人工采集的搜索引擎具有查准率高,查全率低,搜索利用人工采集的搜索引擎具有查准率高,查全率低,搜索范围较小的特点;而自动采集搜索引擎虽然获得的信息量范围较小的特点;而自动采集搜索引擎虽然获得的信息量范围较小的特点;而自动采集搜索引擎虽然获得的信息量范围较小的特点;而自动采集搜索引擎虽然获得的信息量大、信息更新及时而且不需要人工干预,但它返回的信息大、信息更新及时而且不需要人工干预,但它返回的信息大、信息更新及时而且不需要人工干预,但它返回的信息大、信息更新及时而且不需要人工干预,但它返回的信息过多,掺杂着有很多无关信息,需要用户从结果中甄选。过多,掺杂着有很多无关信息,需要用户从结果中甄选。过多,掺杂着有很多无关信息,需要用户从结果中甄选。过多,掺杂着有很多无关信息,需要用户从结果中甄选。定期搜集和增量搜集定期搜集和增量搜集定期搜集,每隔一定的时间就重新搜集一次,而且每次的搜集都替换定期搜集,每隔一定的时间就重新搜集一次,而且每次的搜集都替换定期搜集,每隔一定的时间就重新搜集一次,而且每次的搜集都替换定期搜集,每隔一定的时间就重新搜集一次,而且每次的搜集都替换掉上一次的全部内容。掉上一次的全部内容。掉上一次的全部内容。掉上一次的全部内容。由于每次都全部重新搜集,对于规模比较大的搜索引擎来说,每次搜由于每次都全部重新搜集,对于规模比较大的搜索引擎来说,每次搜由于每次都全部重新搜集,对于规模比较大的搜索引擎来说,每次搜由于每次都全部重新搜集,对于规模比较大的搜索引擎来说,每次搜集的时间通常都会花费几周的时间。而且因为这样做开销比较大,通集的时间通常都会花费几周的时间。而且因为这样做开销比较大,通集的时间通常都会花费几周的时间。而且因为这样做开销比较大,通集的时间通常都会花费几周的时间。而且因为这样做开销比较大,通常两次搜集所间隔的时间相对来说会比较长。常两次搜集所间隔的时间相对来说会比较长。常两次搜集所间隔的时间相对来说会比较长。常两次搜集所间隔的时间相对来说会比较长。这种做法的好处是系统实现比较简单,缺点主要是网页这种做法的好处是系统实现比较简单,缺点主要是网页这种做法的好处是系统实现比较简单,缺点主要是网页这种做法的好处是系统实现比较简单,缺点主要是网页“时新性时新性时新性时新性”较较较较低,重复搜集会带来额外的带宽消耗。低,重复搜集会带来额外的带宽消耗。低,重复搜集会带来额外的带宽消耗。低,重复搜集会带来额外的带宽消耗。增量搜集,在开始时搜集一批网页,以后便只搜集新出现的和在上次增量搜集,在开始时搜集一批网页,以后便只搜集新出现的和在上次增量搜集,在开始时搜集一批网页,以后便只搜集新出现的和在上次增量搜集,在开始时搜集一批网页,以后便只搜集新出现的和在上次搜集后有所改变的网页,并检查自从上次搜集之后已经不再存在了的搜集后有所改变的网页,并检查自从上次搜集之后已经不再存在了的搜集后有所改变的网页,并检查自从上次搜集之后已经不再存在了的搜集后有所改变的网页,并检查自从上次搜集之后已经不再存在了的网页,并将其从库中删除。网页,并将其从库中删除。网页,并将其从库中删除。网页,并将其从库中删除。因为除新闻网性站外,许多网页内容的变化频率并不是很高,这样做因为除新闻网性站外,许多网页内容的变化频率并不是很高,这样做因为除新闻网性站外,许多网页内容的变化频率并不是很高,这样做因为除新闻网性站外,许多网页内容的变化频率并不是很高,这样做每次搜集的网页量不会很大,可以经
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!