《数字信息检索概论》PPT课件.ppt

上传人:w****2 文档编号:16566306 上传时间:2020-10-13 格式:PPT 页数:46 大小:870.50KB
返回 下载 相关 举报
《数字信息检索概论》PPT课件.ppt_第1页
第1页 / 共46页
《数字信息检索概论》PPT课件.ppt_第2页
第2页 / 共46页
《数字信息检索概论》PPT课件.ppt_第3页
第3页 / 共46页
点击查看更多>>
资源描述
第三讲 数字信息检索概论 2.1 检索的概念及原理 2.2 检索语言 2.3 检索工具概述 2.4 检索方法及检索途径 2.1 信息检索的概念与原理 一、信息检索的基本概念 狭义:是指依据一定的方法,从已经组织好的大量 有关文献信息集合中,查找并获取特定的相关文献 信息的过程。 广义:将信息按照一定的方式组织和 存储 起来,并 根据用户的需求 找出 有关信息的过程。 标引 检索 输入 存储 过程 一次 信息 信息 特征 信息特征 标识 检索 过程 检索 课题 检索 提问 检索提问 标识 分析 分析 标引 输入 图 2-1 信息检索原理图 检 索 结 果 信 息 检 索 语 言 检 索 系 统 信息检索的类型 (根据不同的检索对象): 一、 数据检索: 检索的结果是数据。如某种材料的电阻;某变压器的参数;化学分子式、 数据图表等 (手册 ), 某地方 GDP增长情况 (年鉴 ) 二、 事实检索: 检索的结果是事实结论。查询某一事物(事件)的性质、定义、原理以 及发生的时间、地点过程等。如某产品是哪个厂家生产,哪个牌子的最好; 第一颗人造卫星是什么时候升空的 (年鉴 ) 三、 文献检索: 检索的结果是文献资料。查找相关文献的内容、出处、收藏单位等。如 系统地查找信息检索方面的相关文献 (论文 ) 文献检索是信息检索的一种最基本的、最主要的形式。 2.2 检索语言 检索语言 是应文献信息的加工、存储和 检索的共同需要而编制的专门语言,是表达 一系列概括文献信息内容和检索课题内容的 概念及其相互关系的一种概念标识系统。 1.检索语言的主要作用: 标引文献信息内容及其外表特征,保证不同标引人员表征文 献的一致性; 对内容相同及相关的文献信息加以集中或揭示其相关性; 使文献信息的存储集中化、系统化、组织化,便于检索者按 照一定的排列次序进行有序化检索; 保证检索者按不同需要检索文献时,都能获得最高查全率和 查准率。 检索语言按规范化程度划分: 自然语言 和 受 控语言 2.信息检索语言的种类 自然语言: 信息检索系统中使用的标引词直接来自文献和用 户提问而不加控制的一类检索语言,主要有关键词语言。 自然语言的应用以计算机为前提,否则,自然语言检索 将难以实现。 受控语言: 标引词来自文献或者用户,并受到信息检索系统 的控制的一类检索语言的总称,又叫规范化语言,主要包括 分类语言和主题语言。 按照其结构原理来划分,信息检索语言主要有 : 信 息 检 索 语 言 分类语言 名称语言 主题语言 代码语言 引文语言 等级体系分类语言 分面组配分类语言 标题词语言 元词语言 叙词语言 关键词语言 检索工具是人们用来存储、报道和查找 各类信息的工具 。 按著录信息的特征划分 著录是指编制检索工具时对文献的内容和形 式特征进行分析、选择和记录的过程。 目录型检索工具 文摘型检索工具 索引型检索工具 一、检索工具的定义及类型 2.3 检索工具概述 按收录的范围可分为:国家书目、联合目录、馆藏 目录、出版社目录。 作用: 了解本学科的研究历史和研究现状。 通过古今种类书目,可查寻与研究课题密切 相关的事实和资料。 1、目录型检索工具 各时期有代表性书目: 四库全书总目提要 、 民国时期总书 目 、 中国国家书目 、 全国总书目 、 全国新书目 。 联合目录主要有: OCLC联机目录和 CALIS联合 目录。 OCLC(联机计算机图书馆中心)是世界上最大的 提供网络文献信息服务和研究的机构。 CALIS(中国高等教育文献保障系统)提供以中国 高等教育数字图书馆为核心的中国高校图书馆联 合目录。 2、文摘型检索工具 特点:具有摘要。如: 中国生物学 文摘 、美国 化学文摘 图 2-2 EI的一例文摘 3、索引型检索工具 索引一般是附在专著或年鉴、百科全书等工具书 之后以及收录内容较多的二次文献之后,按主题词、人 名、地名、事件、概念等内容要项编排,按其内容可分 为主题索引、分类索引、关键词索引、引文索引。 图 2-3 中国大百科全书 的一例索引 按载体划分 : 计算机检索工具 电子图书、网络版期刊库、专利文献、学位论文数据库。 印刷本检索工具 百科全书、手册、统计资料、年鉴和各个专业的文摘、 索引,还有提供检索依据的分类表和主题词表。 目前的电子版图书与印刷版图书相比没有明显优势,特 别是古籍的电子版图书还不能代替纸本图书。 按所收信息的学科内容划分 : 综合性检索工具 我国的综合性数据库其加工深度不及专业性检 索工具,检索途径少。 专科性检索工具 能够比较集中、迅速准确和全面地反映某学科 领域的最新发展状况和最前沿的科研水平。详细完 整的专业信息极具针对性。 二 、 检索工具的选择 考虑学科范围、信息类型和数据量 【 例题 】 用 _检索 -呋喃甲醇羧酸酯的合成、含有碳和氢元素 的化合物的英文综合学术性文献。 A.外文 Elsevier数据库 B.外文农业类 CAB文摘数据库 C.外文农业类 AGRICOLA数据库 D.外文食品科技文摘数据库 FSTA 了解收录的文献类型 【 例题 】 已知参考文献:徐经长等 .国际会计学 .中国人民大学出 版社 .1999.要找原文,使用 _检索 国际会计学 。 A.中文科技期刊数据库 B.中国人民大学报刊全文数据库 C.国务院发展研究中心 D.图书馆的馆藏查询 信息网 【 例题 】 使用 检索中国专利: CN03250961.8苗间 除草机构密封传动箱。 A.维普中文科技期刊数据库 B.图书馆馆藏查询 C.中国人民大学报刊全文数据库 D.中国国家知识产权 大 局专利数据库 E.中国国家科技图书文献中心 (NSTL) 【 例题 】 用 检索编号是 GB/T17302.2-1998的文献 A.中国国家知识产权局 B.中国国家科技图书 专利数据库 文献中心 (NSTL) C.国务院发展研究中心信息网 D. 中国标准信息服务网 考虑信息的时间范围 同一个数据库版本不同,时效性也不一定相同。 例如清华大学图书馆收藏的 工程索引 ( EI)各种 载体及馆藏的简况比较: 印刷版( EI)月刊,年度更新,收录文献源 2600种, 馆藏年限 1968-1996。 光盘版( Ei Compendex)季度更新,收录文献源 2600 种,馆藏年限 1970 1997年。 网络版( Ei CompendexWeb)包括光盘版( Ei Compendex)和 Ei PageOne两部分,半月更新,收录文献 源 5000种,馆藏年限 1970至今。 因此网络版( Ei CompendexWeb)信息更新最快,量最大。 三、检索方法 1常规法: 所谓常规法就是利用常规检索工具查找有关 文献的方法 顺查法、倒查法、时间抽样法 2引文法 就是查找参考文献的方法。由远及近地搜 寻 ;由近及远地追溯 3交替法 引文法和常规法结合 四、检索途径 1、 主题途径 2、 分类途径 3、 责任者 /著者途径 4、 号码途径 【 什么是主题 】 主题 “ 是一组具有共性事物的总称,用以表达文 献所论述和研究的具体对象和问题 ” ,即文献的 “ 中 心内容 ” 。 【 什么是主题词 】 表达主题概念的词汇就是主题词。 狭义的主题词仅指叙词 ; 广义主题词可以分为规范词汇和自由词汇,包括 标题词、单元词、叙词、关键词。 【 主题词的规范 】 同义词(近义词)、多义词(一词多义)和相关 关系词的规范化处理。 1、主题途径 ( 3)主题途径的优缺点 1)优点 适合特性检索,查准率高 【 实例 】 主题词 “ C语言 程序设计 ” 就比分类号 TP312表达 得更准 2)缺点 通常不适合族性检索,查全率比分类号低。 【 实例 】 计算机类词典采用 “ 计算机 ” 、 “ 词典 ” 等词组合 检索,不如用一个分类号 “ TP3-61”检索的数量多。 由于很规范,非专业人士难以掌握。 【 实例 】 图书 C+ Builder5程序设计 应该用 “ C语言 程序设计 ” 作为主题词。 【 获取主题词的技巧 】 在图书的版权页可以找 到在版编目里面的主题词和分类号码。或者 在图书馆的馆藏数据找到主题词。例如查找 C+ Builder6实用编程 100例 一书在图 书馆的馆藏数据中可以找到主题词是 “ C语 言 程序设计 ” 等。 【 实例 】 版权页 样例如右图所 示 2、分类途径 ( 1)图书期刊分类法 ( 2)专利分类法 ( 3)标准文献分类法 ( 4)分类途径的优缺点 ( 1)图书期刊分类法 世界三大图书分类法: 杜威十进分类法 (DDC)( Dewey decimal Classification) 国际十进分类法 (UDC)( Universal Decimal Classification) 国会图书馆图书分类法 (LCC)( Library congress classification) 中国图书分类法: 中国图书馆分类法 (中图法) 中国科学院图书馆分类法 (科图法) 中国人民大学图书馆分类法 (人大法) 中图法 介绍 中图法 中国图书馆分类法 ,以学科来组织知 识,将全部知识领域划分为 5个基本部类, 22大类。 五大部类分别为: 马列主义、毛泽东思想; 哲学; 社会科学; 自然科学; 综合性图书。 A 马克思主义 、 列宁主义 毛泽东思想 、 邓小平理论 B 哲学 、 宗教 C 社会科学总论 D 政治 、 法律 E 军事 F 经济 G 文化 、 科学 、 教育 、 体育 H 语言 、 文字 I 文学 J 艺术 K 历史 、 地理 N 自然科学总论 O 数理科学和化学 P 天文学 、 地球科学 Q 生物科学 R 医药 、 卫生 S 农业科学 T 工业技术 U 交通运输 V 航空 、 航天 X 环境科学 、 安全科学 Z 综合性图书 U1 综合运输 U2 铁路运输 U4 公路运输 U6 水路运输 U8 航空运输 U41 道路工程 U44 桥涵工程 U45 隧道工程 U46 汽车工程 U48 其他道路 运输工具 U49 交通工程与公路 运输技术管理 U441 结构原理 、 结构力学 U442 勘测 、 设计 与计算 U443 桥梁构造 U444 桥梁建筑材料 U445 桥梁施工 U446 桥梁试验观测 与检定 U447 桥梁安全与 事故 U448 各种桥型 U449 涵洞工程 图 2-4 中图法 结构示意图 简表 马列 哲学 社会 科学 自然 科学 综合 基本大类 详表 T类又可分为以下几类 TB 一般工业技术 TD 矿业技术 TE 石油、天然气工业 TF 冶金工业 TG 金属学、金属工艺 TH 机械、仪表工艺 TJ 武器工业 TK 动力工程 TL 原子能技术 TM 电工技术 TN 无线电电子学,电信技术 TP 自动化技术,计算机技术 TQ 化学工业 TS 轻工业、手工业 TU 建筑科学 TV 水利工程 中图法 从大类到小类,层层展开,不断细分, 形成完整的知识体系。 例如: 关于红楼梦研究资料的分类为 I207.411 I 文学 I2 中国文学 I207 文学评论和研究 I207.4 小说研究 I207.41 古代小说研究 I207.411 红楼梦 研究与评论 有关互联网的知识分类为 TP393.4 T 工业技术 TP 自动化技术 计算机技术 TP3 计算机技术 TP39 计算机的应用 TP393 计算机网络 TP393.4 国际互联网 【 例题 】 哲学辞典 类号为: B-61 【 例题 】 法国的货币与银行 的类号为: F825.65 【 题解 】 ( 1)分析课题属于经济大类,具体是会计学。 ( 2)时间要求一般是 10年。 ( 3)选择检索工具维普 中文科技期刊数据库 ( 4)确定检索途径 采用具有族性检索功能分类途径。 ( 5)确定检索标识 此处的检索标识就是准确的分类号。 通过维普 中文科技期刊数据库 的 “ 分类检 索 ” 可以更快捷地检索分类号。 【 例题 】 通过分类途径检索有关“会计检 查和监督”的期刊论文 结果如下: F23会计 F230 会计学(簿记学、会计核算理论入此) F231 会计簿记方法 F231.1 资产负债表 F231.2 复式记帐和帐户 F231.3 会计凭证和财产清查 F231.4 帐簿和记帐技术 F231.5 会计报表 F231.6 会计检查和监督 确认 “ 会计检查和监督 ” 的分类号是 “ F231.6”。 ( 6)检索 在分类号字段输入 “ F231.6”就能检索出期刊论文。 ( 2)专利分类法 专利类法是根据专利的功能(效果)或其 用途所属的行业部分来分类,目前,世界上大 部分国家采用国际专利分类法 ( International Patent Classification, 简称 IPC) 国际专利分类法 (简称 IPC), IPC适 用于 发明 和 实用新型 专利的分类 。 部 号 部名 分部名 部号 部名 分部名 A 人类生活必 需 农业 E 固定建筑物 建筑 食品;烟草 钻进;采矿 个人或家用物 品 保健;娱乐 B 作业;运输 分离;混合 F 机械工程; 照明;采暖; 武器;爆破 发动机和泵 成型 一般工程 印刷 照明;加热 交通运输 武器;爆破 C 化学;冶金 化学 G 物理 仪器 冶金 核子学 D 纺织;造纸 纺织或未列入 其他类的柔性 材料 H 电学 造纸 IPC分类简表 第 2 讲 信息检索基 础 ( 3) 标准文献分类法 世界各国的标准分类法同文献资料分类法类似,或以数字为标记、 或以字母为标记、或以字母和数字混合为标记。 我国的标准分类法采用混合标记,一级类目以专业划分,用字母表 示类号,二级类目采用等级列类方法用双位制数字表示。排检时先按照 字母顺序,大类相同再按双位数字顺序排列。中国标准分类法 ( Chinese Classification for Standards,简称 CCS) 【 部分分类 】 A 综合 00 09 标准化管理与一般规定 10 19 经济、文化 20 39 基础标准 40 49 基础学科 50 64 计量 65 74 标准物质 75 79 测绘 B 农业林业 00 09 农业、林业综合 10 14 土壤与肥料 15 19 植物保护 20 29 粮食与饲料作物 30 39 经济作物 40 49 畜牧 50 59 水产、渔业 ( 4)分类途径的优缺点 1)优点 (1)族性检索 ,查全率较高。 (2)按照人们认识事物的习惯,以学科分类为基础,容易被 人们接受和应用 【 例题 】 检索英语会话类辞典,例如 美国语会话百科 、 英语会话大全 、 现代英汉生活用语图解词典 ,请 选择,哪种检索途径才能够同时查出这 3本书? 【 选项 】 A.用关键词 “ 会话 ” 和 “ 词典 ” B.用中国图书分类号 H319.9-61 C.用书名 “ 英语会话 ” 和 “ 大全 ” D.用书名 “ 英语会话 ” 和 “ 词典 ” 2)缺点 (1)不适用于特性检索,查准率比主题词低 (2)不能适应学科发展中的变化,难以反映新学科和新 名词术语 【 实例 】 食品风险分析是保证食品安全的一种新模式, 同时也是一门正在发展中的新兴学科。风险分析的目标在 于保护消费者的健康和促进公平的食品贸易。目前的文章 在分类上暂时归入 R155.5 食品卫生与检验和 TS201.6 食品安全与卫生。没有一个专门的 “ 食品风 险分析 ” 分类号。 3、责任者 /著者途径 英文版著者索引中人名规则 1按姓、名次序排列。 2同姓名著者,先按名字的首字母顺序排列,不全者排 在全者之前,单名排在双名之前,简名排在全名之前。 3复姓作者,将复姓作整体看待 4团体著者也同个人著者一样,按团体单位名称的字顺 排列。 【 实例 】 Arrow B. Smith 著录为: Smith , Arrow B. 【 实例 】 Smith,Amey Smith,A.A Smith,Alice Amey 【 实例 】 Margaret Martin-Smith著录为: Martin-Smith, Margaret 5翻译为英文的中国著者姓名 ( 1)翻译的规则 分为音译和意译。中国著者姓名和团体机构名称的音译,一般 用汉语拼音。 【 实例 】 原西南师范大学在欧洲专利数据库就有三种写法: Southwest China Normal University Southwest Normal University Xinan Teachers, University 有的数据库例如 工程索引 常将 University缩写成 Univ。 ( 2)拼写形式 【 例题 】 在英文数据库检索作者 “ 金长青 ” 的论文, 作者名除了 “ Jin, ChangQing”还有其他拼写形式? 【 题解 】 Jin, Chang-Qing JinCQ Jin, C.Q Jin, C.Q. Jin, C.-Q 4、 号码途径 常见的号码索引: ISBN号、索书号、 ISSN号、专利号、入藏号、报告号、标准编号 常见的专用符号代码索引: 元素符号、分子式、结构式等 常见的专用名词术语索引 地名、机构名、商品名、生物属名等 注 :索书号 :由两部分组成,中间用空格隔开。 第一部分是根据图书的学科主题所取用的分类号码。 第二部分是按照图书作者姓名所编排的著者号码,或者是按照图 书进入馆藏时间的先后所取用的顺序号码。 种次号 中图分类号 Thank You !
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!