C计算机检索基础知识.ppt

上传人:max****ui 文档编号:6331732 上传时间:2020-02-23 格式:PPT 页数:44 大小:768.81KB
返回 下载 相关 举报
C计算机检索基础知识.ppt_第1页
第1页 / 共44页
C计算机检索基础知识.ppt_第2页
第2页 / 共44页
C计算机检索基础知识.ppt_第3页
第3页 / 共44页
点击查看更多>>
资源描述
计算机检索基础知识 天津工业大学 计算机检索基本原理计算机检索的特点计算机检索系统的组成计算机检索基础知识计算机检索服务的类型 计算机检索原理 计算机信息检索是指利用计算机存储和检索信息 具体地说 就是指人们在计算机或计算机检索网络的终端机上 使用特定的检索指令 检索词和检索策略 从计算机检索系统的数据库中检索出所需的信息 继而再由终端设备显示或打印的过程 计算机通信网络检索终端设备数据库 数据库结构数据库类型 计算机检索基础知识 逻辑算符截断算符位置算符检索词的确定检索式的制定 逻辑 与 AND and 定义 用于交叉概念或限定关系的组配 即被命中的文献必须同时含有检索项A和B 作用 可缩小检索范围 提高查准率 要求 运用时 把出现频率低的检索词置于 与 的左端 可使答案尽早出现 节省机时 AandB A B 定义 表示两个概念的并列 即被命中的文献含有两词之一或同时包含两词 作用 可扩大检索范围 提高查全率 要求 组构检索式时 可将估计出现频率高的词置于 或 的左面 可使选中的答案尽早出现 逻辑 或 OR or AorB A B computerorrobot 定义 ANOTB在含检索词A的记录中 去掉含检索词B的记录作用 用于排斥关系的组配 即从原来的检索范围排除不需要的概念或影响检索结果的概念 提高查准率 注意 往往会把切题的文献给丢掉 运用时要非常慎重 逻辑 非 NOT not AnotB A B windowsnotmicrosoft 优先级运算 NOT AND OR Childorchildren andlungcancer 截词算符常用 或 表示 允许检索词有一定范围的变化 检索时将截词符置于检索词允许变化的部位 只要检索词和标引词的词干相同即为命中文献 从本质上说 截断算符也是一种逻辑 或 的关系 截断算符 作用 减少检索词的输入量 扩大检索范围 提高检索效率 注意 使用截词检索必须慎重 词干不要太短 以免检出许多与原来检索词不相关的文献记录 截词的形式可以有前截断 中间截断和后截断 前截断 将截词符放在词根前边 后方一致 表示在词根前方有有限个或无限个字符 如 magnetic能够检出含有magnetic ctromagnetic paramagnetic等词的记录 后截断 将截词符放在词根后边 前方一致 表示在词根后方有有限个或无限个字符 如metal 能够检出含有metal metals metaled metalist等词的记录 中间截断 将截词符放在词的中间 词的前后方一致 如colo r 能够检出含有colour color的记录 位置算符 W 与 nW 算符 W 表示其两侧的检索词必须按照前后顺序出现在记录中 而且两词之间不允许插入其他字符和单词 只允许有空格或一个标点符号 nW 中的n表示两检索词中间允许插入的单词数目少于或等于n个 算符两侧检索词的词序不能颠倒 nW 算符主要用来代替检索式中出现的the of等禁用词 N 与 nN 算符 N 表示其两侧的检索词位置可以颠倒 但两词之间不允许插入其他字符和单词 nN 中的n表示两检索词中间允许插入的单词数目少于或等于n个 nN 算符也是用来代替检索式中出现的the of等禁用词 不过两检索词的词序可以颠倒 检索时所用到的词称为检索词 检索词分为 受控词和非受控词受控词 事先规范化的检索词 取自叙词表 分类表等 非受控词 非规范化的自然语言词汇 又称自由词 优先考虑使用受控词 检索词的确定 选择检索词时应注意以下问题 1 选择能代表本课题技术特征的 具有实质意义的词 这些词应为专业通用词 惯用词和术语 2 注意同义词 包括缩写 词的英美式不同拼写及不同词性的词 这些词之间的关系均为 或 如上部分所举的例子 3 限定检索字段 如著者 文摘 篇名 主题词 机构名称 分类号 刊名等 4 限定检索条件 如年份 语种 文献类型等 相同概念检索词扩展 1 同义词扩展法同一概念 尽量选择不同名称 学名 俗名 简称 全称 不同拼写 单复数形式等 2 截词法词干相同 词义相近 但词尾或词中有变化时 可采用截词算符扩展检索词 3 主题词表法尽量选用词表中的规范词 利用词表的上位概念 下位概念扩大或缩小主题范围 恰当选择检索词 1 要尽量使用单元词2 概念不能过大或过小3 多主题概念的选词以 简 为主4 词语要规范化 检索式的制定 数据库由大量的纪录组成 每一条纪录由若干个字段组成 字段有篇名 ti 作者 au 文献来源 so 文摘 ab 主题词 su 文种 la 专利号 pn 分类号 cl 等 在用数据库检索时 检索式的制定是一个关键 首先应考虑检索词在哪个字段中出现 比如 查找D Dutta关于膜技术发表的论文时 则 D Dutta 应在 作者 字段中出现 膜 membrane 应在 主题词 或 文摘 或 篇名 中出现 然后再确定各个检索词之间的逻辑关系 如本例中 D Dutta与膜的关系为逻辑与 则该例的检索策略为 Membrane ab ti suandDutta D au 课题名称一 集散控制在监控系统中的应用 检索式 集散控制 监控系统 应用 题目 关键词 文摘或集散控制 监控系统 题目 关键词 文摘 课题名称二 信息编码与压缩技术 检索式 信息编码and压缩技术 题目 关键词 文摘 举例 课题名称三 查找作者是赵永孟关于数控加工的文献 检索式 赵永孟 作者and数控加工 题目 计算机检索的特点 检索速度快检索途径多更新快资源共享检索方便灵活直接输出检索结果 数据库结构 记录record 描述一个原始信息的外部特征和内部特征字段field 组成记录的数据项目文档file 数据库中一部分记录的有序集合 记录 是数据库的基本单元 是对某一实体属性进行描述的结果 一个数据库由若干条记录构成 每条记录相当于文摘型或题录型检索刊物的一条著录款目 字段 是文献记录的基本单元 一条记录有若干个字段 一个字段有时还可分为几个子字段 Subfield 在书目数据库中 一条记录应包含原始文献的篇名 作者 刊名 出版时间 分类号 文摘 主题词等字段 数据库的字段可分为基本字段和辅助字段 基本字段主要是描述文献内容特征的字段 如篇名 文摘 叙词 自由标引词等字段 辅助字段主要是描述文献外表特征的字段 如著者 机构名称 语种 文献来源等字段 文档 若干条逻辑记录构成的信息集合 文档是书目数据库和文献检索系统中数据组织的基本形式 根据数据库的内部结构 一个数据库至少包含一个顺排文档和一个倒排文档 顺排文档 是按文献记录的输入顺序 即文献序号 排列的文档 相当于印刷型检索工具的正文部分 在顺排文档中 记录按顺序一个接一个地存放 一个存取号对应一条记录 存取号愈大 对应的记录就愈新 由于它存贮有记录的最完整的信息 所以 通常又把它称之为主文档 MasterFile 这种存贮方式决定了对记录的存取只能按顺序进行 如果在顺排文档中检索 对每个检索式都得按顺序从头到尾进行扫描 存贮的记录愈多 扫描的时间愈长 从而严重影响了检索的速度 主要供用户输出和打印文献记录用 倒排文档 把顺排文档中的标引词抽出 按标引词的字母顺序依次排列而成的文档 倒排文档实际上相当于印刷型检索工具中的辅助索引 倒排文档与顺排文档的区别 顺排文档以完整记录作为处理和检索的单元 倒排文档以记录中的字段作为处理和检索的单元 数据库类型 数据库是在计算机存储设备上按一定方式 合理组织并存储的相互有关联的数据的集合 是计算机技术和信息检索技术相结合的产物 是电子信息资源的主体 是信息检索系统的核心部分之一 按所提供的信息内容 数据库主要可分为参考数据库和源数据库 1 参考数据库主要存储一系列描述性信息内容 指引用户到另一信息源以获得完整的原始信息的一类数据库 主要包括书目数据库和指南数据库 1 书目数据库存储描述如目录 题录 文摘等书目线索的数据库 又称二次文献信息数据库 如各种图书馆目录数据库 题录数据库和文摘数据库等属于此类 它的作用是为用户指出了获取原始信息的线索 2 指南数据库存储描述关于机构 人物 产品 活动等对象的数据库 与其它数据库相比 指南数据库为用户提供的不仅仅是有关信息 还包括各种类型的实体 多采用名称进行检索 如存储生产与经营活动信息的机构名录数据库 存储人物信息的人物传记数据库 存储产品或商品信息的产品指南数据库 存储基金信息的基金数据库等属于此类 它的作用指引用户从其它有关信息源获取更详细的信息 2 源数据库主要存储全文 数值 结构式等信息 能直接提供原始信息或具体数据 用户不必再转查其它信息源的数据库 它主要包括全文数据库和数值数据库 1 全文数据库存储原始信息全文或主要部分的一种源数据库 如期刊全文数据库 专利全文数据库 百科全书全文数据库 用户使用某一词汇或短语 便可直接检索出含有该词汇或短语的原始信息的全文 2 数值数据库存储以数值表示信息为主的一种源数据库 和它类似的有文本 数值数据库 与书目数据库比较 数值数据库是对信息进行深加工的产物 可以直接提供所需的数据信息 如各种统计数据库 科学技术数据库等 数值数据库除了一般的检索功能外 还具有准确数据运算功能 数据分析功能 图形处理功能及对检索输出的数据进行排序和重新组织等方面的功能 四 计算机检索服务的类型 联机检索光盘检索网络检索 联机数据库检索 Onlineretrieval用户通过计算机终端设备 通过通讯线路或网络 在联机检索中心的数据库中进行检索并获得信息的过程最大的缺点是检索费用高现在用户量少 CD ROM数据库最初是单机检索 后来逐渐发展出了联机光盘检索联机光盘检索指把单用户系统发展成多用户的局域网系统 通过网络 如校园网 连接多个用户终端 用服务器管理多组光盘数据库及其检索系统 光盘数据库检索 光盘检索的特点 与印刷本相比 存储容量大 占据物理空间小读取速度快费用低对硬件有一定要求 网络数据库检索 Web database用户在自己的客户端上 通过互联网和浏览器界面对数据库进行检索 网络检索特点 免费检索收费检索通过IP地址控制通过用户认证控制IP 用户认证 谢谢
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!