秋研究生中文数据库信息检索讲座

上传人:青*** 文档编号:252659736 上传时间:2024-11-19 格式:PPTX 页数:35 大小:2.60MB
返回 下载 相关 举报
秋研究生中文数据库信息检索讲座_第1页
第1页 / 共35页
秋研究生中文数据库信息检索讲座_第2页
第2页 / 共35页
秋研究生中文数据库信息检索讲座_第3页
第3页 / 共35页
点击查看更多>>
资源描述
Slide Title,Body Text,Second Level,Third Level,Fourth Level,Fifth Level,信息检索系统基础知识,信息检索系统的核心和概括,主要由文献信息资源库和资源索引构成。文献信息资源库:即文献信息资源描述体序列,由文献信息资源描述体按照一定的描述规则描述信息资源以及一定的顺序对信息资源排列组成文献信息资源集合。文献信息资源索引:即文献信息资源标识序列,由文献信息资源的标引标识按一定顺序排列而组成的集合。检索的实现就依赖于此。,构成信息检索系统的条件,为能实施信息检索,信息检索系统必须具备如下条件:,(1),详细描述与著录文献信息资源的外部与内容特征;,(2),具有既定的检索标识,可以是检索点中任何内容,作为检索标识;,(3),依据已经描述出的信息资源的标识,对信息资源进行科学合理的排列,形成文献信息资源库;,(4),依据信息资源的描述结果与检索点,提供各种检索途径。,检索语言的种类,检索语言主要有外表特征语言、内容特征语言两大种类。,1.,外表特征检索语言从信息表现出的外在特点对信息资源进行描述,从外表途径对信息资源进行组织。用户从所能感知到的信息资源外在特征,进行信息的检索。,2.,内容特征检索语言主要从信息的内容着手,对信息资源、文献信息内在的内容特征进行描述,对信息资源、文献信息从内容角度上进行组织。用户从所需信息的内容入手,用内容特征检索语言表达信息内容特征概念,形成内容特征的检索策略,并实施从信息内容特征为途径的信息检索。,1.,分类语言,其中最为常见的是等级体系型分类语言。就其对信息组织的功能而言,体系分类语言被应用对信息所含学科内容特征的组织。体系分类语言在计算机检索系统里,形成数据库中的分类检索途径的倒排文档。,2.,主题语言,其中常用的有标题词语言、叙词语言、关键词语言。主题语言可以用来进行信息主题内容的组织,形成信息主题索引等。在计算机检索系统里,形成数据库中主题检索途径的倒排文档。,主题语言的种类,1.,标题词,:,所谓标题词,是指经过词汇控制、经过规范化处理的名词术语等自然语言,用来标引与检索文献信息的词或词组。标题词语言是一种先组配式语言。,2.,叙词,:,叙词是指经过规范化处理的,以基本概念为基础的自然语言,用来标引与检索文献信息的词或部分词组。叙词语言是一种后组式语言。,3.,关键词,:,关键词,是指那些出现在文献信息的标题、摘要、正文中,对描述文献信息主题内容具有实质意义的词语,亦即对提示和描述信息主题内容是重要的、带关键性的词语。关键词基本上不作规范化处理,或者仅是极少量的规范化处理。,信息检索过程,1.,确定信息检索的途径,检索途径是用户与检索系统建立联系的中介,检索途径也称为检索点、检索入口。检索途径一般分为反映信息内容特征的途径与反映信息资源外表特征的途径。,内容特征检索途径,分类途径,信息组织原理中,给信息资源标引上分类标识,产生信息资源的特征点。利用这样的特征点进行信息检索,就是分类途径检索。利用分类途径检索时,能够检索到的信息都是属于这个学科,所以是学科族性检索。,主题途径,信息组织原理中,给信息资源标引上主题标识,产生信息资源的特征点与检索入口点。利用这样的特征点与入口点进行信息检索,就是主题途径检索。在利用主题途径检索时,能够检索到的信息都是属于这个主题内容的,所以主题途径检索是特性性检索。,外表特征检索途径,1.,著者途径,2.,题名途径,3.,序号途径,4.,引文途径,5.,其他途径,各类检索途径的组合选择,但在实施信息检索时,特别是在计算机检索系统中,往往将两种检索途径结合使用,其检索效果表现更加良好。,1.,内容特征结合外表特征的扩大检索,2.,外表特征结合内容特征的扩大检索,2.,确定检索的限制条件,目的是优化检索结果。,检索条件一般有:(,1,)受检信息的时间限制。(,2,)检索词匹配方式限制。一般在中文计算机检索系统中常有对检索提问标识词匹配上的限制条件,即所谓检索词的精确匹配与模糊匹配。外文检索系统中还有“”、,、(,W,)、(,N,)、?等检索词匹配算符的应用,其主要目的也都是为了扩大、缩小检索范围,提高检索的效率。(,3,)受检信息查询范围限制。(,4,)受检信息语种与地区限制。(,5,)输出信息排序限制。,3.,制定检索策略,所谓检索策略就是检索前制定的检索概念组配和执行顺序的方案,检索策略更是表达用户具体的检索思想与检索要求。,4.,实施具体的检索,完成以上各步之后,就可以使用检索系统或工具进行具体的检索。,5.,读取与研判信息记录(全文),在读取信息记录或信息全文时,检索用户要认真审视信息记录或全文中的信息内容,判断是否与信息需求相吻合,研判与需求的相关性,为进一步检索作铺垫。,6.,检索策略的调整,检索策略的调整,可以使检索的深度、检索范围、检索到的信息数量得到变化,以达到检索出的信息尽可能与需求吻合,直至得到比较满意的结果。检索策略的调整,主要通过对选用的学科分类级别与范围的调整、主题词的更改以及主题词的概念组配的调整、检索式的优化等实现。,计算机信息检索策略,狭义的计算机检索策略指进行计算机检索时构建的检索表达式。检索系统将检索表达式与系统中存储的文献信息特征标识及其逻辑组配关系进行类比、匹配然后输出检索结果。布尔检索就是采用布尔代数中的逻辑与、逻辑或、逻辑非等运算符,将检索提问转换成逻辑表达式。,这些逻辑运算可以将同字段(同检索途径)、不同字段(不同检索途径)的检索内容予以逻辑匹配。布尔逻辑检索,就是模拟人的逻辑思想、逻辑要求。,以餐饮为例的逻辑思想,通常,人的思想很容易以语言来表达,但检索就不是这么回事,以餐饮为例的逻辑思想:,通常,人的思想很容易以语言,来表达,但检索就不是这么回,事。所以要用逻辑算符将检索,词予以组合。,布尔逻辑算符用来表示两个表达式之间的逻辑关系,包括逻辑与(,AND,)、逻辑或(,OR,)、逻辑非(,NOT,)。(,1,),逻辑“与”,AND,、,*算符 用于表达交叉概念、限定关系的复杂概念的事件、事物、名词。,逻辑“与”的作用是缩小了检索范围。,A,*,B,=,C,=,保险理赔*海上货运,=,海运货物保险理赔,38,条记录,*计算机通过“与”运算将,A,、,B,两,概念中共有的海运货物保险理赔复杂概念共,38,条记录输出,A,B,C,保 险 理 赔,(,288,条记录),海 上 货 运,(,108,条记录),海运货物保险理赔(,38,条记录),(,2,)逻辑“或”,OR,、,+,算符 用于表达并列概念的复杂概念的事件、事物、名词。逻辑“或”的作用是扩大了检索范围。,A,+,B,=,运载工具,+,海上运输,=40,条记录,*计算机通过“或”运算将运载工具文献和海上运输文献共计,40,条记录输出,B,A,运 载 工 具,(,28,条记录),海 上 运 输,(,20,条记录),(,3,),逻辑“非”,NOT,、,-,算符,“非”运算符的作用是从某个检索范围中去除不需要的概念,作用是缩小检索结果的范围,达到专指度,增强检索的准确性。,用于表达某种复杂概念中排除了不需要的概念后的事件、事物、名词。,A,-,B,=,“,A,”,=,除,VLCC,船舶市场外其他船舶市场(,80,条记录),*计算机通过“非”运算将除,VLCC,船舶外的其他船舶市场,80,条记录输出,A,B,A*B=C,C,船 舶 市 场,(,98,条记录),VLCC,船 舶,(,36,条记录),“,A,”,除,VLCC,船舶市场外其他,船舶市场(,80,条记录),检索策略的调整,检索策略输入检索系统后,系统响应的结果有时不一定满足要,求,表现为输出文献信息太多、太少或为零,这就需要调整检索策,略。,输出过多的情况原因:,用了多个多义词,截词过短,输入的检索词太少,应该用“与”却用了“或”,优先运算符使用错误,输出过少的情况原因:,遗漏重要的同义词或隐含概念,检索词过于冷僻具体,未能用好截词符,位置算符使用过多,使用过多的“与”,检索策略调整方法:,减少同义词或同族相关词,减少截词用法或放长截词,用“与”换“或”,使用精确检索方式,使用“非”算符排除无关概念,减少“与”增加“或”,增加同义词或相关词,放粗截词符的用法,减少位置算符,使用,“,模糊检索,”,“,过多”,原因的调整,“,过少”,原因的调整,检索途径(字段)限制检索,字段限制检索是限定检索词在检索系统提供的可供使用的特定的检索途径下进行检索。对检索字段的选择已经成为数据库信息检索的必要步骤之一。检索系统提供的检索字段基本上包括文献题名、著者、文献来源、主题词、关键词、文摘、出版年等。每个字段都有相应的字段代码来表示,通常是两个大写字母。例如“,TI,”,表示“文献题名”。,为了方便用户使用检索系统,检索系统提供让读者选择检索字段,而不用手工输入。而为了满足专家级的用户的使用需求,更加灵活快速的找到需求的信息,检索系统提供了使用字段代码来构建检索表达式的方法。例如检索表达式“,TI=,(安全),AND AB=,(防火墙)”将返回文献题名中包含“安全”并且文摘中包含“防火墙”的文献。,依据前述,这些字段用逻辑运算符给予组合,实现检索。,如何进入数据库(校外),如何进入数据库(校外),如何进入数据库(校外),输入学号,也可以:,(清华同方),清华同方数据库检索,CNKI,数字图书馆具有夯实的文献资源基础。目前,共正式出版了,25,个中外文各类数据库。使,CNKI,数字图书馆所囊括的资源总量达到全国同类资源总量的,90%,以上。,CNKI,数据库主要使用的有:,中国学术期刊全文数据库,中国优秀博、硕士学位论文全文数据库,中国重要会议论文集全文数据库,中国重要报纸全文数据库,清华同方数据库检索(跨库),跨库检索输入,学科限定,数据库子库,清华同方数据库检索(单库),清华同方数据库检索(标准),清华同方数据库检索(高级),清华同方数据库检索(专业),清华同方数据库检索(引文),清华同方数据库检索(句子),清华同方数据库检索(注意),输出排序,检索词的组配方式(模糊、精确),专业检索时的逻辑组配符号(同字段、不同字段),相关检索词的选用,检索历史的调用,检索词的词频选用,注意相关功能的应用(期刊单库),清华同方数据库检索(注意),注意文摘阅读,用引文关系,扩大检索(知网节),充分利用文摘处外文关键词、外文摘要,利用文摘处的关键词扩大检索,利用,CAJ,文献阅读器,学会“专业检索”,数据库其他功能的运用,清华同方数据库检索(排序),选择不同排序方式输出信息,以,便捷地检索到相关信息,清华同方数据库检索(相关检索词的选用),清华同方数据库检索(相关检索词的选用),清华同方数据库检索(用引文关系,扩大检索),清华同方数据库检索(用引文关系,扩大检索),
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸设计 > 开题报告


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!