NO3信息检索语言与技术.ppt

上传人:tia****nde 文档编号:12707236 上传时间:2020-05-14 格式:PPT 页数:47 大小:877KB
返回 下载 相关 举报
NO3信息检索语言与技术.ppt_第1页
第1页 / 共47页
NO3信息检索语言与技术.ppt_第2页
第2页 / 共47页
NO3信息检索语言与技术.ppt_第3页
第3页 / 共47页
点击查看更多>>
资源描述
1,第三讲:基础知识-信息检索语言与技术,信息检索,2,第二讲回顾:小结NO4,信息源的三大划分标准:载体形式、处理级别、编辑出版形式。其中后两种是极其重要的。不同的需求选择不同的信息源。哪些信息源是你撰写学术论文必须的网络资源和数据库作为涉及到各种类型信息资源。根据“信息源划分示意图”理解不同信息源划分之间的关系。根据“信息处理级别示意图”理解不同出版形式的信息源之间的关系。,3,第二讲回顾:小结NO5,检索与查找的区别信息检索的含义、原理、类型、意义信息检索工具、方法、步骤信息检索类型划分示意图能通过“信息检索原理图”理解信息检索原理能够借助“信息检索步骤示意图”理解并记忆信息检索五步骤,4,第二讲作业讲评,认识和选择信息源,5,1信息检索语言,信息检索语言=信息组织与存储的方法或规则,6,1.1什么是信息检索语言,回顾“信息检索原理图”,作为信息检索的桥梁信息检索语言含义:是根据信息检索系统存储和检索的需要而编制的人工语言。语言词汇语法信息检索语言的词汇:分类号、检索词、代码信息检索语言的语法:如何正确描述记录和有效地检索记录的一整套规则。,7,1.2信息检索语言类型示意图,文献信息分类网络信息分类数据库信息分类,8,1.3.1文献信息分类语言,国内中国图书馆分类法中图法中国科学院图书馆图书分类法科图法中国人民大学图书馆图书分类法人大法中国图书分类法台湾赖永祥编订国外杜威十进分类法DDC国会图书馆分类法LCC,9,中图法等级分类体系,H1H2H3R1,10,中图法结构示意图,A马克思主义、列宁主义毛泽东思想、邓小平理论B哲学、宗教C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理N自然科学总论O数理科学和化学P天文学、地球科学Q生物科学R医药、卫生S农业科学T工业技术U交通运输V航空、航天X环境科学、安全科学Z综合性图书,U1综合运输U2铁路运输U4公路运输U6水路运输U8航空运输,U41道路工程U44桥涵工程U45隧道工程U46汽车工程U48其他道路运输工具U49交通工程与公路运输技术管理,U441结构原理、结构力学U442勘测、设计与计算U443桥梁构造U444桥梁建筑材料U445桥梁施工U446桥梁试验观测与检定U447桥梁安全与事故U448各种桥型U449涵洞工程,基本大类简表详表,11,中国科学院图书馆图书分类法简表(第三版),00马克思列宁主义毛泽东思想10哲学20社会科学(总论)21历史、历史学27经济、经济学31政治、社会生活34法律、法学36军事、军事学37文化、科学、教育、体育41语言、文字学42文学48艺术49无神论、宗教学,50自然科学(总论)51数学52力学53物理学54化学55天文学56地球科学(地学)58生物科学61医药、卫生65农业科学66农作物67园艺68林业、林业科学,71工程技术72能源学、动力工程73电技术、电子技术74矿业工程75金属学(物理冶金)76冶金学77金属工艺、金属加工78机械工程、机器制造81化学83食品工业85轻工业、手工业及生活供应技术86土木建筑工程87运输工程90综合性图书,12,人大法简表,1.马克思主义、列宁主义、毛泽东思想2.哲学3.社会科学、政治4.经济5.军事6.法律7.文化、教育、科学、体育8.艺术,9.语言、文字10.文学11.历史12.地理13.自然科学14.医药卫生15.工程技术16.农业科学技术17.综合参考,13,中国图书分类法(台湾),000总论100哲学200宗教300自然科学400应用科学600历史、地理700历史、地理800语文900美术,310数学320天文330物理340化学350地质360生物、博物370植物380动物390人类学,410医学420家政430农业440工程450矿冶460化学工业470制造480商业490商学,441土木工程442道路工程443水利工程444船舶工程445市政工程446机械工程447陆空交通448电气工程449核子工程,14,杜威十进分类法(DDC),000总论100哲学200宗教300社会科学400语言500自然科学600应用科学700艺术800文学900历史、地理,510数学520天文学530物理学540化学550地球科学560古生物学570生命科学580植物学590动物学,621应用物理学622采矿623军事及航海工程624土木工程625道路工程627水力工程628卫生及市政工程629其它工程610医学620工程与应用科学630农业640家政650管理科学660化学工业670制造业680特种制造业690建筑,15,美国国会图书馆分类法(LCC),A综合性类目B哲学、宗教C历史辅助科学D历史与地方志(美洲以外)EF美洲历史与地方志G地理学、人类学H社会科学J政治学K法律L教育,M音乐N艺术P语言、文字学Q自然科学R医学S农业、矿业T工业技术U军事科学V海军Z目录学、图书馆学,QA数学QB天文学QC物理学QD化学QE地质学TA工程总论TC水力工程TD卫生工程和市政工程TF铁道工程和运输TG桥梁工程TH建筑工程,16,1.3.2网络信息分类,很多情况下并不很清楚自己的信息需求,或者无法清楚表达信息需要,需要通过类目浏览,获得一些基本信息,然后再选择检索关键词搜索引擎【目录专题网站】google网页目录搜狗目录学科信息门户,17,1.3.3数据库信息分类,如中国期刊全文库,18,小结NO6,文献信息分类特点方便文献信息的排架,便于索取;类目的结构严谨,逻辑性强;适合学术信息资源(特别是印刷型)的组织。网络信息分类特点根据网络信息的存在状况和当前上网用户的特点来编制的,有一定的科学性和系统性;适合大众信息资源的组织。数据库信息分类特点结合文献信息分类和网络信息分类的优点方便浏览和检索,19,1.4主题语言,主题:论述的对象和研究的问题主题语言:以文献信息内容特征和科学概念的词语为检索标识,并按字顺组织起来的一种检索语言。,20,1.4.1标题词语言,标题词:从自然语言中选取并经过规范化处理的、表示事物概念的的词、词组或短语。代表:EI中工程主题词表(简称SHE)电脑-见(see)-计算机局域网-参见(seealso)-计算机网络,21,1.4.2关键词语言,所谓关键词是指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对表达文献主题内容具有实质意义的语词,亦即对揭示和描述文献主题内容来说是重要的、带关键性的(可作为检索“入口”的)那些词语。关键词基本上不作规范化处理。例如,“国际联机检索概论”中的“国际联机”、“联机”、“检索”都是能描述这篇文献的主题的,可以作为检索词。概括地说,关键词法就是将文献原来所用的,能描述其主题概念的那些具有关键性的词抽出,不加规范或只作极少量的规范化处理,按字顺排列,以提供检索途径的方法。,22,1.4.3叙词(主题)词语言,叙词是指一些以概念为基础的,经过规范化的,具有组配功能并可以显示词间关系和动态性的词或词组。如:汉语主题词表、机械工程主题词表,23,主题词语义参照系统,24,正式主题词款目,25,非正式主题词款目,26,词族索引款目,Dinzdukng电子对抗*通信对抗通信干扰脉冲干扰欺骗性干扰载波干扰噪声干扰扫频干扰阻塞式干扰通信抗干扰,27,概念组配是叙词语言的基本原理。概念组配与字面组配在形式上有时相同,有时不同;而从性质上来看两者区别是很大的。字面组配是词的分析与组合(拆词);概念组配是概念的分析与综合(拆义)。例如:,字面组配模拟+控制-模拟控制香蕉+苹果-香蕉苹果,概念组配模拟+控制-模拟控制香蕉味食品+苹果-香蕉苹果,28,小结NO7,29,2计算机信息检索技术,机检回忆“信息检索原理图”见第二讲PPT50信息检索系统=硬件+软件+数据库计算机信息检索的实质就是由计算机将输入的检索策略与系统中存储的文献特征标识及其逻辑组配关系进行类比、匹配的过程,需要人机协同作用来完成。,30,2.1计算机信息检索的类型,31,2.2计算机信息检索技术,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。由于信息检索提问式是用户需求与信息集合之间匹配的依据,所以信息检索技术的实质是信息检索提问式的构造技术。目前,计算机信息检索技术已经从基本的布尔逻辑检索、截词检索、邻近检索、限制检索、短语检索、字段检索发展为高级的加权检索、自然语言检索、模糊检索、概念检索和相关检索等多种技术并存。,32,2.2.1布尔逻辑检索,布尔逻辑组配是现行计算机检索的基本技术,主要通过“与(and,*)”、“或(or,+)”、“非(not,-)”将检索词联络起来。AND*&空格AandB逻辑与。A和B都为真时,结果才为真,即:A*B,逻辑含义用图表示是:,33,OR+|AorB逻辑或。A或B中只要有一个为真时,结果就为真,即:A+BNOT-!AnotB逻辑非。A为真、B为假时,结果才为真,即:A-B,34,布尔逻辑运算符的运算次序,括号优先与计算机编程中一样(AORB)ANDCNOTD不同的系统次序有差别,但总的来说一般次序为:NOTANDOR例A:查找有关信息检索的非英文文献信息information检索retrieval英文english(信息and检索)not英文(informationandretriever)notenglish,35,分析实例:,上海零售业的现状与发展趋势上海零售业现状发展趋势上海and零售业and(现状or发展趋势),36,2.2.2截词检索,截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主要包括下列情形:截词符?中截一字符,后截断n个字符如wom?n可以检索出:woman,women如coumput?可以检索出Compute,Computer,Computing,computable,37,?后、中截二字符如:transplant?可以检索出:transplant、transplanted、transplanter?后、中截三字符如:comput?可以检索出:compute;computer;computing,38,通配符,无限截断,%?*后方一致(前截断):“%国庆”将检索出所有字段为张国庆、欧阳国庆、国庆等的记录。前方一致(后截断):如:“热电材料%”将检索出热电材料梯度化、热电材料及其梯度化等的记录。,39,2.2.3邻近检索,位置算符(W)with,(nW)nwith表示检索算符两侧的词不可以颠倒顺序,n表示两个词中间可以插入=n个的词(如:aninbyofthe)如:control(1w)system可以检索出“controlsystem”“controlinsystem”等的信息。,40,位置算符(N)near,(nN)nnear表示检索算符两侧的词可以颠倒顺序,n表示两个词中间可以插入=n个的词(如:aninbyofthe)如:controlsystem可以检索出“controlsystem”“systemcontrol”等的信息。,41,字段算符(F)(L)(F)-inthesamefield表示检索算符两侧的词必须同时出现在记录的同一字段内。(L)-link表示检索算符两侧的词必须在数据库界定的统一规范字段内。且有一定的从属关系,可以用来链接主标题词和副标题词。,42,句子位置算符(S)-inthesamesubfieldorsameparagraph表示检索算符两侧的词只要在同一个子字段(文摘中的句子)或全文数据库的一个段落中出现就是匹配。这些算符可以一起使用,顺序为(W)(S)(F)。实践上这些算符都是扩大检索范围。,43,2.2.4限制检索,针对特定年代、特定类别、特定检索点等作限制,包括前缀限制符和后缀限制符。,后缀限制符例如:/TI限在题目中查/AB限在文摘中查/DE限在叙词标引中查,前缀限制符例如:AU=限查特定作者JN=限查特定刊名LA=限查特定语种PN=限查特定专利号PY=限查特定年代,44,如在谷歌和百度搜索引擎中的检索特定的文献类型:“报告filetype:pdf”检索指定网址内的信息:“报告site:”以后会看到一些数据库通常都有年代/类型等的选择,45,2.2.5网络检索,短语检索(半角双引号)自动纠错检索(如:李熬,你是不是要检索李敖)自动转换检索(如:汉语拼音转换成文字)自然语言检索概念检索(同义词/近义词/狭义词,如搜索引擎Excite)相关检索,46,2.2.6其它检索的表述,二次检索/在结果内检索精确检索模糊检索跨库检索/一站式检索扩展检索(类似搜索引擎的概念检索)一般检索/高级检索/专家检索/命令检索还有什么检索?,47,小结NO8,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。布尔逻辑检索、截词检索、邻近检索、短语检索、字段检索网络信息检索几乎所有的检索系统都有布尔逻辑检索、截词检索(模糊检索)和限制检索,而不同的检索系统又会有一些特殊的检索技术和功能。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!