资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,2008,信息检索一般技术,第四讲:,王建涛QQ47072005,nbwangj,1,1.导论,机检,回忆“信息检索原理图”,信息检索系统=硬件+软件+数据库,计算机信息检索的实质就是由计算机将输入的检索策略与系统中存储的文献特征标识及其逻辑组配关系进行,类比,、,匹配,的过程,需要人机协同作用来完成。,2,1.1 计算机信息检索的类型,计算机信息检索系统的类型,检索系统存储的内容,文献信息检索系统,事实信息检索系统,数值信息检索系统,图像信息检索系统,多媒体信息检索系统,检索系统工作方式,脱机信息检索系统(20世纪5060年代),联机信息检索系统(20世纪70年代,光盘信息检索系统(20世纪80年代,网络信息检索系统(20世纪90年代,3,2 计算机信息检索技术,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。,由于,信息检索提问式,是用户需求与信息集合之间匹配的依据,,所以信息检索技术的实质是信息检索提问式的构造技术。,目前,计算机信息检索技术已经从基本的,布尔逻辑检索,、,截词检索,、,邻近检索,、,限制检索,、,短语检索,、,字段检索,发展为高级的加权检索、自然语言检索、模糊检索、概念检索和相关检索等多种技术并存。,4,2.1 布尔逻辑检索,布尔逻辑组配是现行计算机检索的基本技术,主要通过“与(and,*)”、“或(or,+)”、 “非(not,-)”将检索词联络起来。,AND*&空格,A and B 逻辑与。A和B都为真时,结果才为真 ,即:A*B,逻辑含义用图表示是:,5,OR +|,A or B 逻辑或。A或B中只要有一个为真时,结果就为真,即:A+B,NOT-!,A not B 逻辑非。A为真、B为假时,结果才为真,即:A-B,6,布尔逻辑运算符的运算次序,括号优先与计算机编程中一样(A OR B) AND C NOT D,不同的系统次序有差别,但总的来说一般次序为:NOT AND OR,例A:查找有关信息检索的非英文文献信息information 检索retrieval 英文english(信息 and 检索 ) not 英文(information and retriever) not english,7,分析实例:,上海零售业的现状与发展趋势,上海 零售业 现状 发展趋势,上海 and 零售业 and (现状 or 发展趋势),8,2.2 截词检索,截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主要包括下列情形:,截词符? 中截一字符,后截断n个字符,如 wom?n,可以检索出: woman, women,如,coumput?,可以检索出Compute, Computer, Computing, computable,9,? 后、中截二字符,如:transplant?,可以检索出:transplant、transplanted、transplanter,?后、中截三字符,如:,comput?,可以检索出:compute;computer;computing,10,通配符,无限截断,% ?*,后方一致(前截断):,“%国庆” 将检索出所有字段为,张国庆,、,欧阳国庆,、,国庆,等的记录。,前方一致(后截断) :,如:“热电材料% ”将检索出,热电材料梯度化,、,热电材料及其梯度化,等的记录。,11,2.3 邻近检索,位置算符,(W) with,(nW)n with,表示检索算符两侧的词,不可以,颠倒顺序,n表示两个词中间可以插入=n个的词(如:an in by of the) 如:control(1w)system可以检索出“control system” “control in system”等的信息。,12,位置算符,(N) near ,(nN)n near,表示检索算符两侧的词,可以,颠倒顺序,n表示两个词中间可以插入=n个的词(如:an in by of the)
展开阅读全文