资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,TRS database server,全文检索培训,项目开发中心支持服务部,2012,年,2,月,1,培训目的,掌握全文检索系统架构,掌握全文检索安装部署和启动方法,掌握管理员工具的常用功能,掌握全文检索系统表达式和逻辑运算符,2,为何要用,TRS SERVER,3,先引入几个概念,结构化数据,成绩单,典型的结构化数据,特征是:可以通过设计一个结构体来存放元信息,这些信息组合起来能完整描述原有内容,学号,姓名,成绩,统计,科目,1,科目,2,科目,3,1,张三,85,90,74,249,30,李四,81,87,89,257,4,非结构化数据,此类信息具有“内容”特征,与结构化数据不同,很难,通过,拆分,和运用,结构体来存放元信息,的方式,完整描述他们,5,全文数据,6,半结构化数据,此类信息具有“内容”特征,,同时又有结构化的元数据,如学生姓名、成绩、论文、简介,学号,姓名,成绩,统计,科目,1,科目,2,科目,3,1,张三,85,90,74,249,30,李四,81,87,89,257,7,数据的检索需求(1),查找:,张三的论文,2011-05-21,提交的论文,题目含“全文”的论文,内容里涉及“内容管理”且运用“,Java,”技术实现的论文,学号,姓名,提交日期,论文题目,论文,1,张三,2011-05-20,全文检索的软件实现,全文检索的软件实,.doc,2,3,李四,2011-05-21,内容管理系统设计,内容管理系统设计,.PDF,8,数据的检索需求(2),查找:,有“,内容管理,”和“,java,”,没有“,TRS,”的信息,只含“,内容,”的也要求查到,检索到的记录按以下要求进行排序,含关键字越多的越排在前面,关键字的出现位置越密集的越排在前面,9,数据的检索需求(3),查找:,南京 市长 江大桥、我们要积极 地主 动作 好计划生育工作,“大学生”, 年福建协和,大学生,物系毕业 ?,“国有”,全,国有,色金属 ?,“生气”,这件事情让我很,愤怒 ?,“,乐器,”,下面欣赏,笛子,独奏,“,中华人民共和国,”,“,中,華,人民共和,國,”?,“,China,”,“,c,hina,”?,“,do,”,“,done,”?,“1981,年,”,“,一九八一年,”,.,10,梳理总结一下,可以在整篇文本中进行查询,可以实现模糊查询,可以避免中文歧义词的干扰,可以做扩展查询,比如同义词,比如简繁体,比如英文的同根词,可以忽略关键字中字母的大小写,基于内容检索,+,属性检索 追求“快”“准”“全”,随着需求的丰富,对查询系统的要求也会增多,11,大家很熟悉的,差异:,服务,引擎,部分返回,可全部返回,针对性的排序策略,产品化的排序策略,广博散,专精深,12,TRS产品不适合做什么?,TRS Database,不是关系型数据库,TRS Database,是非事务性的,TRS Database,不是要和关系型数据库竞争,智能的东西不是,100%,正确,13,TRS,全文数据库由服务器、管理工具和开发接口三部分组成,服务器,管理工具,开发接口,TRS,全文数据库服务器,(TRS Database Server),TRS,全文数据库运行版,(TRS Database Runtime),TRS,全文数据库集群服务器,(TRS Database Cluster),TRS,管理员工具,(TRS Admin),TRS C/C+,应用开发接口,(TRS CAPI6.1),TRS COM,应用开发接口,(TRS ADO),TRS Java,应用开发接口,(TRS,Javabeans,),TRS,.Net,应用开发接口,(TRS ADO.NET),14,全文检索系统与关系型数据库的关系,数据发布,提交检索请求,关系型数据库服务器,Gateway,:,定时导入,TRS Server,WAS/,开发接口,网站的检索用户,15,TRS全文检索的解决之道,TRS DB Server,TRS CAPI,TRSJavaBeans,TRS ADO.Net,TRS Admin,TRSL,TRS WAS,TRS DB Server,TRS Cluster,Search Service,16,产品安装,支持的操作系统,Windows 32,位,/64,位,Linux 32,位,/64,位(红帽子、红旗、,SUSE,等),Unix 32,位,/64,位(,SUN Solaris,、,IBM AIX,、,HP Unix,),17,产品安装,产品介质目录,安装方式:,命令行、界面方式,18,产品安装,安装流程图,19,产品安装,界面安装,20,产品安装,命令行安装交互式,21,产品安装,命令行安装,交互式,接下来就是自动安装的过程,主要完成一些初始化和演示数据的加载,完成后,剩余的步骤:,22,产品安装,命令行安装,参数方式,参数和交互式安装的各步骤对应,参数的使用有些规则,参数名,:,参数值,参数名,:,参数值,“DIR:D:,安装 位置,trshome”,缺少的参数需要手工输入,23,产品安装,安装后目录说明,24,产品升级,TRS Server,升级的目的:,版本升级,补充添加其他字符集词典,更新已有词典,Tdbupdate.exe,DIC:REW,更新指定字符集的词典内容,Tdbupdate.exe,DIC:RIX,更新指定字符集的词典内容,并删除相关数据库的索引,25,产品安装/升级,产品的卸载,Windows,没注册为,NT,服务,执行,tdbshutdown,命令关闭服务,注册为,NT,服务,执行,tdbservice -remove -n:name,,删除服务,注册了端口号,system32driversetcservices,中删除“,trsserver,”行,界面安装,控制面板中调用卸载程序,删除安装目录,Linux/Unix,执行,tdbshutdown,命令关闭服务,注册了端口号,etcservices,中删除“,trsserver,”行,删除安装目录,26,产品安装/升级,启动,/,关闭(,Windows,),没注册为,NT,系统服务,Trsserver tdbshutdown,已注册为,NT,系统服务,手工启动,命令行,控制面板,-,管理工具,-,服务,TRS,控制台,自动启动,随操作系统启动而启动,检索缓冲模块的启动可以配置,27,小结,必须,记住产品序列号,可以备份,SYSTEMKEY,文件。,在,使用,TRS,信息检索系统之前,必须保证先启动,TRS,服务器。,掌握,TRS,服务器的启动和关闭方法。,熟悉,TRS,服务器的目录结构。,28,TRS,管理员,作用,安装与卸载,启动与退出,基本概念:,TRS,对象及对象属性,使用,29,安装与卸载,安装,:执行安装介质中的,setup.exe,卸载从菜单选择卸载程序进行,目录结构:,TRSTRSAdminbin:,存放可执行文件、动态连接库和帮助文件等。,TRSTRSAdminNavigate:,存放数据库,/,视图的导航文件。,TRSTRSAdminTemp:,存放,TRS,管理员执行过程中生成的临时文件。,30,启动与退出,默认管理员账号密码:,system/manager,31,用户组,用户,词典,数据库(数据库字段),视图(视图字段),文件格式,TRS,基本概念:对象,32,对象管理用户(自定义),用户,类型,所属组,账户,信息,其他,属性,缺省,设定,DBA,GDA,RESOURCE,CONNECT,其他,属性,唯一登录,密级,检索历史,缺省,设定,33,TRS Server的索引类型,索引类型(,也可理解为采用的算法,做简单描述,),B+,树索引,和,倒排索引,结合的方式,B+,树用于对新入数据进行判断,放置到合适的叶子节点上,倒排索引用于关联叶子节点上关键字均所属于那些记录,B+,树只是能快速定位,TERM,所保存的倒排索引,按字段进行索引,全文索引需要切分词,需要依据词典,记录号,正文,1,张三和李四是好朋友,2,我的好朋友李四的好朋友有很多,关键词,索引,张三,11 1,李四,11,21 4,6,好朋友,11,22 7,3,9,34,词典分类,这里简单的提一下,后面有更详细的介绍,35,策略,稀疏词典,分词词典,附加分词词典,停用词典,附加停用词典,按词,置空,必需,可有可无,可有可无,可有可无,按字,置空,置空,可有可无,可有可无,可有可无,按关键词,必需,忽略,忽略,忽略,忽略,二元组,置空,可有可无,可有可无,可有可无,可有可无,TRS Server的索引策略,字母文字,总是按“单词”进行索引,表意文字,按词索引,配置,主分词词典,附加分词词典,稀疏词典,优势,查准率高,查询速度快,索引膨胀率低,可进一步实现智能扩展,不足,不能保证,100%,查全和准确率,按字索引(文言文、姓名等常用),配置,不需要检索单字,允许检索单字,不指定任何分词,(,附加分词,),和稀疏词典,按词索引,但相应字段的索引模式置为“禁止词模式”,指定全字词典,按词索引,但相应字段的索引模式置为“禁止词模式”,并打开“单字索引开关”,优势,查全,不足,查准率低,速度慢,膨胀率高,无法智能扩展,36,对象管理词典,词典是一类预定义结构的数据库,属性包括:,名称,所有者,词典类型,公共访问权限,字符集,数据存放路径,注释,37,对象管理词典分类说明,特点,分词词典,附加分词词典,停用词典,附加停用词典,稀疏词典,主题词典,同义词典,反义词典,实体词典,辅助索引词典(系统使用),歧义词典、二元组词典、单字词典,分词词典,附加分词词典,表意文字有效,字母数字无效,英文不需使用,提供全字词典,作为分词词典的补充,满足行业和特殊情况下索引依据的需要,停用词典,无意义的高频词:“的”“,the,”“,of,”,不建立索引,支持任何语言,附加停用词典,作为停用词典的补充,某些特殊领域常用,稀疏词典,单独使用,与分词词典互斥,不对全文索引,只对词典中含的词索引,主题词典,又称“叙词表”,对词及其关系词进行关联,关系词如:等同、上位、替代、相关等,同义词典,主题词典的补充,比主题词典关系简单,便于维护,反义词典类似,扩大扩展检索范围,反义词典,检索时调用,仅支持部分检索函数,不区分字符集,只能系统自动创建,实体词典,38,对象管理数据库(1),一些概念,记录(行)、字段(列)、字段值,规模:记录数、库文件的最大容量,单条记录长度、单个字段值长度,记录:,256M,字段:,16M,系统会限制(,TRS,设定物理内存除以,32,),字段1,字段2,A,B,C,D,字段1,字段2,A,B,C,D,字段1,字段2,A,B,C,D,字段1,字段2,A,B,C,D,操作系统,文件系统,最大记录数,最大库文件,32位,32位,4亿,2G/4G(Win),64位,20亿,不限,64位,40亿,39,属性,对象管理数据库(2),名称,拥有者,状态锁,别名,索引开关,宿主系统开关,字符集,缺省检索字段,词典,存放路径,注释,GB18030,UTF-8,BIG5,公共访问权限,主分词,附加分词,主停用,附加停用,稀疏词典,检索,更新,索引,库修改,库删除,词根,大小写,数字,二元,压缩,停用词,40,对象管理数据库字段(1),公共属性,名称、别名、注释、存放路径,字段类型,公共查询开关,禁止索引开关,索引存放路径,日期型,(DATE),短语型,(PHRASE),数值型,(NUMBER),全文型,(DOCUMENT),字符型,(CHAR),二进制型,(BIT),虚拟字段(,BIT,),41,属性说明,最大精度,/,最大长度,全字索引开关,字段值格式,词根索引语种,缺省字段值,数据缓冲开关,字段值范围,相关性开关,允许多值开关,虚拟逻辑字段开关,值唯一性开关,缺省虚拟字段开关,禁止空值开关,索引属性,混合索引模式,对象管理数据库字段(2),各字段类型私有属性,42,对象管理数据库字段(3),NUMBER、CHAR、DATE,属性说明,最大精度,/,最大长度,字段值格式,缺省字段值,字段值范围,允许多值开关,值唯一性开关,禁止空值开关,类型,含义,数值型(,NUMBER,),精度:数值长度、小数位精度,字符型(,CHAR,),字符串长度,存储时有效,类型,含义,数值(,NUMBER,),输出时的格式,包括:,对齐方式(左、右、整数、实数)及基准,无效,0,是否保留,全角,/,半角,例如,:,L.DP,:左对齐;半角;保留小数点后的无效,0,123456.789000,12345.000000,字符型(,CHAR,),输入时的格式,要求指定位置须是:,英文字符,数字,空格,任意,例如:,A9 XX 9A,:“,a9,中国,1F,”,日期型(,DATE,),输出时的格式,,12,种,/,类,*3,类,是否保留“时分秒”,“月日时分秒”是否固定两位表示,“年月日”分隔符为“,.,”,or,“,/,”,or,“,-,”,无分隔符,以上约束分别对应:数字、英文、中文,说明:,存储时不重新赋值,将按缺省值存储,类型,缺省值允许,数值(,NUMBER,),自定义值,$CODE,:,记录入库时的唯一自然数顺序码,字符型(,CHAR,),自定义值,$CODE,:,记录入库时的非数字唯一顺序码,$USER,:当前操作的用户名,日期型(,DATE,),自定义值,$DATE,:当前“年月日”,$TIME,:当前“年月日时分秒”,类型,含义,数值型(,NUMBER,),只允许指定的范围内的值提交存储,有三种方式:,枚举:,V1,V2,Vn,区间:,V1,Vn,混合:,V1,V2,Vn,Vm,字符型(,CHAR,),日期型(,DATE,),43,对象管理数据库字段(4),DOCUMENT、PHRASE,属性说明,混合索引模式,全字索引开关,词根索引语种,相关性开关,中华,人民,共和国,中华,、华人,人民,、民共,共和、和国,中华,人民,共和国,华人、民共,共和、和国,共和国,华人、民共,共和、和国,中华、人民,目的:,实现“基于按词策略的库,也能支持按字检索”,适用:,采用“按词”策略(配置了分词词典)的库的字段,基本原理:,按词、按字索引各来一份,按需使用,优化手段:,减少公共索引项的重复空间占用,降低,I/O,中华人民共和国,全冗余,半冗余,零冗余,库:全字索引,或,字段:混合索引,可生成“单字”索引,库:开启词根索引,依据外文语种选择,多语种不能保证正确,拉丁字母默认英语,其他默认俄语,44,对象管理数据库字段(5),其他属性,属性说明,数据缓冲开关,虚拟逻辑字段开关,缺省虚拟字段开关,索引属性,此开关影响被设置字段的值(,全文和二进制字段仅是一个是否为空的标志,)是否在启动“检索缓冲”模块时允许进入内存缓冲,以多字段集中存储的方式进行保存,,I/O,效率更高(,排序、统计等小字段操作时,),对,BIT,类型有效,开启表示当前字段是虚拟字段,开启表示检索时,虚拟字段名可用“,$DUMMY,”替代,多个虚拟字段时,降低应用程序的修改,支持的字段类型,说明,DOCMENT,段、句、位、格式,BIT,作为虚拟字段时有效,用来定义实体子字段的逻辑运算关系,格式:,A/n,B/m, OR AND,XOR,NOT&,&,表示字段逻辑优先,否则为表达式优先,举例,:,V,:虚拟字段,索引属性:,A/10,B/100,AND&,检索:,V=,中国,等价于:,A/10=,中国,and B/100=,中国,CHAR,字段需要冗余索引时有效,举例:,字段,A,,索引属性为:中国,rn,人民政府,插入:中国人民政府,常规索引:中国人民政府(全键值),冗余索引:中国人民政府、中国、人民政府,之前提到的“索引属性”在字段上的设置,45,对象管理视图,视图不存储和管理数据,视图只是多库的一个逻辑合集,视图一般情况下只作为检索用,通过自动分裂视图可以维护数据,视图对象的属性,属性名称(常规),名称,别名,所有者,缺省检索字段,公共访问权限,注释,属性名称(特有),说明,所含数据库,包含的数据库对象,不能包含视图,记录选取条件,普通视图:,对源库记录进入视图进行筛选,为检索表达式形式,检索入口为源库的字段名,而非视图的字段名,自动分裂视图:,分裂条件,“,$RECORD=n,”,,,n,是一个,10000,到之间的任意数,,为空由,PRO,配置项控制,46,对象管理视图字段,视图字段仅作为检索入口,视图字段不承担任何与索引相关的功能,视图字段属性,属性名称,名称,别名,数据类型,公共访问权限,注释,数据库字段映射,决定了该字段对应于,哪些数据库,中的,哪个字段,数据类型必须一致,47,对象管理数据格式,数据,入,库时,:,系统,根据,数据格式确定数据存储方式和文本抽取方法;,数据输出时,:,系统根据数据格式对数据进行相应的处理,便于浏览,数据格式对象属性,名称,所属分类,文件后缀,压缩开关,注释,注意事项:系统支持,1024,个格式对象;不能被删除,创建需谨慎,纯文本,(TEXT),格式文档,(DOCS),图像,(IMAGE),音频,(AUDIO),视频,(VIDEO),自定义,(BIT),48,访问控制(权限),TRS Server,权限控制的几类手段,用户级别,数据库对象级别,字段对象级别,记录级别,以上几类手段均有各自的目的,可以结合使用,49,访问控制(权限)(1),用户级别:,有权对组内用户拥有的数据库、视图、词典进行任何操作,有权创建数据库、视图、词典对象,登录系统,无须授权,即可对,自己拥有的,数据库、视图、词典进行,任何,操作,经授权,可对,其他用户拥有的,以上对象进行,相应,操作,登录用户(,CONNECT,),资源用户(,RESOURCE,),用户组数据库管理员(,GDA,),有权对系统内所有数据库、视图、词典进行任何操作,系统数据库管理员(,DBA,),超级用户(,SYSTEM,),维护系统配置,创建,/,注销用户(组),维护用户(组)属性,创建数据格式及维护属性,50,访问控制(权限)(2),数据库对象级别,数据库,普通视图,自动视图,词典,对索引进行:创建、删除、验证、优化,数据装载(装库),记录增、删、改,数据库检索操作,检索(,SELECT,),更新(,UPDATE,),索引(,INDEX,),修改(,ALTER,),删除(,DROP,),对数据库的属性和结构进行修改,包括字段的增加、删除及属性维护,删除数据库,收回被蕴含权限时,蕴含它是所有权限将被收回,公共权限,设置时有蕴含关系,但回收时不会蕴含回收,51,访问控制(权限)(3),字段对象级别,字段只有一类权限,检索权,记录级别,检索权限,通过视图“记录选取条件”来控制,浏览权限,密级:用户的“密级”属性值小于等于记录设置的密级值可浏览,用户组:给记录设置用户组约束,则只有组内用户可浏览,口令:只有提供正确口令的用户才可以浏览,52,权限管理(授权/回收),从前面的控制规则可以知道,权限的授予与回收是如何实现的,用户级:需要能维护用户属性的用户,SYSTEM,数据库级及字段级:需要能维护数据库属性的用户,SYSTEM,DBA,GDA,(组内用户拥有的),RES,(自己拥有),CON,(自己拥有),53,常用操作(1)手工建库,54,常用操作(2)创建数据文件装库,保存文件,后缀为,trs,55,常用操作(3)备份/恢复,按,shift,多选,服务器路径,可修改,无需填写,默认恢复到系统目录,ibase,下,56,常用操作(4)优化数据,对数据文件和索引文件进行优化重组,以达到提高检索速度和提高存储空间利用率的目的,一般在数据装载结束或进行数据库维护操作之后进行,57,常用操作(5)索引维护,对数据库,/,自动模式视图的索引进行创建、删除或验证操作,58,常用操作(6)数据结构导入导出,将数据库的结构保存到本地,可用于重新安装,trs,后恢复原有的库结构或从一台服务器复制到另一台(,2,台服务器的平台可不一样),59,常用操作(7)数据库记录导出,把当前库中的记录(或检索记录)保存到本地,可用于更改已有数据库结构时使用。,60,数据库检索,先来看一个常用的检索请求,从中引入我们后面要涉及到的几个方面,日期,=,2011.01.04,*,标题,=,中国,?,政府,%,or,正文,=,LIKE(,对当前国际局势的建议,80%,),RELEVANCE,-,日期,检索键值,结果集处理,表达式构造,检索运算符及函数,61,检索键值,日期型,数字型,字符型,短语及全文型,特殊类型,支持,通用格式、英文格式、无分隔格式、中文格式,,,日期格式的键值规则很多,这里不详细分解了,简单举几个例子有个初步了解,进一步掌握可参考产品手册,例子:,字段值,=2011.12.10 11:10:50,可用:,日期,=2011/12/10/11/10/50,日期,=/12-?,11.:50 AM,日期,=Dec.10,2011 11:10:50 A,日期,=10-Dec-2011,日期,=250,日期,=,日期,=,二,0,一一年,12,月,10,日,11,时,10,分,50,秒 上午,日期,=$DATE,:当前年月日,日期,=$TIME,:当前时分秒,日期,=$DATE(n),表示当前日期未来,/,过去多少天(单位:天),日期,=$TIME(n),表示当前时间未来,/,过去多少秒(单位:秒),只能为实数,且不支持模糊键值,是个字符串,支持模糊键值(,?,%,),?,:,表示,1,个字母字符或汉字,%,:,表示,0-,多个字母字符或汉字,举例:,作者,=%,国庆,,可命中:,“张,1,国庆”、“欧阳,2,国庆”、“,0,国庆”,作者,=,张,?,庆,,可命中:,“张国,1,庆”、“张大,1,庆”,,但不能命中“张,0,庆”,与字符类型类似,也支持模糊键值(,?,%,),区别在于键值需要进行分词处理,而不是一个完整的串,所以情况更复杂,举例:,正文,=,张,?,庆,,可能会命中含“张庆”的记录,关键字分词:“张” “,?,”,“庆”,,分词加工:张、张,?,、?庆、庆,运算:,(,张,+,张,?) adj (?,庆,+,庆,),(,不唯一,,6.8,以后采取另外一种算法,),特殊键值主要是指一些标点符号、系统保留字等,能通过两种方式保证可被检索:单引号“”,转义符“,”,举例:,表达式字段,=A and/pos=2 B OR LIKE(*,80),应转义为:,A,and,/,pos,=2,B,OR,LIKE,(*,80,),62,检索运算符,TRSServer,共有六类检索用运算符,比较运算符,逻辑运算符,重复逻辑运算符,属性运算符,限定运算符,加权运算符,63,检索运算符,比较运算符:,=,、,!=,、,、,=,、,2010.01.01,标题,=,1000,工资,),n,/SEN,=(),n,北京,(2)(3),喜迎,元旦,(5),市场繁荣物价稳定 商品投放量均比往年有较大增长,新华社,北京,(2)(3),月日电 (记者贺劲松),元旦,(5),来临,从喜降小雪的,北京,(1)(2)(3),,到温暖如春的广州,全国各地节日市场商品琳琅满目,,消费者,(4),购买,踊跃,(4),,商业企业销售额不断增长,呈现出祥和、欢乐的节日气氛。,国内贸易部早在一个月前就发出通知,要求,北京,(1)(2)(3),及各地切实搞好节日供应。记者在内贸部消费品司看到,来自各地的传真传达出一个喜人的信息:,元旦,(5),市场商品投放量均比往年有较大增长,名、特、优、新商品的销售额急剧上升,标志着我国消费者的生活水平和质量正逐步迈上新台阶,。,/SEG,=(),n,/txt,/tit,/SEN,/SEG,/att,/att=v,/att$sub=v,/rec,=(),n,/fre,=(),n,/frec,=(),n,/span,=(),n,(1),查询“北京”,希望在文中出现的位置大于,5,北京,/POS5,(2),查询“北京”,希望每段的第一句中存在的记录命中,北京,/SEN=0,(3),查询“北京”,希望在正文,(,或标题,),中命中,北京,/SEG=0,北京,/SEG0,(4),之前的需求,都是对某个具体关键字具体所处的位置进行限定,还有另外一类需求,需要对多个词的,位置关系,进行限定,比如:,“消费者”、“踊跃”在同一句(段)里,两个词在,10,个字的范围内出现,Like(,消费者踊跃,)/SEN,Like(,消费者踊跃,)/Span2,仅对索引库(系统维护的)检索有效,分别是:,按词频检索:某个词共出现多少次,按命中数检索:某个词在多少记录中存在,65,检索运算符,属性运算符,从好理解的角度来说,“属性运算符”是扩展的“限定运算符”,限定运算符:关键词位置或命中数量的限定,属性运算符:关键词之间,位置关系,的限定,由于涉及到位置关系,所以类似于,POS,这种指定位置的限定则变成了多个参与运算关键词的间距,举例:,Pre,And,Xor,Not,OR,/n,/n#,/nL,/,pos=n,/sen,/sen=n,/seg,/seg=n,/tit,/txt,/att,/att=v,/att$sub=v,同时出现,(and),,且具有先后顺序,中国,/sen0,中国,/pos=10,中国,and/sen0,政府,中国,and/pos=10,政府,间距=n,OR,不适用,OR,不适用,OR,不适用,+,adj,间距,=0,equ/n,间距,=n,66,检索运算符,限定、属性运算符的理解使用技巧,只能在短语(,phrase,)、全文(,document,)字段上使用,运算符是否可用,与字段是否创建了与之对应的索引属性有关,如果字段只有,POS,索引属性,则类似于,/SENn,的运算则无效,Phrase,类型字段只允许设置,POS,属性,Document,字段可以设置所有索引属性,pos,限定,隐含了同句;,sen,限定,隐含了同段比如:,A,*/pos0,B,等价于,A,*/pos0/sen,B,A,*/sen1,B,等价于,A,*/sen0/seg,B,67,检索运算符,加权运算符,权,指权重,用于影响相关性排序时的相关度值,进而影响排序位置,用,“/n”,来表示,,n,只能设定(非系统缺省)为大于,0,的正整数,既可以对字段加权,又可以对检索关键字加权,字段,_A,/10,字段,_B,/100,*=(,检索词,A,/20,or,检索词,B,/5,),加权运算符的一些特点,关键词加权,Document,Phrase,缺省权值,关键词,“,/1,”,普通字段,“,/0,”,缺省检索字段,表达式中其他字段没设定权值,“,/1,”,表达式中其他字段已设定权值,“,/0,”,假设:,标题,为,CHAR,类型;,正文,为,DOCUMENT,类型,并为缺省检索字段,中国,*,美国 等价于 中国,/1,*,美国,/1,标题,=,中国,+,正文,=,美国,等价于,标题,/0,=,中国,+,正文,/1,=,美国,标题,/n,=,中国,+,正文,=,美国,等价于,标题,/n,=,中国,+,正文,/0,=,美国,68,检索函数,函数,参数,BETWEEN( ),值,1,值,2,BEYOND( ),值,1,值,2,EXACT( ),值,RANGE( ),词串,=,值,RANGE( ),数值,1,数值,2,DATA( ),键值列表,SPELL( ),规则串,NEAR( ),目标词,数量,Date,、,Number,、,Char,适用,Between(,值,1,值,2),:,获取,值,1,到,值,2,范围内的值,“,(,”“,),”可分别被“,”“,”替换,后者表示含值,1,或值,2,如:日期,=2000,2003),,表示取,2000,、,2001,、,2002,BEYOND,函数是取范围外的值,其他规则一样,Date,、,Number,、,Char,、,Phrase,、,Document,适用,直接匹配索引,支持所有比较运算符,但,Phrase,、,Document,上只能用,=,、,!=,如:日期,EXACT (,2000),;正文,=,EXACT(,中国,),Phrase,、,Document,适用,双参数的函数是,BETWEEN,的补充,因为,BETWEEN,不能用于这两个字段,*,单参数的函数不推荐使用了,*,所有类型字段都适用,Phrase,、,Document,、,BIT,类型只允许无参数调用,为“空值”条件用(,推荐此类用法,),其他类型字段支持多个键值的列表,如:,Number=Data(1,2,3),(),可由,替换,表示,Date,字段上,需精确匹配,Char,字段上,不区分字母字符的大小写,Phrase,、,Document,适用,且仅对字母、数字串有效,三类规则:连接、排除、选择,如,:(,X,是任意,1,个或多个非语法字符),SPELL(,aXb,),:,可命中含:,aXb + a b + ab,的记录,SPELL(,a%,Xb,),:,不可命中:,a%Xb,的记录,SPELL(,aX,Yb,),:,可命中含:,aXb + aYb,的记录,Date,、,Number,、,Char,、,Phrase,、,Document,适用,NEAR(,目标词,3),,以目标词为中心,含它在内,前后扩展出,3,个索引词,这个函数主要用于检索索引库,也可在字段上做检索,等价于索引库中命中的索引项做或运算,例子:,192.9.200.73 8888 Demo2,索引检索:,near(,中国,3),;,near(,声即,3),字段检索:中国,or,中共,or,中国工农红军,69,检索函数,LIKE,对词串进行分词后,词项之间不进行位置运算,“新华社北京”,LIKE(,新华社北京,),北京喜迎元旦市场繁荣物价稳定 商品投放量均比往年有较大增长,新华社北京,月日电 (记者贺劲松)元旦来临,从喜降小雪的北京,,到温暖如春的广州,全国各地节日市场商品琳琅满目,消费者购买踊跃,商业企业,销售额不断增长,呈现出祥和、欢乐的节日气氛。,国内贸易部早在一个月前就发出通知,要求北京及各地切实搞好节日供应。记者在内,贸部消费品司看到,来自各地的传真传达出一个喜人的信息:元旦市场商品投放量,均比往年有较大增长,名、特、优、新商品的销售额急剧上升,标志着我国消费者,的生活水平和质量正逐步迈上新台阶。,北京,喜迎元旦市场繁荣物价稳定 商品投放量均比往年有较大增长,新华社北京,月日电 (记者贺劲松)元旦来临,从喜降小雪的,北京,,,到温暖如春的广州,全国各地节日市场商品琳琅满目,消费者购买踊跃,商业企业,销售额不断增长,呈现出祥和、欢乐的节日气氛。,国内贸易部早在一个月前就发出通知,要求,北京,及各地切实搞好节日供应。记者在内,贸部消费品司看到,来自各地的传真传达出一个喜人的信息:元旦市场商品投放量,均比往年有较大增长,名、特、优、新商品的销售额急剧上升,标志着我国消费者,的生活水平和质量正逐步迈上新台阶。,LIKE,函数的根本目的是为了降低关键词的自身约束,检索到更多的结果,70,表达式构造,基本表达式:,字段,=,字段逻辑表达式,字段,!=,字段逻辑表达式,字段,1,字段,2,.,字段,n RepeatOP,字段逻辑表达式,=,字段,CompOP,检索键值,检索历史号,限定运算表达式,=,DOCID=,记录号列表,DOCID!=,记录号列表,DOCID CompOP,记录号,=,基本表达式,LogicOP,基本表达式,字段逻辑表达式,Logic,字段逻辑表达式,ID=20,and,日期,10,71,缺省字段检索表达式的解析,检索表达式:,(A * B),多字段检索时:,指定字段:,C1,C2,=(A * B),缺省字段:,C1,C2,+=(A * B) ,表达式优先,(,C1,C2,+=A) * (,C1,C2,+= B) ,字段优先,72,排序,TRS,支持三种类型的排序方式,LIFO,L,ast,I,n,F,irst,O,ut,按字段值排序,DATE,、,NUMBER,:按值大小,CHAR,、,PHARSE,:按字符内码、拼音、笔画,按相关度排序,重点介绍,*排序向量*,多字段排序时,形成从左向右的优先级,例如:排序条件,=,编号,日期,日期,2001.1.1,2001.1.2,2001.1.3,日期,2001.1.3,2001.1.2,2001.1.1,编号,日期,1,2001.1.5,2,2001.1.4,3,2001.1.3,1,2001.1.2,4,2001.1.1,编号,日期,1,2001.1.2,1,2001.1.5,2,2001.1.4,3,2001.1.3,4,2001.1.1,73,检索注意事项(一),能用一个表达式写的,就不要用多个子表达式。字段名,=(Value1, Value2, Value3),字段名,=Value1 or,字段名,=Value2 or,字段名,=Value3,日期,=(2000 to 2007),日期,=2000 and,日期,=2007,74,检索注意事项(二),将能够迅速缩小检索范围的检索式放在左边。,日期,=2005 and,正文,=,中国,正文,=,中国,and,日期,=2005,75,检索注意事项(三),避免字段值的模糊检索,(%),phrase,和,document,字段,中文全文检索就无须加,%,了,英文一般一个词模糊查询可以使用前方一致,但尽量避免,针对,char,型尽量避免,76,检索注意事项(四),尽量不要使用,data(),函数来检索,可以在字段设置默认冗余特殊字符的方法,按字,/,按词选项在数据量较大时开销较大,可以通过别名,/,虚拟字段等方式简化开发,注意类似 “标题,=,中国,and,北京”的意义,77,了解几个INI文件,KEY.INI,Licence,与,KEY,如何在一台机器上装多个,TRS,Server,了解,19XXX,错误,78,了解几个INI文件,PRO,配置域,IndexCache,之,Expression=switch,配置域,Maintain,之,BTCacheEnable,、,BitsMapFilter,、,IndexRuleWord,、,LastPathPrior,、,NiceSleepTime,、,OEMFilterMute,、,IDXStoreNorms,、,SplitAlphaNum,配置域,Retrieval,之,ParallelLimit,、,RelevanceMode,(,NORMAL,,,WORD_V1,,,WORD_V2,,,POS_COE,,,NO_IDF,)、,SortAlwaysMax,、,HitPointExact,、,SortValidSize,、,SortPruneSize,79,其他常用功能,装库,优化,备份/恢复,索引维护,数据库结构导入/导出,记录保存,80,产品配置,配置项,示例值,物理内存数,2048M,最大空闲时间,30分钟,最小空闲时间,600秒,检索超时时间,10秒,最大排序记录数,10000条,最大检索历史数,30步,空闲状态起止时间,2303,缺省数据库属性,建库缺省值设置,缺省知识词典集,数据库路径集,比较好理解,缺省备份设备,临时文件路径,安装时,程序自动检测物理内存并确定,可根据实际需要修改,最小64M,影响,数据库单条记录的最大长度,加载、检索时能使用的缓存,非,活跃,活,跃,255,个用户,第,256,个,最大空闲,最小空闲,Logout All,超出设置,提示超时,中止当前检索,合理设置,避免太大:占用资源,太小:检索失败,0=不限制,超出,不排序,最大:,65533,不限制:,0,TopN,裁剪:,先命中的前“设置数”条记录排序,再截取,N,条保留,结果集被保存,用于后续(排序、取某一条记录)等操作,用户1,1、2、3、4、m,。,用户n,1、2、3、4、m,起、止时间点形成一个检测窗口,起始时间有效值:0-23,其他表示禁止自动维护,中止时间有效值:0-23,其他无意义,起始时间=中止时间,表示禁止自动维护,修改后需重启Server,重启后4小时内进入窗口无效,需等下一个窗口到来,81,谢谢!,本教材适合,TRS Database Server V6.8,版本,82,
展开阅读全文