第五章 信息整序法

上传人:仙*** 文档编号:246737797 上传时间:2024-10-15 格式:PPT 页数:45 大小:1.70MB
返回 下载 相关 举报
第五章 信息整序法_第1页
第1页 / 共45页
第五章 信息整序法_第2页
第2页 / 共45页
第五章 信息整序法_第3页
第3页 / 共45页
点击查看更多>>
资源描述
Textmasterformate durch Klicken bearbeiten,Zweite Ebene,Dritte Ebene,Vierte Ebene,Fnfte Ebene,Klicken Sie,um das Titelformat zu bearbeiten,Page,*,信息组织学,主讲:杨力,西南石油大学经济管理学院,第五章 信息整序法,本章重点,分类法,分类标引,主体法,主题标引,关键词语言的原理与类型,自动标引技术,5.1,分类法与分类标引,信息资源分类具有以下特征,通过类目索引提供从字顺角度查找类目的途径,从一定角度出发组织和解释信息,按照内容特征的关系对信息资源进行组织,2,4,1,采用一定的标记符号作为排序工具,3,分面组配式分类法,分面,-,亚面,-,类目,简单概念组成复合类目,本体,+,物质,+,动力,+,空间,+,时间,组配复杂、标引难度大,号码冗长,直观性较差,等级列举式分类法,树形等级系统,逐级列出专指类目,展开方式单一,类间组配能力较弱,类目结构变化性差,分类法的类型,列举,-,组配式分类法,等级列举,+,分面组配,符号复杂,工作量大,分类法的编制,类目体系,主表,基本大类,简 表,详 表,复分表,总论复分表,世界地区表,中国地区表,国际时代表,中国时代表,分类标引及方法,分类标引:又称为归类,是指依据一定的分类语言,对信息资源的内容特征进行分析、判断,赋予分类标识的过程。,分类标引方法,类目辨析,号码配置,根据同位类间的关系了解类目的含义,2,根据注释了解相关类目的含义和范围,3,按照类目体系的规律了解类目的含义,4,根据上、下位类关系了解类目的含义,1,类目辨析,号码配置,使用复分表,将主表号码与复分表号码加以组配,访分,利用同类性质的子目进一步细分,类间组配,将一个主类号与其他相关的主类号组合,“,浙江经济地理,”,,可在主表类目,F129,9,中国经济地理后加上中国地区表浙江得号码,55,,标引为,F129,955,“,法语词典,”,,可在表示法语的号码,“,H32,”,后,加上从英语的号码,“,H31,”,后子目中表示词典的号码,“,6,”,,得到该主题的号码为,H326,1,“,化学文摘,”,,可通过组配符号,“,:,”,,将表示专题文摘的类号,“,Z89,”,,与表示化学组配类号,“,06,”,联结,标引为:,Z89,:,06,。,5.2,主题法与主题标引,主题法思想的典型例子:,情感搜索,主题法的类型,标题法,元词法,叙词法,分类、主题一体化,主题标引是依据一定的主题词表或主题标引规则,赋予信息资源语词标识的过程。,具体而言,主题标引是在主题分析的基础上,以一定的词表或标引规则作为依据,将信息资源中具有检索意义的特征转换成相应的主题词,并将其组织成表达信息资源内容特征的标识的过程。,主题标引及方法,主题标引及方法,全面标引,充分揭示信息资源所论及的所有有检索价值的主题,揭示信息资源中具有检索价值的整体性主题,不揭示涉及的各种从属性主题内容,整体标引,对,公路运输与铁路运输,这一文献,就应根据文献论述的主题对象,分别对公路运输、铁路运输这两个内容进行标引。,黄河水质变化浅析,一文,主要分析了黄河的水质变化,指出城市工业废水及农药大量使用是造成支流污染的主要原因。在对其进行全面标引时,就必须将:水质、变化、水质污染、黄河、农药污染、城市污水、工业废水、河流污染、预测等主题概念一一加以标引和揭示。,对口标引,综合标引,分析标引,只揭示信息资源中适合本专业需要的主题内容的标引,以丛书、多卷书、论文集、会议录、标准汇编、档案的案卷等为单位进行的概括性标引,根据资源中部分片段或集合型资源的构成单元进行标引,公路运输与铁路运输,,铁路运输单位的文献部门在采用对口标引的情况下,可只对铁路运输的有关内容进行标引,对于其中有关公路运输的内容则一般不予揭示。,机械设计丛书,在以整套书为单位进行标引时,除对整体内容“机械设计”进行标引外,应对“丛书”这一资源类型进行揭示。,主题标引的规则,1,、选用词表中的叙词标引,2,、选用最匹配的叙词标引,3,、无专指叙词时,进行叙词组配标引,4,、无专指叙词且无法组配,使用上位词进行标引,5,、选用含义相近的叙词进行靠词标引,6,、可增补叙词表达新概念,7,、自由词标引,是主题标引的补充,选词规则,1,、必须是概念组配,2,、优先采用交叉组配,3,、不能越级组配,4,、必须概念确切,具有单义性,5,、组配次序:主体因素,-,通用因素,-,时间因素,-,地区因素,-,文献类型的次序,组配规则,主题标引和分类标引的比较,5.3,关键词标引,关键词,出现在信息资源的标题摘要、正文中,对描述信息资源的主题内容具有实质意义的词语。,关键词标引一般通过计算机自动进行,即计算机自动抽取文献题名、文摘或正文中有检索意义的词语。,题外关键词索引,KWOC,将关键词抽取出来,复合用户习惯。,题内关键词索引,KWIC,选取关键词,保留关键词的上下文,进行轮排索引。,关键词语言的类型,双重关键词索引,KWIC&KWOC,双重目标,关键词索引编制的步骤,词典匹配切分、切词标志、,理解式切分,使每个关键词轮流排至检索入口,1,用禁用词表控制抽词,排除没有检索意义的词汇,2,由计算机进行自动分词,3,轮排编制关键词索引,5.4,自动分类与自动标引,自动分类是按照一定的分类体系或标准进行自动分类标记,又可细分为自动聚类与自动分类两种。,聚类,根据信息内容的相关性来组织文献集合或信息集合,将整个集合聚集成若干个子类,并使属于同一类的文档尽量相似,属于不同类的文档差别明显。,分类,即归类,将具有相近特性的检索对象相对地集中,而具有不同特征者尽可能归于不同的类别中。,自动聚类,聚类分析原理介绍,聚类分析中“类”的特征:,聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分,聚类的数目和结构都没有事先假定,聚类方法的目的是寻找数据中:,潜在的自然分组结,构,a,structure of,“,natural,”,grouping,感兴趣的关,系,relationship,聚类分析原理介绍,什么是自然分组结构,Natural grouping?,我们看看以下的例子:,有,16,张牌,如何将他们分为,一组一组的牌呢?,A,K,Q,J,聚类分析原理介绍,分成四组,每组里花色相同,组与组之间花色相异,A,K,Q,J,花色相同的牌为一副,Individual suits,聚类分析原理介绍,分成四组,符号相同的牌为一组,A,K,Q,J,符号相同的的牌,Like face cards,聚类分析原理介绍,分成两组,颜色相同的牌为一组,A,K,Q,J,颜色相同的配对,Black and red suits,聚类分析原理介绍,分成两组,大小程度相近的牌分到一组,A,K,Q,J,大配对和小配对,Major and minor suits,聚类分析原理介绍,这个例子告诉我们,分组的意义在于我们怎么定义并度量“相似性”,Similar,因此衍生出一系列度量相似性的算法,A,K,Q,J,大配对和小配对,Major and minor suits,聚类分析原理介绍,相似性,Similar,的度量(统计学角度),距离,Q,型聚类(主要讨论),主要用于对样本分类,常用的距离有(只适用于具有间隔尺度变量的聚类):,明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离),兰氏距离,马氏距离,斜交空间距离,此不详述,有兴趣可参考,应用多元分析,(第二版)王学民,相似系数,R,型聚类,用于对变量分类,可以用变量之间的相似系数的变形如,1,r,ij,定义距离,这里不详细介绍这种聚类度量方法,聚类分析原理介绍,变量按测量尺度(,Measurement Level,)分类,间隔(,Interval,)尺度变量,连续变量,如长度、重量、速度、温度等,有序(,Ordinal,)尺度变量,等级变量,不可加,但可比,如一等、二等、三等奖学金,名义(,Nominal,)尺度变量,类别变量,不可加也不可比,如性别、职业等,凝聚的方法,一开始将每个对象作为单独的一组,然后根据同类相近,异类相异的原则,合并对象,直到所有的组合并成一个,或达到一个终止条件为止。,分,裂的方法,一开始将所有的对象置于一类,在迭代的每一步中,一个类不断地分为更小的类,直到每个对象在单独的一个类中,或达到一个终止条件。,定义:对给定的数据进行层次的分解,等级聚类法(,hierarchical,method,),广泛采用的类间距离:,最小距离法(,single linkage method,),极小异常值在实际中不多出现,避免极大值的影响,广泛采用的类间距离:,最大距离法(,complete linkage method,),可能被极大值扭曲,删除这些值之后再聚类,广泛采用的类间距离:,类平均距离,法:类,间所有样本点的平均距离,该法利用了所有样本的信息,被认为是较好的系统聚类法,广泛采用的类间距离:,重心法(,centroid hierarchical method,),类的重心之间的距离,对异常值不敏感,结果更稳定,广泛采用的类间距离,离差平方和法(,ward method,),D,2,=W,M,W,K,W,L,即,对,异常值很敏感;对较大的类倾向产生较大的距离,从而不易合并,较符合实际需要。,Cluster K,Cluster L,Cluster M,自动分类,原理:根据一个已被分好类的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断。,自动标引,自动标引,(,Automatic Indexing,),又称,计算机辅助标引,(,Computer Aided Indexing,),是根据文献内容,依靠计算机系统全部或部分地自动给出标引符号的过程。,换句话说,就是利用计算机系统模仿人的标引活动并自动生成情报检索所需的索引符号的过程。,自动标引的原理,齐夫定律:,高频词:传递信息能力弱,中频次:传递信息能力强,低频词:传递信息能力极强,西文信息自动标引技术,1,、抽取关键词,遇空格取词;,确定关键词,舍去非用词;,累积词频,分析关键词;,2,、分析确定标引词,绝对词频,相对词频,赋予权重,中文信息自动标引技术,中文自动标引所遇到的首要问题是词的切分。,现在国内大部分自动标引方法只能依据字(词)典匹配,最多再加上一些构词模式或规则来进行词切分。,分词的必要性,物,理,学,physics,products,price,image,body,theory,barber,science,understand,reason,school,study,credit,student,subject,物理学,physics,physicist,evidence,6,5,5=150 :2,中文词语分析的主要难点,:,歧义,交叉歧义,(86%):,结合成分子时,组合歧义,(14%):,这个,人手,上有痣;,我们缺,人手,全局歧义与局部歧义,:,乒乓球,拍,/,卖,/,完了;,乒乓球,/,拍卖,/,完了;,我很,/,难过,未登录词问题,干扰作用,克林顿,对内,塔尼亚,胡说,龚学,平等,领导,(,1,)词典标引法,主题词表法,关键词词典法,部件词典法,词典切分组词法,(,2,)单汉字标引法,(,3,)语法分析标引法,(,4,)神经网络分词法,中文自动分词的主要方法:,本章小结,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!