信息计量学:第4章 文献增长、老化规律

上传人:努力****83 文档编号:120775338 上传时间:2022-07-18 格式:PPT 页数:47 大小:1.50MB
返回 下载 相关 举报
信息计量学:第4章 文献增长、老化规律_第1页
第1页 / 共47页
信息计量学:第4章 文献增长、老化规律_第2页
第2页 / 共47页
信息计量学:第4章 文献增长、老化规律_第3页
第3页 / 共47页
点击查看更多>>
资源描述
第四章第四章 词频分布规律词频分布规律 (齐普夫定律齐普夫定律)汉字总数:汉字总数:5-65-6万字万字常用汉字:常用汉字:11万字万字(总数的总数的20%20%-)10001000个汉字:个汉字:90%90%文献文献24002400个汉字:个汉字:99%99%文献文献38003800个汉字:个汉字:99.99%99.99%文献文献6666万字的万字的毛泽东选集毛泽东选集四卷合订本:四卷合订本:27752775个汉个汉字,字,1/101/10一、基本概念一、基本概念1 1、词频、词频:某一个单词在文章或讲话中出现的次数:某一个单词在文章或讲话中出现的次数2 2、单词频率、单词频率:某词出现的频次与文集中所有词出现的:某词出现的频次与文集中所有词出现的总次数之比总次数之比3 3、词频字典、词频字典:以词频多寡为序的词典,显示不同词汇:以词频多寡为序的词典,显示不同词汇被人们运用程度的差异(每个词有两个参数:频次和被人们运用程度的差异(每个词有两个参数:频次和序号)序号)中国中国第一部词频字典:第一部词频字典:1934,近代教育学家陈鹤琴(统计来源:,近代教育学家陈鹤琴(统计来源:55个万个词汇的文集,分析出单字个万个词汇的文集,分析出单字4261个,个,但对词频未进行统计)但对词频未进行统计)世界世界上第一部词频字典:上第一部词频字典:1889,德国学者凯丁,德国学者凯丁德语频率词典德语频率词典(统计来源:总字数(统计来源:总字数110万词汇的文集)万词汇的文集)1986,北京外国语学院,北京外国语学院现代汉语频率词典现代汉语频率词典共共1808114字词字词其中:其中:4574个单字个单字-991字频等级字频等级 31159单词单词-757词频等级词频等级4、最省力法则:、最省力法则:在各种运动中,人们有意无意地在各种运动中,人们有意无意地总是选择一条最省力的途径行事。总是选择一条最省力的途径行事。-1949年,美国哈佛大学教授齐夫年,美国哈佛大学教授齐夫人类行为与最省力原则人类生态学引论人类行为与最省力原则人类生态学引论二、齐夫定律的研究背景二、齐夫定律的研究背景假设有一个文集含假设有一个文集含N个词汇,在个词汇,在N充分大的情形下,充分大的情形下,按照词汇在文集中出现的频次按照词汇在文集中出现的频次n递减排列,可得一词递减排列,可得一词频表:频表:词频词频 n1 n2 n3 n4 n5.nr.nL词序词序 1 2 3 4 5r.nL nr*r=C1916年,德国速记专家艾思杜:年,德国速记专家艾思杜:1928年,美国电话公司物理学家贡东:年,美国电话公司物理学家贡东:logrlognr nr*r tg =Cnr*r=Cnr*r=Cnr=cr-1450nr/N=cr-1/N令令:fr=nr/N c/N=K fr=K r-1K=0.102序号为序号为1 的单词出现频率的单词出现频率1935年年,齐夫验证齐夫验证fr=K r-1Pr=fr (实验次数无限增加时)实验次数无限增加时)Pr=K r-1P1=K=0.1 (r=1)但是大多数语言等级序号为但是大多数语言等级序号为1 的词,其出现的频率一般的词,其出现的频率一般小于小于0.1,故,故K为参数而非常数。为参数而非常数。0K0.1C值在值在0.030.11之间之间4574字,字,991个字频等级个字频等级,172/4574 (3.76%)31159单词,单词,755个词频等级个词频等级,336/31159 (1.08%)1 1、文字描述、文字描述 如果将一篇较长的文章中的每个词按其出现频次递减如果将一篇较长的文章中的每个词按其出现频次递减排列,并用自然数给这些词编上等级序号,出现频次最排列,并用自然数给这些词编上等级序号,出现频次最高的词为高的词为1 1级,其次为级,其次为2 2.这样一直到这样一直到D D级,如果用级,如果用f f表示表示词在文章中出现的频次,用词在文章中出现的频次,用r r表示词的等级序号,则有表示词的等级序号,则有f.f.r=cr=c三、齐夫定律的基本内容三、齐夫定律的基本内容r rf fc cr rf fc c1 14004004004006 666663963962 22002004004007 758584164163 31331333993998 850504004004 41001004004009 944443963965 58080400400101040404004002、图像描述:、图像描述:r rf flnrlnrlnflnf3、数学描述:、数学描述:f*r=c齐夫原始状态,也称单参数词频分布规律齐夫原始状态,也称单参数词频分布规律 (f*r =c 而而=1)为直线斜率,为直线斜率,C为参数为参数4 4、通用的齐夫定律:、通用的齐夫定律:f=f=c c r r-f:f:词在文章中出现的频次词在文章中出现的频次 r:r:词的等级序号词的等级序号 和和C:C:参数参数双参数词频分布规律双参数词频分布规律朱斯修正朱斯修正等级序号等级序号r 频次频次fr*f199.02-3,2.5717.54-5,4.562765307-8,7.54309-11,1033012-32,2224433-75,54154适于描述中频词分布规律适于描述中频词分布规律5、编秩方法、编秩方法平均编秩法平均编秩法随机编秩法随机编秩法最大秩序法最大秩序法平均编秩法平均编秩法 对于词频相同的词,采用序号平对于词频相同的词,采用序号平均数来定义它们共同秩序的方法。均数来定义它们共同秩序的方法。词词A2411词词B2411词词C2411r=(10+11+12)/3=11随机编秩法随机编秩法 具有相同词频的不同单词将具有相同词频的不同单词将被定义不同的秩序被定义不同的秩序词词A2411词词B2412词词C2413字母顺序字母顺序汉语拼音汉语拼音笔划顺序笔划顺序Pb最大秩序法最大秩序法 对于词频相同的词,按秩序最大词对于词频相同的词,按秩序最大词的秩给予其他同类词相同的秩序。的秩给予其他同类词相同的秩序。词词A2412词词B2412词词C24126 6、三参数词频分布规律、三参数词频分布规律50s,法国数学家孟戴尔布罗,法国数学家孟戴尔布罗 (r+m)B B*f=cf=c f:f:词频词频 r r:等级序号:等级序号 B B:与高频词的数量多少有关:与高频词的数量多少有关 C:C:与出现概率最多的词的概率大小有关与出现概率最多的词的概率大小有关 m m:与文集的词汇总数:与文集的词汇总数N N有关有关m=0 frfr*r B B=c =c 朱斯公式朱斯公式 B B=1 frfr*r=c =c 齐普夫定律齐普夫定律7、布茨定律:齐夫第二定律、布茨定律:齐夫第二定律1967年年 In/I1=2/(n(n+1)(n=1,2,3,)In:出现:出现n次的词的数量次的词的数量 I1:出现:出现1次的词的数量次的词的数量 n:出现次数,词频:出现次数,词频出现出现n n次的词的数量与次的词的数量与出现出现1 1次的词的数量之次的词的数量之比与文集的大小及比与文集的大小及C C值值无关,而只与频次有关无关,而只与频次有关I2/I1I3/I1I4/I1I5/I1I6/I1I7/I1I8/I10I9/I1I10/I1理理论论值值0.330.170.100.0710.0480.0360.0280.0220.018实实测测值值0.360.170.100.070.0510.035.0280.0290.015适于描述低频词适于描述低频词四、齐夫定律的主要应用四、齐夫定律的主要应用键盘设计键盘设计码长设计码长设计编制词表编制词表自动标引自动标引分析学科或专题研究动向分析学科或专题研究动向和,主,产,不,为,这和,主,产,不,为,这行,让,间,澡,烟,军行,让,间,澡,烟,军意,涡,肱,体,宏,宠意,涡,肱,体,宏,宠编制词表思路一编制词表思路一 根据齐夫定律的频次分布方法,通过根据齐夫定律的频次分布方法,通过具体的标引试验,找出被标引文献中叙词具体的标引试验,找出被标引文献中叙词使用频率的分布特征,最后决定合乎使用使用频率的分布特征,最后决定合乎使用频率的词,编入叙词表频率的词,编入叙词表 文献文献 集合集合标引标引叙词词频叙词词频等级表等级表确定确定词频词频入词入词表表编制词表思路二编制词表思路二 完全根据对有关原始文献中出现的术语完全根据对有关原始文献中出现的术语进行词频统计的结果,初步选词入表,再在进行词频统计的结果,初步选词入表,再在实际标引过程中不断修改完善实际标引过程中不断修改完善文献文献集合集合词频词频统计统计确定确定频率频率初步初步生成生成词表词表标引标引词表词表修订修订自动标引自动标引:1958年,美国情报学家卢恩年,美国情报学家卢恩1、概念、概念 概念概念1:利用计算机对文章进行自动标引,:利用计算机对文章进行自动标引,自动加上标识符的过程。自动加上标识符的过程。2、基本形式、基本形式词标引:词标引:用计算机根据文献中术语或词的有关频用计算机根据文献中术语或词的有关频率分布规律进行自动标引率分布规律进行自动标引3、基本思路、基本思路*词的分辨能力:词的分辨能力:识别文章主题的能力识别文章主题的能力 (与词的出现频次有很大的关系,出现频次过高,与词的出现频次有很大的关系,出现频次过高,语法作用的词,出现频次过低,分辨能力往往很低语法作用的词,出现频次过低,分辨能力往往很低)*有效词:有效词:分辨能力较高,频次适中,可被用于自动标引的词分辨能力较高,频次适中,可被用于自动标引的词*词频分布与分辨能力之间的关系词频分布与分辨能力之间的关系nf横轴:单词按词频递减排列的等横轴:单词按词频递减排列的等级序号级序号纵轴:文集中单词出现的频次纵轴:文集中单词出现的频次双曲线:词频分布曲线双曲线:词频分布曲线钟形曲线:词的分辨力曲线钟形曲线:词的分辨力曲线*临界值的确定临界值的确定帕欧帕欧(M.L.Pao):n an=(n=(1+8I1-1)/21+8I1-1)/2 例:例:I1=780I1=780 n=38 n=38 38 38a a临界值范围临界值范围3838a aa a:与标引深度或标引要求有关:与标引深度或标引要求有关 关键词关键词1 关键词关键词2 关键词关键词3文献文献1 关键词关键词1 关键词关键词2文献文献2 关键词关键词1 关键词关键词2 关键词关键词3 关键词关键词4文献文献3平均平均3个关键词个关键词3838a a设标引深度为设标引深度为9?对于每篇文章,对于每篇文章,N N,a a可以自动测算可以自动测算对于大量文献,对于大量文献,a a值可通过选择一定的样本测算值可通过选择一定的样本测算能代表总体水平的外延范围能代表总体水平的外延范围a a值值*标引词的确定标引词的确定 全部有效词都被选作标引词全部有效词都被选作标引词 用类名作为标引词用类名作为标引词 人工配合人工配合*生成文摘句生成文摘句思路:根据有效词或标引词在句子中的相对位置思路:根据有效词或标引词在句子中的相对位置进行选择进行选择要点:要点:1、计算每个句子中标引词所占的比例、计算每个句子中标引词所占的比例ri riPi2/qiPi:句子中选出的标引词的数量:句子中选出的标引词的数量qi:句子中的总字数:句子中的总字数2、ri值最高的句子可视为该文章的代表句值最高的句子可视为该文章的代表句3、ri值为一定值之上的句子,可选入文摘之中值为一定值之上的句子,可选入文摘之中 概念概念2:利用计算机对给定的文献,根据利用计算机对给定的文献,根据其内容特征,经过内容分析,依照特定的其内容特征,经过内容分析,依照特定的分类表、主题词表和一定的算法确定其具分类表、主题词表和一定的算法确定其具有检索意义的文献标识符号的过程。有检索意义的文献标识符号的过程。4、基本方法、基本方法 统计法统计法 语言法语言法 概率法概率法 书目引文法书目引文法 人工智能人工智能5、基本步骤:、基本步骤:原始内容输入:光学字符识别、数据导入原始内容输入:光学字符识别、数据导入 文档预处理:字符内码与文档格式检测与转换文档预处理:字符内码与文档格式检测与转换 词语切分:词典法、统计法词语切分:词典法、统计法 提取关键词:绝对词频统计法提取关键词:绝对词频统计法(词频词频)、词频权重、词频权重法法(词频、词的位置、词性、词本身的价值、词长词频、词的位置、词性、词本身的价值、词长)确定主题词:同义词表、利用词汇相似度确定主题词:同义词表、利用词汇相似度 主题标引主题标引
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!