资源描述
基于SemRank的CWME教授权威度计算方法研讨 摘 要:针对综合集成研讨环境中的教授权威度评价问题,提出了一个基于SemRank的教授权威度计算方法。该方法既考虑教授之间的交互结构,又考虑教授讲话内容之间的语义关联。因为教授之间的交互含有动态复杂性,在计算语义关联时,引入了时间衰减函数,反应时间这一要素的影响。试验结果表明,提出的教授权威度计算方法合理有效;在综合集成研讨环境中,对促进教授良性互动和激发教授思维含有一定的作用。关键词:基于cyberspace的综合集成研讨厅;群体交互;SemRank;开放的复杂巨系统Expert authority estimating method based on SemRank in CWMEWANG Ai, LI Yaodong, LI Weijie(Key Laboratory of Complex Systems Intelligence Science, Institute of Automation, Chinese Academy of Sciences, Beijing100190, China)Abstract:To solve the problem of measuring experts authority in CWME,this paper proposed a method for estimating expert authority based on SemRank.This method not only considered the interactive structure between experts, but also took into account semantic relation between the experts speeches.As the interaction between experts possessed dynamic complexity,introduced the time decay function to estimating semantic relation. Experimental result shows that the proposed method is feasible and effective. It lays a good foundation for experts to interact and inspire in CWME.Key words:cyberspace for workshop of metasynthetic engineering(CWME); collective interaction; SemRank; open complex giant systems0 引言1990年钱学森等人1提出开放的复杂巨系统的概念,和处理这类系统的方法论从定性到定量的综合集成方法。综合集成法就其实质而言是将教授群体(多种相关的教授)、数据和多种信息和计算机技术有机地结合起来,把多种学科的科学理论和人的经验知识结合起来,三者组成一个系统。这个方法的成功关键在于充足发挥了系统的整体优势和综合优势。1992年3月,钱学森深入提出了人机结合,从定性到定量的综合集成研讨厅(HWME)体系的思想2。这个研讨厅的构思是把人集成于系统之中,采取人机结合、以人为主的技术路线,充足发挥人的作用,使研讨的集体在讨论问题时相互启发,相互激活,使集体创见远远胜过个人的智慧3。伴随Internet和多种通信络的快速普及,cyberspace(电子空间和数字空间)成为一个主要的概念,它使参加者跨越时间和地域的限制,随时随地就所关心的问题进行研究、交流和探讨,并可随时利用络上的大量。信息技术的这个发展,为综合集成研讨厅的实现提供了一个新的、可能的形式,即基于cyberspace的综合集成研讨厅(CWME)4。经过多年的探索和实践,已经成功建立了多个经典的CWME系统5,6。在CWME体系中,教授群体是最含有能动性的组员,各教授以研讨的方法畅所欲言,充足表示自己的看法,随时进行质询和辩论,以促进对复杂问题认识的提升。不过在研讨过程中,每个教授对同一复杂问题的认识和判定全部不尽相同,且参加者个人的行为和判定会不一样程度地影响周围每个人的思维判定,使得教授群体中的交互关系存在着微妙的随时间改变的动态复杂性。所以,在综合集成研讨厅体系中,怎样衡量教授意见的合理性,计算在研讨过程中涌现出来的教授权威度,刻画教授群体之间的交互关系和结构,从而促进研讨流畅、高效地进行,是研讨厅体系实践和应用过程中的一个主要问题。文件7提出一个对讲话看法进行权威度计算的方法。该方法借鉴万维页的链接概念,依据讲话之间的响应关系建立广义教授群体的有向链接结构。该结构采取有向属性图表示,教授的每条讲话作为一个节点,每个节点有两个属性,即看法质量属性和看法评价属性。教授讲话之间的响应关系作为有向边(链接)。依据讲话响应和被响应的情况计算每条讲话的权威度,讲话被响应的次数越多,该条讲话的权威度越高;权威度较高的讲话所响应的讲话,其权威度也较高,反之权威度越小。文件8提出了基于即时讲话评价的教授权威度计算方法。在研讨过程中,各位教授在主持人的引导下根据一定的评价指标即时对讲话进行评价,所采取的评价指标是相关度、可信度、合理度和启发度。在研讨过程中,一个教授的权威度关键是由其讲话效率和评价效率决定的。所以,基于即时讲话评价的教授权威度计算方法的基础思想是经过计算教授的讲话效率和评价效率,并对二者进行合适加权,进而得出教授的总体权威度。上述方法尽管能够计算教授某条讲话的权威度,不过并没有从语义的角度考虑教授的讲话内容之间的关系,同时也没有考虑教授群体交互的动态复杂性。基于此,本文提出了基于SemanticPageRank(SemRank)的教授权威度计算方法。该方法既考虑教授之间的交互结构,又考虑教授讲话内容之间的语义关联;在计算语义关联时,该方法还引入了时间要素这一概念来表现教授交互的动态复杂性。试验结果表明,本文提出的教授权威度计算方法合理、有效,能够为和会教授在综合集成研讨环境中进行良性互动提供一定的参考意义。1 PageRank算法本文提出的SemRank算法是在PageRank的基础发展得到的,“PageRank”技术9最早由斯坦福大学的“Google”研究小组提出。能够用一个“随机冲浪”模型作为“PageRank”的理论基础,该模型描述络用户对页的访问行为。假设以下:a)用户随机地选择一个页作为上的起始页;b)看完这个页后,从该页所含的超链接中随机地选择一个页面继续进行浏览;c)沿着超链接前进了一定数目标页后,用户对这个专题感到厌烦,重新随机选择一个页进行浏览,如此重复。依据上述的用户行为模型,PageRank的基础思想就是引入一个页的权威值的概念,其页的权威值和页的内容无关,权威值计算是依据络的拓扑结构图。页p的权威值取决于两个要素:a)有多少页引用了它(页p);b)引用页p的这些页的权威值。所以这是一个循环迭代的过程10。计算公式以下:x?p=dN+(1d)?qpapx?qh?q(1)其中:d(0,1)是阻尼因子;h?q是节点q的出度,就是q有多少个超链接外链;pap是指向p的页集合;N是指络拓扑结构中节点数,即页的数量。2 基于SemRank的教授权威度计算方法综合集成研讨厅体系的链接结构是经过教授群体的有效互动建立起来的。在互动过程中,教授对以前的讲话进行评论,同时发表自己对问题的看法,经过这种响应建立起个体之间响应关系,进而可建立教授群体的有向链接结构。链接结构中,教授每次的讲话为一个节点,教授讲话的响应或被响应关系为有向边,从而使得这种链接结构可用有向属性图表示。这和PageRank中描述的有向属性有相同之处:中的页对应一个节点,中页的链接关系对应图中的边。文件7采取的就是这个思绪计算教授讲话的权威度。在实践过程中,利用上述方法却常常碰到两个问题:a)即使某条讲话A在长时间内得到较多的响应,但此时讲话的专题已经发生了一定程度的改变,此时A的权威度理应下降,不过因为PageRank算法本身不考虑讲话内容的语义相同度,造成计算出来的A的权威度偏高;b)越早的讲话,权威度轻易越高,这是因为较早的讲话轻易得到相对较多的响应,或说最近的讲话常常还未得到充足的响应,此时根据PageRank计算的权威度会偏离真实的权威度情况。针对这两个常见问题,在PageRank算法的基础上,本文提出SemRank方法。该方法的优势在于:a)引入讲话内容的语义相同度计算方法,在衡量某条讲话的权威度时,不但考虑它得到了多少响应,同时考虑它和所响应的讲话之间的语义联络;b)引入时间衰减函数,对较近的响应给予较大的权重,减弱一些早期讲话过于长久的影响。SemRank算法一样依据有向属性图来计算每条讲话的权威度,然后对每个教授的全部讲话的权威值求均值,取得该教授的总体权威度。2.1 讲话内容的动态相同度计算首先考虑教授讲话之间的语义关联,把研讨中的每条讲话表示成tfidf向量形式,采取余弦相同度计算语义关联程度,计算公式以下:sim(u,v)=?u,vtf?u()tf?v()idf()?2?u(tf?u()idf()?2?v(tf?v()idf()?2(2)其中:tf?u()和tf?v()分别表示词在讲话u和v中的词频;idf()表示逆文本频率,计算公式为idf()=log (N/n?)(3)其中:n?是表示有多少条讲话包含词,N为总的讲话数。式(2)只考虑了教授讲话之间的静态关系。实际上这种关系应该是和时间相关的:两条讲话之间的时间间隔越长,语义之间的相同度就越低,反之则越高。所以本文考虑时间衰减要素,引入时间衰减函数(这里考虑的时间信息是教授的每条讲话在整个研讨过程中的相对位置,而不是每条讲话在研讨过程中出现的绝对时间),得到以下的动态相同度计算公式:s?i(u,v,T)=sim(u,v)f?i(u,v,T);i=1,2(4)其中:f?i(u,v,T)为讲话u和v之间的时间衰减函数。这里采取两种形式:a)f?1(u,v,T)=1|ki1|/N。其中:讲话u为研讨中第k个讲话,讲话v为研讨中第i个讲话。b)f?2(u,v,T)=1/|ki|。其中:讲话u为研讨中第k个讲话,讲话v为研讨中第i个讲话。2.2 教授权威度计算基于SemRank的教授权威度计算的算法实现过程以下:初始值:向量P?0=(p?0(1),p?0(2),p?0(N),其中p?0(u)=1/N(u=1,2,N)。?输入:error 。输出: 向量P=(p(1),p(2),P(N)。t=0repeatt=t+1依据式(6)计算P?t(u)(u=1,2,N)=P?tPt1until returnP?t在考虑了讲话内容之间的动态语义相同度以后,教授之间交互的有向属性图就成为了一个加权的有向属性图。从文件11取得启发,在加权的有向属性图的基础上计算教授讲话的权威值。加权的有向属性图经过两个矩阵的点乘形式表示:B?kNN=ANN?sim?kNN;k=1,2(5)其中:B?kNN(i, j)=ANN(i, j)sim?kNN(i, j)(i, j=1,2,N;k=1,2);矩阵ANN为邻接矩阵,假如节点i到j之间有一条有向边,则ANN(i, j)为1,不然为0;矩阵sim?kNN为动态相同度矩阵,式中sim?kNN(i, j)=s?k(i,j,T)(k=1,2)。在此加权有向属性图矩阵B?kNN的基础上,教授讲话的权威值计算以下:p?k(u)=dN+(1d)?vadjuB?k(v,u)B?k(v,i)p?k(v) (6)其中:k=1或k=2,即计算矩阵B?kNN时采取了哪个时间衰减函数;N是属性图的节点总数;d是阻尼因子,通常全部在区间0.1,0.2选择,通常选择0.15;adju是指向u的讲话集合。最终将权威度向量进行归一化,即P=(p(1)maxNi=1 p(i),p(2)maxNi=1 p(i),p(N)maxNi=1 p(i)(7)3 研讨实例及其分析下面以一个初步形成的研讨厅体系的教授研讨过程为例(文件7中的示例),来说明基于SemRank教授权威度计算方法。其中,讲话教授是以部分博士硕士和硕士硕士进行的仿真,教授的讲话是经济专业人士帮助并提供的。其中,Zh代表主持人,T、C、G、L、M代表不一样的教授,在主持人的主持下教授们进行研讨的过程和结果图1所表示。Zh:好,假如各位教授没有意见,现在进入研讨。首先请对今年的经济形势作一个基础判定。T:在扩大内需政策影响下,经济增加幅度止跌回升。今年仍有趋好潜力。首先,除了出口增幅趋缓外,投资、消费需求增速都有所提升;其二,结构矛盾继续缓解,产销衔接很好;其三 ,上半年工业企业经济效益显著好转。C:(除了T提到的多个原因外)另一个主动原因是工业经济在结构调整中增加加紧,上半年工业增加保持了10%以上,势必对今年经济起到主动作用。G:(除了C和T提到的原因外)另外开启了部分供给政策,如对中小企业的支持、技改贴息提升装备水平、国企改革等, 对改进宏观经济发展环境是十分必须的。L:(我不一样意她们三人的分析)我担心的是,世界经济形势会对中国经济增加产生极其不利的影响。依据世界银行估量,美国经济今年估计增加0.7%(去年5%),世界经济增加2.9%,全球贸易增加5.2%。T:(不一样意 L的分析)我认为无须过分忧虑。实际上去年内需也起到主要作用。只要今年继续坚持主动的财政政策,加上公务员增资、提升低收入者收入水平等政策到位,内需增加会填补出口下滑对经济增加的不利影响。M:L的意见确实值得注意。中国对美国的出口占全部出口的21%,假如美国经济出现衰退,必将影响中国出口,还将对中国吸引外资、资本市场、投资信心等方面产生影响,因为Zh :L,按你的判定,今年经济形势走势会怎样?L:(响应 Zh)我不太乐观,受世界经济的影响,中国今年经济增速会比上年下降,GDP增加 7%M:我同意L的见解T:(不一样意 L)我认为,经济增加幅度还会有所上升,抵达 8.3%C:( 对她们两人L和T的意见全部不太赞同)从总体上,我对今年经济增加还是有信心的,GDP增加和上年持平,达成 8%。但以下问题值得注意:一是非国有经济投资问题;二是消费增加含有一定的不确定性;三是农民收入连续多年没有多大的改进,影响到总体的消费水平G:(不太同意L、T、C的意见)考虑到出口会受到影响,GDP增加幅度将比去年略有下降,达成7.6%7.8%将2.2节中叙述的基于SemRank的教授权威度计算方法应用于上述的研讨过程,教授的每次讲话为一个节点,用教授研讨时的ID和讲话时间或次数标志类节点,为清楚起见,用“教授ID+t+讲话的次数”来标志节点,取得了以下的教授个体互动关系:Tt1;Ct1Tt1; Gt1Tt1,Ct1;Lt1Tt1,Ct1,Gt1;Tt2Lt1;Mt1Lt1;Zht1Lt1; Lt2Zht1;Mt2Lt2;Tt3Lt2; Ct2Lt2,Tt3;Gt2Ct2,Lt2,Tt3;上述的研讨数据需预处理,这里采取科学院计算所ICTCLAS2021进行汉字分词,将教授的每条讲话表示成tfidf向量形式。依据2.2节中的算法计算教授讲话的权威值,设置许可的输出误差error为0.000 1,式(6)中的阻尼因子为0.15,考虑前面提到的两种时间衰减函数,共迭代了9次,取得最终的结果如表1所表示。作为对比,表1列出了采取基于HITS的链接结构分析算法7计算的教授讲话权威值。因为HITS算法是不收敛的,采取的迭代次数为3。表1 教授讲话权威值教授讲话采取f?1(u,v,T)?时间衰减函数权威值排序采取f?2(u,v,T)?时间衰减函数权威值排序基于HITS的链接?结构分析算法权威值排序Tt11.00 11.00 10.173Ct10.71 30.74 30.134Gt10.31 60.41 60.076Lt10.86 20.87 20.067Tt20.14 90.14 90.008Mt10.14 90.14 90.008ZHt10.56 40.56 40.008Lt20.49 50.49 50.281Mt20.14 90.14 90.008Tt30.22 70.26 70.182Ct20.18 80.21 80.105Gt20.14 90.14 90.008依据上述教授每条讲话的权威值,对每位教授全部的讲话的权威值求和,再求平均,取得教授的总体权威度如表2所表示。分析表2可知,在采取2.1节中提出的两种时间衰减函数时,教授的总体权威度排序比较一致。依据排序结果,本文关键关键关注教授L、T和C的讲话(因为主持人关键是引导研讨过程的,尽管排序是第2位,这里不关注她的讲话)。从这三位教授的讲话能够归纳出今年的经济形势,有三种不一样的意见:a)经济增加幅度止跌回升,今年仍有趋好潜力;b)世界经济形势会对中国经济增加产生极其不利的影响;c)工业经济的结构调整,势必对今年经济起到主动作用。依据表1可知,采取基于HITS的链接结构分析算法计算教授讲话权威值时,不可避免地出现了教授讲话权威值为0的情况(如Tt2、Mt1),这是因为HITS算法本身的特征决定的,假如某条讲话无人响应,该权威值就为0。采取SemRank方法时,教授讲话的权威值不会出现为0的情况。由式(6)可知,每位教授的权威值全部有非0的初始值d/N,这和现实情况是一致的,因为每位参加研讨的教授全部是领域和行业教授,其讲话全部含有一定的参考价值和权威度。表2 教授的总体权威度教授讲话采取f?1(u,v,T)?时间衰减函数总体权威度排序采取f?2(u,v,T)?时间衰减函数总体权威度排序基于HITS的链接?结构分析算法总体权威度排序T0.453 30.467 40.1172C0.445 40.475 30.1153G0.225 50.275 50.0354L0.675 10.680 10.1701M0.140 60.140 60.0005Zh0.560 20.560 20.0005以教授G的第一条讲话为例说明教授讲话在研讨中的权威值改变的情况。图2所表示,采取SemRank方法时,在时刻2教授Gt1讲话的权威值取得了最大值,这和实际情况是相符的。在讲话Gt1提出来以后,其它教授会对这条讲话评论,表示自己的意见。在某个时刻权威值会取得最大值,伴随研讨的深入,大家讨论的内容会发生改变(上述研讨的示例,只是试验所采取的研讨脚本的一部分内容),讨论的议题演变成怎样帮助中小企业度过这次经济危机,所以教授讲话Gt1的权威值将会伴随时间变小,这也说明了SemRank方法利用语义和时间原因来计算教授讲话权威值是正确的,并和实际情况是相?符的。采取基于SemRank的教授权威度计算,能够衡量教授每条讲话的权威值,评定每个教授的总体权威度。经过权威度计算和排序,可知哪多个教授讲话是需要关键关注并引发最多争议讨论的,对形成最终的决议提供了有力的支持。4 结束语针对综合集成研讨环境中的教授权威度评价问题,本文提出基于SemRank的教授权威度计算方法。该方法既考虑了教授之间的交互结构,又考虑了教授讲话内容之间的语义关联,同时引入了时间衰减函数来反应交互的动态复杂性。试验结果表明,本文提出的教授权威度计算方法合理、有效,可帮助教授快速了解目前的交互结构,避免思维的过分发散,加紧教授群体的自组织过程,为深化认识、激发思维奠定了很好的基础。本文所提的权威的计算方法尽管考虑到了讲话之间的语义关联关系和时间衰减原因,不过因为这种关联程度计算方法并不足以严格划分讲话的专题,在研讨话题发生改变时,会在一定程度上造成权威度更新的滞后和混淆。在下一步的工作中,能够加入更多的语义了解及分析内容,采取分类和聚类方法,对教授讲话进行动态专题建模,获取教授专题的转移趋势,进而在此基础上愈加正确地计算教授在某一专题上的权威度,和在全部专题上的综合权威度。参考文件:1钱学森,于景元,戴汝为.一个科学新领域开放的复杂巨系统及其方法论J.自然杂志,1990,13(1):310.2王寿云,于景元,戴汝为,等.开放的复杂巨系统M.杭州:浙江科学技术出版社,1995.3戴汝为,李耀东.基于综合集成的研讨厅体系和系统复杂性J .复杂系统和复杂性科学,2021,1(4):124.4戴汝为.系统学和中医药创新发展M.北京:科学出版社,2021.5李耀东,崔霞,戴汝为.综合集成研讨厅的理论框架、设计和实现J.复杂系统和复杂性科学,2021,1(1):2732.6赵明昌, 李耀东.一个新的综合集成研讨厅软件框架J.计算机工程和应用,2021, 44(11):14.7崔霞,戴汝为,李耀东.群体智慧在综合集成研讨厅体系中的涌现J.系统仿真学报, 2021,15(1):146153.8李敏花,戴汝为,李耀东.一个基于即时讲话评价的教授权威度计算方法J.模式识别和人工智能,2021,21(4):469475.9李晓明,闫鸿飞,王继民.搜索引擎原理、技术和系统M.北京:科学出版社,2021.10BIANCHINI M,GORI M,SCARSELLI F.Inside PageRankJ.ACM Trans on Internet Technology,2021,5(1):92128.11HASSAN A,FADER A,CRESPIN M H,et al.Tracking the dynamic evolution of participant salience in a discussionC/Proc of the 22nd International Conference on Computational Linguistics.Morristown,NJ:Association for Computational Linguistics,2021:313320.
展开阅读全文