资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,主讲人:周富秋 博士,2009,年,11,月,24,日,智能计算助力互联网的进化,公司简介,海量公司是一家从事中文智能计算和数据挖掘的理论研究及技术开发的知识性创新企业,长期致力于智能计算的研究及其在互联网的应用,从字符到语义,从非结构化到结构化,行为分析,在核心技术基础上,提供智能计算基础件产品和互联网内容挖掘服务,互联网现状(,1,),CNNIC,的最新报告显示,截止今年,6,月,30,日,我国网民规模、宽带网民数、国家顶级域名注册量三项指标持续稳居世界第一,其中,:,国家顶级域名注册量达,1296,万,网民规模达,3.38,亿,较去年底增长,13.4%,宽带网民规模达,3.2,亿,占总网民数的,94.3%,手机上网用户达,1.55,亿,半年内增长了,32.1%,网络普及率达,25.5%,互联网现状(,2,),纵观全球,:,互联网每天的点击数有,1000,亿 次,全球所有的网页之间有,55,万亿 个连接,互联网中有,10,亿 个芯片,每秒,2,百万 封邮件;,3.1,万 条短信,246HB,的存储空间,-,多么大的一个磁盘,互联网上每秒产生的流量有,7TB,之多,互联网消耗了全球电力的,5%,互联网现状(,3,),数据累积量急剧增长、大量有价值的信息被淹没,呈现,“信息过剩”,信息是异域、异构、非结构化的,呈现,“信息孤岛“,实质,“资源利用率低”:,Google VS,百度,互联网阴霾之概括:,多,信息过量、难以消化,杂,信息真假、难以识别,乱,信息安全、难以保证,难,信息形式不一、难以统一处理,互联网未来,转量变为质变,依赖,网站模式创新: 原创型、专业性、地域性、互动性。,网站技术创新:智能计算、数据挖掘、信息融合。,以内容为纽带,将整个互联网搭建成一个语义逻辑整体,从字符到语义,篇章内,篇章间,篇章外,词,实体,自然语言,分词,应用层次,研究层次,命名实体、事件、主题标注,关键词技术,知识网络:概念树,自动消重,无指导自动聚类,半监督自动分类技术,有指导自动分类,(,层级分类,),命名实体识别,新词发现,知识网络:实体属性,-,关系库,机器翻译,NLP,搜索,基于命名实体的聚类,基于命名实体的分类,基于命名实体的关联,半监督学习,从非结构化到结构化,非结构化,不可计算,网页,文本,pdf,图像,影像,结构化,可计算,定义,类型,属性,运算逻辑,值域,H2X,信息抽取技术,视觉还原技术,版式识别技术,创建知识网络,NBA,科比,麦迪,乔丹,朱芳雨,CBA,姚明,链接中国男篮与美国男篮的桥梁,通过命名实体识别、实体间关系挖掘获得关系统计数据,从而在互联网的海量数据中发现潜在的规律,刘玉栋,王治郅,姚明即是,NBA,的强链接,又是,NBA,群与,CBA,群间的桥梁,结构洞,弱链接与强链接:发现潜在的信息桥梁,解决方案:海纳在线数据挖掘服务,格式分析,HTML,语法分析,OCR,、,OFFICE/PDF,等文档内容提取,*,版式分析,基于视觉的模式识别,体裁分析,*,语法分析,词法分析,句法分析、语体分析,*,语义分析,命名实体识别,信息抽取,*,形式化分析,自然语言分析,结构化信息,RDF,、,RDF Scheme,DOC, XLS, PDF, DB,图像,音频,视频,TXT, XML, HTML,解决方案:延伸阅读,-,用户体验和智能,对应某发布网页,通过增加一些相关的文章题目与摘要,引导读者阅读更多的内容,利用实体识别与关系分析等智能计算手段,实现 聚类、实体与主题提取,精彩计算,随需而变,点亮阅读、增加粘度,降低制作成本、盘活已有资源,更精准,更易于互动、实现个性化,传统的方法,:热点词,-,只有发生了很久,才能通过统计得知是热点,现在的方法,:时间维度与类别维度,-,满文军,是明星,,萧淑慎,是明星,吸毒只要和这些人相关就是敏感新闻,未来的方法,:,时间维度,,同现维度及敏感维度,-,大批银行倒闭之后,必然是经济危机的开始,于是可以预测未来,解决方案:热点发现、跟踪与预测(,1,),未来的方法,乔布斯,披露健康状况,苹果,股票应声上涨,乔布斯,宣布要休病假,苹果,股票应声下跌,10,乔布斯与苹果股价:一种稳定的关系,人物,乔布斯,杨惠妍,巴菲特,股票,中石化,中石油,苹果,乔布斯的健康情况直接影响到了苹果股价,解决方案:热点发现、跟踪及预测(,2,),解决方案:智能检索与推送,用户行为分析、意图识别、智能引导,买房,房地产,房贷,新盘,0.1,0.5,0.2,房价,0.4,时序统计,房产名称,专家预测,用户行为分析,命名实体属性库,实体关系库,解决方案:舆情分析与跟踪,别克昂克雷,在论坛、博客等识别出的命名实体将可以获取民间的产品评价,为什么要识别?句子中会有歧义,错误的提取产品名将会导致错误的分析,基于知识网络的智能计算:实现通过网络了解民情、汇聚民智,通过用户行为分析,采用相应的多维度的兴趣描述、多方面的推送策略,词群,资讯分类知识树父节点,敏感性,T,男女喜好,年龄偏好,总频率,姚明、火箭,NBA,当下不敏感,偏男性,/80%,1440,4117932,贷款、房产,房地产,当下敏感,偏男性,/75%,2450,562144,LV,,,PRADA,流行,当下不敏感,偏女性,/90%,1635,3127,针对男性、,2440,进行聚类,获得一个个子群体,通过更多的词群予以表示,解决方案:个性化服务,解决方案:网站净化服务,“和讯网”垃圾帖过滤,净化,-,疏导,助力客户,增效,,即提升清除效果、网站运营、品牌价值,省力,,即节省人力、财力、心力,创建稳定、和谐的网站环境,达到客户期望的效果,人员等成本节省,60%,以上,持续保持处理正确率,90%,以上,724,小时不间断服务,10,秒 内自动处理,解决方案:网站净化服务(案例),互联网数据,/,内容挖掘路径,主题抽取、深度标引,比对、统计形成二次情报,对决策具有指导意义,知识,情报,消重、结构化、索引、分类,具备基本利用价值,信息,广泛采集,数量大,价值低,数据,“,海量”时代的到来,信息匮乏,信息爆炸,新浪,搜狐,网易,信息搜索,百度,深度挖掘,海量,媒体网站的未来,将互联网的,数据转换为,情报,/,知识,情报,/,知识转换为,决策,决策转换为,利润,将媒体网站建成,安全网、诚信网、绿色网,谢谢!,演讲完毕,谢谢观看!,
展开阅读全文