资源描述
,8/21/2018,#,8/21/2018,#,人工智能驱,动,的内容生产与分发,提纲,内容消费的行业现状,人工智能辅助内容生产,内容质量控制模型,内容分发/推荐系统,内容消费的行业现状,什么是内容消费?,一种直接或间接以,内容产品和内容服务,为消费对象的经济活动,媒介独立,内容传播的媒介相对独立,传播媒介的属性限定了内容的 类型,如视频类内容几乎只能在电视频道上传播,供需调 节难,角色单,内容生产成本高;图文内容、视频内容的生产者之间有较 大的壁垒,内容的供给以生产者为主,内容产量相对低,单向消费,内容从生产者、传播渠道、到用户,全程单向传播,一次 内容消费的完成就意味着一次传播行为的终结,内容消费满足了用户的什么需求?,覆盖每一个,用户生活的方方面面,泛娱乐内容,知识型内容,观点型内容,高频,海量,碎片,刚需,适量,粘性,刚需,少量,需求特点,内容供给,兴趣,决策,消遣&流行,成长,用户需求类型,需求满足方式的,可替代性,低,高,内容消费为什么重要?,1.,内容消费已经发展成为了一个,影响所有人,日常生活的庞大产业,数据来源:Top10行业用户规模、用户总时长和同比增长率来源于Quest,Mobile的移动互联网2017年,Q2,夏季报告,134.,2,130.,6,82.,4,76.,4,27.,5,23.,7,20.,8,8.,2,7.,9,8.3%,15.8%,398.2,33.1%,72.7%,-0.3%,9.5%,0.9%,7.3%,55.1%,17.1%,移动社交,移动视频,手机游戏,移动购物,金融理财,Top,10,行业用户总时长及同比增长率,(,2017,年,6,月,),(亿小时/月),9.1,6,8.21,6.,3,5.97,5.,6,5.,6,5.4,9,5.0,9,4.76,4.,5,5.2%,23.4%,21.5%,5.6%,6.0%,33.9%,39.2%,9.1%,-1.1%,17.5%,即时通讯,综合电商,在线音乐,综合资讯,应用商店,Top,10,行业用户规模及同比增长率,(,2017,年,6,月),(,亿月活用户,),内容消费为什么重要?,3,668,5,567,38,000,47,000,56,000,5%,8%,10%,2,023,2015A,2016A,2017E,3,400,2,400,631,美国,日本,中国,2.,更是,国民经济杠杆,,关乎社会,主流价值观的塑造,人均信息消费(美元,/,年,),2015-2017,内容电商行业规模(亿元,),内容电商网络电商占比,与美国差距8,1.4,%与日本差距7,3.7,%,内容消费每增加,100,亿元,可带动国民经济增长,338,亿元,1,数据来源:1)2013年工业和信息化部电信研究院数据;2)人均信息消费:世界银行及恒丰银行研究院商业银行研究中心统计数据,对需求的知晓程度,完全知道,部分知道,完全不知道,人 工,机 器,内容消费行业地图,人工,+,机器,,多种消费形,态,组合,搜索,关注,推荐,排行榜,门户/垂直,AP,P,BBS,社区,问答,聊天,秘书化,内容消费的主要形态,从搜索到推荐,是,内容获取方式的必然演进,知道我知道,知道,不知道我不知道,我不知道,聊天/阅读/社区,推荐,搜索,推荐,内容消费的三大变化趋势,媒介融合,角色融合,消费升级,作者深度赋能,优质内容识别,精准个性推荐,需要解决的问题,消费升级,从关注到最终的分享可循环,内容散落在消费的各个环节,影响力 扩大,消费结构变化,用户需要更多专业垂直、精细、多元化的内容,角色融合,生产门槛降低,人人都是生产者,人人都是消费者,内容生产者猛 增,从专业生产,(PGC),发展到社会化生产,(UGC),,内容海量爆发,媒介融合,一个媒介上可以获取多种内容,同一内容也可以在多个媒介上分发,获取内容的方式大发展,从传统的人找内容,发展到内容找人,百度智能驱动的内容消费生态,始于,2016,年,6,月,定制生产、优质生产、高效生产,选题推荐:大数据,+,知识图谱,内容选材:知识图谱,+,自动配图,图片处理:智能裁图,文字处理:自动标题推荐,+,语义纠错,视频识别:视频去重,+,长短关联,智能写作,:AI,智能写作,多维度识别优质内容资源,质量先验:基于半监督学习构建对 于篇章质量的全方位的理解框架,多维度丰富信息,质量后验:基于NL,P,和,C,NN,识别,用户正负反馈,评价内容质量,精准个性化推荐及推送,搜索:从关键字,到语音、图片交互,个性化推荐:百度特有的超大规模实 时个性化推荐系统,千亿规模参数下 的多目标最优化,推送:基于用户兴趣点、地理位置、天气等综合因素,03,-,内容分发,搜索,+,推荐,满足用户内容需求,双引擎,手机百度,“搜索,+,推荐”双引擎内容分发,极速搜索,一站搜索全网,搜文字、搜图片,快速识别,帮助用户主动获 取所需内容,精准推荐,精选资讯、视频、小说、漫画等优质内容,结合智能个性化推 荐算法,满足用户潜在内容消费需求,Google,Feed,2017,年,7,月上线,人工智能辅助内容生产,内容生产流程,1,选题推荐,内容选材,图片处理,文字处理,视频识别,智能写作,选题推荐,基于,7,亿互联网民每天,60,亿次搜索请求的大 数据积累,挖掘实时热点事件,结合用户画 像和知识图谱技术,智能推荐给相关作者,邀请作者写作,解决作者选题环节的痛点,相比普通作者自选题文章平均用户点击率提 高,2.7,倍,知识图谱,全网搜索大数据,实时热点,建议选题,稀缺主题,,,内容生产流程,2,选题推荐,内容选材,图片处理,文字处理,视频识别,智能写作,内容选材,基于知识图谱的内容推荐:通过语义分析技术识别作者写作 主题,结合百度知识图谱、指数、百科、正版图库等产品,帮助作者发现写作素材,自动配图,基于图像识别能力的自动配图功能,根据图像清晰度、美观 度、图文相关性等特征选取优质图片,模糊图片识别准确率,71%,,清晰图片识别准确率,96%,以上;自动配图准确率,90%,智能裁图,利用基于深度学习的图像处理技术,自动 识别图片主要内容区域并进行截取,准确率9,7%,以上,百家号文章头图的不 合格率降低,60%,智能裁图,内容生产流程,3,选题推荐,内容选材,图片处理,文字处理,视频识别,智能写作,标题推荐,基于语义理解技术,识别文章内容,推荐优质 标题,语义纠错,运用机器学习的能力,让机器理解文章中的句 子含义,来找出不符合语义的错别字,纠错准确率,99%,内容生产流程,4,选题推荐,内容选材,图片处理,文字处理,视频识别,智能写作,视频识别,视频查重:基于图像及语音的比对技术,识别内容近 似的短视频,应用于审核前原创作者保护,线上降低 重复视频推荐;准确率达到,97.5%,长,-,短视频关联:将影视截取的短视频匹配到其来源长 视频,利用知识图谱获取关联信息、进行相关推荐;准确率,90%,-,短视频片段获取长视频结构化信息,-,-影视剧名称:三生三世十里桃花,演员:杨幂,赵又廷,张智尧、迪丽热巴 年份:2017,类型:古装剧,重复,百看不厌,经典画面,赵又廷与挚爱杨幂在 十里桃花再次相遇,1232,次播放,内容生产流程,5,选题推荐,内容选材,图片处理,文字处理,视频识别,智能写作,选题推荐,内容选材,图片处理,文字处理,视频识别,智能写作,智能写作,大数据,+,知识图谱,自动挖掘现实生活中动态热度变化,再通 过算法自动生成文章,百度智能写作示例,2014年美联社就启用机器人进行财经报道,每季度能完成对,4000家公司的财报报道,此前靠记者仅能完成400家,2015年起,机器人用于体育新闻报道,完成梦幻橄榄球赛报道,还在行文中大展幽默(技术支持为自动化洞察力公司,其开发的 软件Wordsmith在16年共写了15亿篇文章,涉及金融、房地,产、体育等多领域),2015年9月,推出自动化新闻写作机器人Dreamwriter,发布了 关于消费价格指数的报道,2015年11月启用机器人写稿系统“快笔小新”,供职于体育 部、经济信息部和中国证券报,撰写体育和财经稿件,内容生产流程,6,内容质量控制模型,内容质量控制模型,构建全方位的篇章质量理解框架,,多维度,理解内容质量,基础数据,基础技术,标题党,旧闻新发,恶意广告,原创度,源权威度,内容影响力,基础文法硬伤,题材吸引力,作者信息,Feed用户行为,自然语言理解,数据挖掘,网页搜索,机器学习,作者行为,全网用户行为,低质内容示例,篇章质量理解框架,低质内容识别内容优质度计算,内容低俗内容令人不适可读性时效性,.,.,Shared,feature representation,CNN,Layer,Concatenate,Max,Pooling,other task,related,advanced,features,Task,related,Full,Connected,Hidden,Layer,Task,Related,Full,Connected Layer With,Softmax,Output,全量资源,Unlabeled,+,任务相关标注,Labeled,RNN,Encoder,T,ask-rela,t,ed,F,ea,t,ures,+,Shared,淫秽色情,Seman,t,ic,F,ea,t,ures,T,ask-rela,t,ed,F,ea,t,ures,+,Shared,标题党,Seman,t,ic,RNN,Decoder,F,ea,t,ures,内容质量控制模型,先验质量识别,:基于半监督的多目标统一内容分类框架,特征词挖掘,GBDT模型,用户评论,类别种子词,评论语料集,新词发现,凝固度,信息熵,词频,基于共现统计筛选,类别特征词,主体特征词,CNN模型预测,文章是否低质,特征词词典,mdzz,、制帐,骗流量、瞎 写、胡编乱造,小编、编辑、百度,又,骗,老子,流量、,牛头不对马嘴,、小编,标题狗,密集恐惧症,要犯了、,感觉头皮发麻、不行了要吐了,内容质量控制模型,后验质量识别,:基于,NLP,语义理解的评论正负反馈分析,内容分发/推荐系统,内容分发,/,推荐系统,基于知识图谱,构建,关注点关系图谱,关注关系图谱示例,科技,智能手机,虚拟现实,无人机,汽车,新车,汽车产业,新能源汽车,谷歌发布,V,R,摄像机,无人驾驶,特斯拉,失控,人工智能,北京车展,比亚迪,特斯拉,V,R,眼镜,三星手机,爆炸,训练数据,Feed日志挖掘,网页挖掘,模 型 训 练,内容特征,文字/图片/视频向量表示,关注点,关注点向量表示,内容分发,/,推荐系统,内容理解,:关注点抽取,数据来源,行为数据,:搜索query、,Feed,阅读、贴吧、全网浏览数,画像数据,:百度用户画像数据,.,基于,行为数据,的挖掘策略,针对搜索Query和,Feed,阅读内容,基于内容理解技术提取兴趣主 题和关注点,根据关注点,/,主题在内容中的权值、展现数、点击数计算相应的 强度,根据点击数和持续周期,区分长期和短期兴趣点,基于,画像数据,的挖掘策略,画像兴趣体系到,Feed,兴趣体系映射,基于画像属性的人群划分和推荐触发,用户模型示例,内容分发,/,推荐系统,用户理解,:用户兴趣挖掘,推荐价值相关的多目标学习系统,(Multi-Task,Learning),模型输入:千亿规模参数,用户信息:兴趣、属性、偏好,等,内容信息:吸引力、质量、相关性,等,匹配信息:用户,-,内容,模型输出:多目标,内容点击、时长、收藏、评论、分享,等,内容点击,时长,收藏,用户信息,内容信息,匹配信息,内容分发,/,推荐系统,推荐策略,:多维度的推荐队列召回、排序和融合,DNN,上线,核心兴趣点强相关内容推荐准确度显著提升,D,NN上线前,D,NN上线后,人工智能,房价调控,英超,白鹿原,用户核心兴趣点,内容分发/推荐系统,
展开阅读全文