NLP在豆瓣标签系统的应用解读课件

上传人:494895****12427 文档编号:252479401 上传时间:2024-11-16 格式:PPT 页数:34 大小:1.17MB
返回 下载 相关 举报
NLP在豆瓣标签系统的应用解读课件_第1页
第1页 / 共34页
NLP在豆瓣标签系统的应用解读课件_第2页
第2页 / 共34页
NLP在豆瓣标签系统的应用解读课件_第3页
第3页 / 共34页
点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,NLP,在豆瓣标签系统,的应用,NLP在豆瓣标签系统的应用,什么是标签,标签的作用,标签的提取,标签的整合,总结与思考,什么是标签标签的作用标签的提取标签的整合总结与思考,什么是标签,标签的作用,标签的提取,标签的整合,总结与思考,什么是标签标签的作用标签的提取标签的整合总结与思考,什么是标签,用户视角,什么是标签用户视角,什么是标签,系统视角,什么是标签系统视角,一个有意义的片断,具有信息量,可被用户理解和使用,相对独立的语法成分:词或短语,文本长度和信息量的平衡,以简要的方式反映较多的内容,由使用和展示方式决定,什么是标签,一个有意义的片断什么是标签,什么是标签,标签的作用,标签的提取,标签的整合,标签的特点,什么是标签标签的作用标签的提取标签的整合标签的特点,标签的作用,标签预测,热点发现,用户画像,标签,推荐,标签的作用标签预测热点发现用户画像标签推荐,什么是标签,标签的作用,标签的提取,标签的整合,总结与思考,什么是标签标签的作用标签的提取标签的整合总结与思考,标签的提取,标题,导演,主演,类型,别名,剧情简介,标签的提取标题导演主演类型别名剧情简介,标签的提取,小组,标题,小组简介,小组帖子,标签的提取小组标题小组简介小组帖子,标签的提取,原始文本,标签集,中文分词,词性标注,标签选择,词库构建,标签的提取原始文本标签集中文分词词性标注标签选择词库构建,标签的提取,词库构建,外部资源,词的独立性,内部词库,生成候选词,条目元信息,维基百科/维基字典,标签的提取词库构建外部资源词的独立性内部词库生成候选词条目元,标签的提取,词库构建,外部资源,元信息词列表,书名,电影名,,出版社,作者,译者,,歌手,演员,导演,维基百科,文本中的实体词,维基字典,维基百科中不包含的形容词等,标签的提取词库构建,标签的提取,词库构建,内部词库,使用,N,-,gram,生成候选词,我在,豆,瓣工作,在豆,瓣工,豆瓣工,豆瓣,工作,计算词的内部独立性,P(,豆瓣,),P(,豆,),*,P(,瓣,),计算词的外部独立性,标签的提取词库构建,示例,个么,吗的,我人,人个,大我,有是,的里,求的,的为,个已,我哪,我租,桎梏,揶揄,蹒跚,缱绻,袈裟,徜徉,纨绔,憔悴,邯郸,霹雳,璀璨,骷髅,溶咖 陈奕,豆瓣电,速溶咖 百事可,贝叶,曼哈 农夫山,潘多,国际主 瓣电,邻广,陈奕迅,速溶咖啡,豆瓣电台,百事可乐,贝叶斯,曼哈顿,农夫山泉,潘多拉,示例个么 吗的 我人 人个溶咖 陈奕 豆瓣,标签的提取,词库构建的优点,无监督,/,半监督,词典的准确率较高,可以发现新词,符合豆瓣语料的词频分布,标签的提取词库构建的优点,标签的提取,中文分词,规则,+,匹配,条件随机场,词性标注,用词性筛除无实意的候选词,实词:含有实际意义的词语,虚词:没有完整的词汇意义,但有语法功能,名词、动词、形容词,副词、代词,标签的提取中文分词,标签的提取,标签选择,UGC,标签的词频特征,被用户标注过的次数,使用过该标签的用户数,该标签所属的条目数,标签的提取标签选择,标签的提取,标签选择,TF,/,IDF,TextRank,类似于,PageRank,基于图的排序算法,使用窗口内共现作为,link,主题模型,精度更高但较为费时,标签的提取标签选择,什么是标签,标签的作用,标签的提取,标签的整合,总结与思考,什么是标签标签的作用标签的提取标签的整合总结与思考,标签的整合,合并同义词,罗永浩,-,老罗,-,罗胖子,豆瓣日志,拉丁文,-,-,拉丁语,夏代,-,夏朝,豆瓣小组,男盆友,-,男朋友-,-,蓝盆友,-10,标签的整合合并同义词,标签的整合,合并同义词,实体链接(,Entity,Linking,),相似度计算,外部资源(维基百科等),词共现,其他方法,DNN,:,word2vec,标签的整合合并同义词,标签的整合,标签分类,电影类型,:,剧情 动作 爱情 科幻 动画 悬疑 惊悚,地区,:,美国 香港 台湾 日本 韩国 英国 法国,科技,:,互联网 科普 科学 交互 设计,通信,标签的整合标签分类,标签的整合,标签分类的方法,词性标注,外部资源,人工工作,标签的整合标签分类的方法,标签的整合,构建标签树,扁平结构,-,层次结构,全局的标签树不依赖于具体的信息源,有助于跨类别的推荐,标签的整合构建标签树,什么是标签,标签的作用,标签的提取,标签的整合,总结与思考,什么是标签标签的作用标签的提取标签的整合总结与思考,什么是标签,标签的作用,标签的提取,标签的整合,总结与思考,什么是标签标签的作用标签的提取标签的整合总结与思考,总结与思考,标签,vs,分类,multi-label,与,multi-class,区别:,可以为一个对象分配多个标签,而只归于一类,实际应用中:类别是固定的,需要的训练数据更规范,标签预测也可以当做多分类问题来解决,类别不均衡,类的个数过多,新的类别不好处理,总结与思考标签 vs 分类,总结与思考,标签,vs,文本,摘要,文本摘要,以自然语言的句子为基本单位,句子合成方法不够成熟,使用和展示的方式有限,用户不大可能写摘要,都是,文本长度,与,信息量,的平衡,面向的对象都可以是人,(,用户,),总结与思考标签 vs 文本摘要,总结与思考,标签,vs,隐层特征,都可以用于推荐,白盒,vs,黑盒,隐层特征,(Latent,Factor),:,可以用标签生成,面向的对象是机器:不具有直接的可解释性,性能可能有提升,维度、计算量,总结与思考标签 vs 隐层特征,分类,特征,同义词,标签树,文本摘要,自然语言处理,外部资源,标签选择,中文分词,词性标注,词共现,标签,维基百科,词库构建,分类特征同义词标签树文本摘要自然语言处理外部资源标签选择中文,讨论,非结构化文本信息的挖掘,让机器,“,理解,”,文本,随着互联网的发展,互联网上的文本信息成为了知识获取(维基百科),信息获取(新闻网站)和传播(,SNS,)的重要途径,而其中大部分都是非结构化的文本信息。,为了让机器,“,理解,”,文本,需要,对互联网中海量的,非结构化文本信息进行挖掘,欢迎大家,一起,讨论非结构化文本挖掘的各项技术,,例如,网页信息抽取,短文本处理,关系抽取,实体识别等等。,讨论非结构化文本信息的挖掘让机器“理解”文本,谢谢!,NLP在豆瓣标签系统的应用解读课件,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!