资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,北京久其软件股份有限公司,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,人工智能技术概览,目录,1,、人工智能定义、关联,2,、 人工智能主要应用领域,3,、机器学习算法与分类,4,、主流神经网络简介,5,、,NLP,的主要技术与方法,2024/9/30,人工智能定义,用机器,通常为电子仪器、电脑等,对人的意识、思维的信息过程的模拟。,人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。,数据:预测、挖掘,语音:语音识别、语音合成、声纹检测,文字:分类、翻译、对话、,NLP,、,NLU,、,NLG,视觉:图像识别、生成作画、视频理解,运动:智能控制、仿真机器人、自动驾驶,思考:简单推理、机器人写稿、,AlphaGo,2024/9/30,涉与面最广的穿插学科,人工智能,自动化控制,计算机,数学,统计学,逻辑学,归纳学,系统学,概率论,哲学,心理学,生物学,经济学,语言学,工程学,认知学,仿生学,人工智能教育要从娃娃抓起,有望成为,一级学科,2024/9/30,工业4.0,自动化生产线,旨在提升制造业的智能化水平,建立具有适应性、资源效率与基因工程学的智慧工厂,在商业流程与价值流程中整合客户与商业伙伴,其技术根底是网络实体系统与物联网,特斯拉工厂曝光,整个工厂只有,150,个机器人,超震撼,2024/9/30,机器人,好帮手,奔跑跳跃搬东西,这种,机器人平衡能力比人类还强,2024/9/30,自动驾驶,谷歌、特斯拉、百度、苹果,集各类人工智能技术一身,2024/9/30,机器学习,数据爆炸式增长催热机器学习,统计学、概率模型贝叶斯、神经网络,有监视学习、半监视学习、无监视学习,主要区别在于人工投入的比例,无监视学习只有极少数应用,投多少人工,有多少智能?,2024/9/30,强化学习,reinforcement learning,,,RL,又称再励学习、评价学习,智能系统从环境到行为映射的学习,以使奖励信号,(,强化信号,),函数值最大,处于研究阶段,无人机,,自动化控制,,电子游戏,NLP,?,2024/9/30,迁移学习,Transfer Learning, TL,收集数据本钱高;训练耗时;重复利用已有知识,样本迁移、特征迁移、模型迁移、关系迁移,用于,精准营销,2024/9/30,人工神经网络,人工神经网络模仿动物神经网络特征,进展分布式并行信息处理的算法数学模型。,网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而到达处理信息的目的。,优势,并行分布处理,高度鲁棒性和容错能力,分布存储与学习能力,能充分逼近复杂的非线性关系,激活函数、损失函数、梯度下降,2024/9/30,深度学习,深度学习源于人工神经网络,多个隐含层感知器。,深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。,各层设计、图形化调参、学习速率,端到端,优势?劣势?,2024/9/30,CNN 卷积神经网络,Convolutional Neural Network,图像领域应用非常成功,人脸识别超99.5%,全连接 局部连接,权值共享,图像识别、OCR、语音识别DBN+CNN+RNN最好,特征数量,卷积核大小,2024/9/30,RNN 循环神经网络,Recurrent Neural Network,t+1时刻网络的最终结果O(t+1)是该时刻输入和所有历史共同作用的结果,语音识别、NLP,Bidirectional RNNs、Deep RNNs、GRU RNN,2024/9/30,LSTM -长短期记忆网络,Long Short-Term Memory Neural Network,RNN时间上传递的神经网络,可能“梯度消失,通过门的开关实现时间上记忆功能,防止梯度消失,遗忘门,输入门,输出门,Seq2Seq机器翻译,Attention Model对话,2024/9/30,GAN -生成性对抗生成网络,Generative Adversarial Networks,它有两个模型:一个生成器,一个判别器,没有损失函数,优化过程是“二元极小极大博,2024/9/30,深度学习框架,库名称,开发语言,速度,灵活性,文档,适合模型,平台,上手难易,Caffe,c+/cuda,快,一般,全面,CNN,所有系统,中等,TensorFlow,c+/cuda/,Python,中等,好,中等,CNN/RNN,Linux, OSX,难,MXNet,c+/cuda,快,好,全面,CNN,所有系统,中等,Torch,c/lua/cuda,快,好,全面,CNN/RNN,Linux, OSX,中等,Theano,python/c+/cuda,中等,好,中等,CNN/RNN,Linux, OSX,易,Caffe,2021年底,由UC Berkely的Yangqing Jia开发,计算机视觉领域首选Caffe,TensorFlow,Google主推的开源学习框架,有众多预先训练好的模型,开发简单,速度慢,内存占用较大,Torch,Facebook力推的深度学习框架,主要开发语言是C和Lua,有较好的灵活性和速度,开发也比较简单,缺点是接口为lua语言,不支持Python,Python,首选语言,Ubuntu,首选平台,2024/9/30,机器学习中的问题与应对,欠拟合,添加其他特征,减少正那么化,过拟合,L1、L2正那么化,不收敛,复审输入数据、修改模型设计、改变参数初始化方法、调整学习速率,数据集过小,转换扩增,运算过慢,分布式运算,换用GPU或专用神经网络处理器,调参复杂,分开训练、参数各种图形化展示,2024/9/30,NLP - 自然语言处理,自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,广义的,NLP,包含,NLU,、,NLG,用到统计、概率、神经网络等各种算法,文本分类,信息抽取,人机对话,领域知识图谱,自动写稿,2024/9/30,中文分词,11款开放中文分词引擎大比拼,目前主流分词包均采用复杂的统计模型,HMM、CRF、SP构造化感知,首先统计大量已切分文本特征训练模型,然后针对输入文本搜索最正确切分方式,目前哈工大语言云、Boson云效果最正确,THULAC清华是开源包中效果最正确,也非常快,结巴分词用的很广Python,效果也不错,没有完美方案,90%以后每提升1点都要巨大代价,2024/9/30,词性标注,中文词类活用现象非常多,没有英文的变形:ing、ed、er、ly,词性命名标准出自北大,根本统一,目前都只提供静态词性,非准确标注,在关键词计算、事件发现、情感判断有价值,句法分析、语义理解的前提,词法分析、句法分析、语义理解相互交织依赖,制约了词法技术提升,2024/9/30,NER命名实体识别,Named Entity Recognition又称作“专名识别,是指识别文本中具有特定意义的实体,三大类:实体类、时间类和数字类,七小类:人名、机构名、地名、时间、日期、货币和百分比,基于规那么和词典的方法,采用语言学专家手工构造规那么模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,基于统计的方法,HMM、ME、SVM、条件随机场(CRF),神经网络识别,NN、CNN-CRF、RNN-CRF、Attention机制,目前缺少成熟可以API,少数付费效果尚可,训练的CRF模型,人名、时间、数字识别还行,有提升空间,2024/9/30,语言模型、词向量,N-Grams:二元组、三元组、五元组,大量分词后语料进展统计,正那么化、平滑,可用于拼写和语法检查,也可协助分词,Word2Vec:将词组转换成多维向量表示,CBOW、Skip-Gram、GloVe,神经网络输入需要Embedding,50,100,300维,特性,相似近邻 通过向量距离查找关联词,线性加减 w2v(中国)-w2v(北京)=w2v(法国)-w2v(巴黎),只是一种高阶近似,同一含义在同一维表达,尽量分散,2024/9/30,关键词、摘要提取,PageRank算法原理,整个www可以看作一张有向图图,节点是网页。如果网页A存在到网页B的链接,那么有一条从网页A指向网页B的有向边。导入的链接越多,页面的重要程度越高,复杂的迭代优化准确权重,关键词,距离较近的词,视同有链接,可根据词性、统计规律调整权重,,TF-IDF是最常用算法,摘要,句子初始权重为各词TF-IDF权重合计,权重最高的句子必要修剪作为摘要,自上而下的摘要用模板/知识库生存事件、球赛,2024/9/30,文本分类、聚类、情感倾向,文本分类属于有监视学习,需要训练,贝叶斯、SVM、神经网络,文本聚类属于无监视学习,划分法K-Means 、层次法、密度法、网格法,文本倾向性分析,主要用于舆情监控,评价挖掘,贝叶斯理论为根底,褒义词、贬义词、中性词,否认谓词、副词的识别,与地域、主体识别结合运用,难点在于各门类数据抓取、行业模型训练,2024/9/30,句法分析,上下文无关文法,Context Free Grammar,依存文法分析(Dependency Parsing),通过分析语言单位内成分之间的依存关系提醒其句法构造,识别“主谓宾、“定状补,算法:CYK、PCFG、CRF、神经网络?,目前中文句法分析短句可用,长句较差,哈工大LTP语言云、Boson云较好,Stanford Parser、HanLP 稍差,2024/9/30,语义分析/理解,知识工程:语义树,可用于句子语义理解、数据抽取、句式转换,需要强大的知识库配合,知识图谱?,今天晚上吃金属吧 ,法国一位老人以吃金属为生 ,还难以理解文章,进展摘要或推理,神经网络:训练超级模型,词向量稀疏比较成熟,生成较快,Synonymy、Antonymy、Hyponym,短句可用向量相加近似表示,长句、文章尚在研究,2024/9/30,知识图谱(Knowledge Graph),由知识点相互连接而成的语义网络,用可视化技术描述知识资源与其载体,挖掘、分析、构建、绘制和显示知识与它们之间的相互联系,并进展查询推理,RDF(资源描述框架) 、OWL(Web 本体语言)、SparQL,建立:数据源整理、实体消歧、schema(本体、关系等)构建、查询与推理 、优化存储、更新维护,WordNet、Yago、Dbpedia,CN-Dbpedia、PKU-PIE,搜索引擎、金融分析、辅助诊断,目前似乎难以表达行为动作、限定修饰,2024/9/30,QA - 机器人问答、人机对话,IR-based Question Answering,信息检索方式,抽取原文中短语、句子作答,问题分析、答案类型确定、确定检索规那么、句子抽取、答案生成,Knowledge-based Question Answering,确定提问类型与答案模板,从原文抽取模板定义要素,组织语言生成答案,个人助理 、客服/导购、专家系统,2024/9/30,DeepBot 对话框架,2024/9/30,2024/9/30,谢谢欣赏,32,Thank You !,不尽之处,恳请指正!,
展开阅读全文