人工智能中的语义分析技术及其应用

上传人:lis****210 文档编号:124854575 上传时间:2022-07-25 格式:DOCX 页数:12 大小:17.92KB
返回 下载 相关 举报
人工智能中的语义分析技术及其应用_第1页
第1页 / 共12页
人工智能中的语义分析技术及其应用_第2页
第2页 / 共12页
人工智能中的语义分析技术及其应用_第3页
第3页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
人工智能中的语义分析技术及其应用一、人工智能语义分析技术语义分析(SemanticAnalysis )是人工智能(Artificiallntelligence)的一个分支是自然语言处理技术的 几个核心任务涉及语言学、计算语言学、机器学习以及认知语言 等多个学科语义分析任务有助于促进其他自然语言处理任务的快 速发展。人工智能中的语义分析技术特别是深度学习(DeepLearning)技术近年来发展迅猛已经在围棋对弈、自动驾 驶、图像识别、语音识别等多个领域取得了突破性进展。语义分析指运用各种方法学习与理解一段文本所表示的语义 内容任何对语言的理解都可以归为语义分析的范畴。一段文本通 常由词、句子和段落来构成根据理解对象的语言单位不同语义分 析又可进一步分解为词汇级语义分析、句子级语义分析以及篇章 级语义分析。一般来说词汇级语义分析关注的是如何获取或区别 单词的语义句子级语义分析则试图分析整个句子所表达的语义而 篇章语义分析旨在研究自然语言文本的内在结构并理解文本单元 (可以是句子从句或段落)间的语义关系。简单地讲语义分析的 目标就是通过建立有效的模型和系统实现在各个语言单位(包括 词汇、句子和篇章等)的自动语义分析从而实现理解整个文本表 达的真实语义。二、语义分析技术(一)基础技术(按照词语分析、句子分析、篇章分析来写) 分别从词汇级、句子级和篇章级三个层次描述语义分析相关技术。1. 词语级语义分析词汇层面上的语义分析主要体现在如何理解某个词汇的含义 主要包含两个方面:词义消歧和词义表示(1)词义消歧词汇的歧义性是自然语言的固有特征。词义消歧根据一个多 义词在文本中出现的上下文环境来确定其词义作为各项自然语言 处理的基础步骤和必经阶段被提出来。词义消歧包含两个必要的 步骤:(a)在词典中描述词语的意义;(b)在语料中进行词义 自动消歧。例如“苹果”在词典中描述有两个不同的意义:一种 常见的水果;美国一家科技公司。对于下面两个句子:她的脸红得像苹果。最近几个月苹果营收出现下滑。词义消歧的任务是自动将第一个苹果归为“水果”而将第二 个苹果归为“公司”。从上面的例子中我们发现词义消歧主要面 临如下两个关键问题:(a)词典的构建;(b)上下文的建模。(2)词义表示和学习对于词义表示早期的做法将某个词义表示为从该词义在同义 词网络中出现的位置到该网络根节点之间的路径信息。词义表示 的另一个思路是将其数字化。最直观也是到目前为止最常用的词 表示方法是one-hot表示方法这种方法把每个词表示为一个很长 的向量。这个向量的维度是词表大小其中绝大多数元素为0只有 一个维度的值为1这个维度就代表了当前的词。不难想象这种表 示方法存在一个重要的问题:任意两个词之间都是孤立的。造成 的结果是:光从两个向量中看不出两个词是否有关系即使这两个 词是同义词例如“计算机”和“电脑”、“上海”和“上海 市”。随着机器学习算法的发展目前更流行的词义表示方式是词嵌 入(WordEmbedding又称词向量)。其基本想法是:通过训练将某 种语言中的每一个词映射成一个固定维数的向量将所有这些向量 放在一起形成一个词向量空间而每一向量则可视为该空间中的一 个点在这个空间上引入“距离”则可以根据词之间的距离来判断 它们之间的(词法、语义上的)相似性。2. 句子级语义分析句子级的语义分析试图根据句子的句法结构和句中词的词义 等信息推导出能够反映这个句子意义的某种形式化表示。根据句 子级语义分析的深浅又可以进一步划分为浅层语义分析和深层语 义分析。(1)浅层语义分析语义角色标注(SemanticRoleLabeling简称SRL)是一种浅 层的语义分析。给定一个句子SRL的任务是找出句子中谓词的相 应语义角色成分包括核心语义角色(如施事者、受事者等)和附 属语义角色(如地点、时间、方式、原因等)。目前SRL的实现通常都是基于句法分析结果即对于某个给定 的句子首先得到其句法分析结果然后基于该句法分析结果再实现 SRL。(2)深层语义分析深层的语义分析(有时直接称为语义分析SemanticParsing) 不再以谓词为中心而是将整个句子转化为某种形式化表示例如: 谓词逻辑表达式(包括lambda演算表达式)、基于依存的组合式 语义表达式(dependency- basedpositionalsemanticrepresentation)等。以下给出了 GeoQuery数据集中的一个中英文句子对以及对应的一阶谓词逻辑 语义表达式:中文:列出在科罗拉多州所有的河流英文:NamealltheriversinColorado语义表达式: answer (river (loc_2 (stateid(Colorado)虽然各种形式化表示方法采用的理论依据和表示方法不一样 但其组成通常包括系谓词(如上例中的loc_2、river等)、实 体(如colorado)等。语义分析通常需要知识库的支持在该知识 库中预先定义了一序列的实体、属性以及实体之间的关系。3. 篇章级语义分析篇章是指由一系列连续的子句、句子或语段构成的语言整体 单位在一个篇章中子句、句子或语段间具有一定的层次结构和语 义关系篇章结构分析旨在分析出其中的层次结构和语义关系。具 体来说给定一段文本其任务是自动识别出该文本中的所有篇章结 构其中每个篇章结构由连接词两个相应的论元以及篇章关系类别 构成。篇章结构可进一步分为显式和隐式显式篇章关系指连接词 存在于文本中而隐式篇章关系指连接词不存在于文本中但可以根 据上下文语境推导出合适的连接词。对于显式篇章关系类别连接 词为判断篇章关系类别提供了重要依据关系识别准确率较高;但 对于隐式篇章关系由于连接词未知关系类别判定较为困难也是篇 章分析中的一个重要研究内容和难点。(二)深度学习技术(深度学习在NLP中的研究内容)在深度学习技术中循环神经网络(RecurrentNeuralworksRNNs)被证明在自然语言处理中是最有 效的下面将介绍循环神经网络。RNNs的目的是使用序列来处理数据。在传统的神经网络模型 中是从输入层到隐含层再到输出层层与层之间是全连接的每层之 间的节点是无连接的。但是这种普通的神经网络对于很多问题却 无能无力。例如你要预测句子的下一个单词是什么一般需要用到 前面的单词因为一个句子中前后单词并不是独立的。RNNs之所以 称为循环神经网路即一个序列当前的输出与前面的输出也有关。 具体的表现形式为网络会对前面的信息进行记忆并应用于当前输 出的计算中即隐藏层之间的节点不再无连接而是有连接的并且隐 藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输 出。理论上RNNs能够对任何长度的序列数据进行处理。但是在实 践中为了降低复杂性往往假设当前的状态只与前面的几个状态相 关。RNNs已经在实践中被证明对NLP是非常成功的。如词向量表 达、语句合法性检查、词性标注等。在RNNs中目前使用最广泛、 最成功的模型便是LSTMs (LongShort-TermMemory长短时记忆模 型)模型该模型通常比vanillaRNNs能够更好地对长短时记忆模 型依赖进行表达该模型相对于一般的RNNs只是在隐藏层做了手 脚。RNNs可以应用于语言模型与文本生成、文本分类、机器翻译 等自然语言处理任务中。三、面向业务建模的语义分析(介绍DINFO-OEC平台和技 术)(一)DINFO-OEC平耋介绍DINFO-OEC非结构化大数据分析挖掘平台是中科鼎富(北京) 科技发展有限公司研发的大数据产品具有非结构化文本大数据的 分析、挖掘的超凡能力是企业实施大数据战略的强大利器。大数据中80%都是非结构化大数据非结构化大数据因其中的业 务对象、对象之间的关系等都蕴含在文本内容中而文本内容来源 繁多、表达方式灵活多样、存在着大量的歧义性因此无法使用传 统的BI工具等进行分析无法直接服务于业务实现业务价值。非结 构化大数据是大数据处理的难点和热点。DINFO-OEC平台支持三位 一体的多维度业务建模能力结合自然语言处理、深度学习等统计 文本挖掘算法基于平台立体式的业务模型的智能语义感知技术提 供对非结构化大数据智能理解与自动化处理能力实现文本知识的 多维度的业务标签标记功能将无序的非结构化信息转换为满足业 务需求的结构化数据。DINFO-OEC平台支持与主流Hadoop、Spark 等大数据平台实现对接利用hadoop平台提供的分布式存储和 Map/Reduce分布式计算能力实现复杂、批量的大数据分析挖掘。 利用Spark、kafka等提供的实时分布式计算能力提供海量数据的 实时分析计算能力融合主流的搜索引擎技术支持基于海量历史数 据的交互式搜索功能。DINFO-OEC平台支持与常用的商业智能系统 进行融合实现结构化数据和非结构化数据的融合分析挖掘最大化 的挖掘大数据的业务价值提供大数据分析挖掘支持下的业务创 新。(二)业务建模业务建模技术采用神州泰岳独创的“本体O-要素E-概念C” 三位一体的专利技术(发明专利号202155830.1)进行建模将业务 和语言分为两个不同层次建模。业务建模以本体论为核心对业务 知识进行规划对业务规则进行建模配置形成形式化的业务规则。 业务建模技术支持业务与非结构化数据的语言表达分离区分业务 层次和语言层次进行分部建模。业务层次支持业务本体构建支持 业务要素发现与配置;语言层次支持语言概念的构建与维护支持 常用词汇库和同义库等建设。DINFO-OEC业务建模价值在于客户只 需关注自身业务的描述文本表示的多样性和歧义性等由系统来负 责解决。(三)平台特点(参考白皮书)1. 超凡的面向业务的非结构化数据建模能力INDO-OEC业务建模能把纷繁复杂的业务规则和灵活多样的语 言表达习惯进行统一建模从本体、要素和概念三个维度构建分析 挖掘模型有效地将“业务”描述与自然语言的表达进行分离使得 业务人员可以专注于自己擅长的业务需求及业务规则的建模而无 需考虑自然语言的歧义性、表达的多样性和复杂性等。2. 强大的非结构化分析挖掘能力产品支持智慧语义感知算法提供强大的自然语言理解相关分 析算法包括内容分类、聚类、主题分析、语义分析、实体识别、 启发式搜索引擎、引擎、摘要引擎等。产品支持多种分析挖掘算法包括C计算(提供概念的抽取、 概念表达式挖掘、概念表达式匹配算法)S计算(提供常用的统计 挖掘算法包括但是不限于KNN、SVM、决策树等算法)和R计算 (提供概念关联发现算法)。3. 丰富的多语种分析挖掘支持能力系统内置了多语种分析挖掘算法。利用一套算法流程实现多 语种支持语种扩展性好。新增加语种不用修改算法。多语种复用的能力。平台支持多语种业务规则保持一致的能 力。业务规则(对应系统的本体树)的维护只需维护中文简体版 无须维护其他语种的本体树大大减少本体树维护工作量。跨语种建模能力。平台支持用中文简体版书写其他语种的本 体树规则。修改、维护本体树类别无须掌握其他语种。4. 卓越的大数据计算与存储平台集成能力支持主流的Hadoop平台支持Map/Reduce批量计算以及Spark 实时计算支持HDFS、Hbase、kafka等存取。支持的Hadoop平台 包括 ApacheHadoop、IBMBigInsights、华为 FusionInsights、 EMCPivotalHD。支持SOA集群架构支持与Oracle、Mysql、DB2等主力数据库 产品集成。四、语义分析应用(一)金融行业应用人工智能的飞速发展使得机器能够在很大程度上模拟人的功 能实现批量人性化和个性化地服务客户这将给身处服务价值链高 端的金融行业带来深刻影响人工智能将成为决定银行沟通客户、 发现客户金融需求的重要因素。它将对金融产品、服务渠道、服 务方式、风险管理、授信融资、投资决策等带来新一轮的变革。 人工智能技术在前端可以用于服务客户在中台支持授信、各类金 融交易和金融分析中的决策在后台用于风险防控和监督它将大幅 改变金融现有格局金融服务(银行、保险、理财、借贷、投资等 方面)将更加地个性化与智能化。证券研报大数据云服务是鼎富 科技针对证券业、基金业研究人员、分析师推出的一款大数据云 服务产品。系统提供SaaS服务提供公告、研报的全网采集以及事 件结构化分析提供研报一站式智能搜索以及基于时间轴、基于信 息锚点的大数据分析挖掘。系统能帮助分析师从大数据视角进行 深度研究分析提高工作效率。(二)政府行业应用舆情分析为政府、公安、社会等提供可自定义热点问题的舆 情分析系统信息出现的源头到产生的影响全程跟进分析形成舆情 影响波及范围、公众反响、不良舆论等内容的分析报告。舆情分析能够大幅度缩短组织对互联网、论坛等电子信息渠 道的公众舆论趋势的响应时间通过关联分析能够帮助组织预测未 来可能出现的状况并提前实施相关措施。智慧传播云服务是鼎富科技与腾讯网合作推出的互联网信息 监测预警平台面向政府机构、企事业单位提供互联网信息监测、 预警服务。舆情云项目的研发目的是为企业、政府、组织开发一 款基于云服务的互联网舆情监测系统。该系统数据采集模块具有 可配置、自动去重、垃圾过滤核心功能。系统分析挖掘功能采用 智慧语义识别技术保证了语义分析的准确性。系统可以按照客户 需求进行舆情监测定制、统计报表定制和预警定制。(三)客服行业应用客服作为劳动密集型行业对于一些大公司来说成本依然很 高。智能机器人客服的出现可以在很大程度上解决简单、重复性 工作帮助企业节省人工和坐席成本提升运营效率。小富机器人4. 0是神州泰岳旗下一款智能客服机器人它将开 启全媒体时代的智能客服中心。小富机器人4.0有以下几个亮 点:亮点一:首创业务场景机器人让机器人服从业务而非业务屈从于机器人。客服、营销、外 呼等业务场景不同业务逻辑也不同。小富4.0预设多种场景模式 的业务框架对应的知识类型和交互方式也有区分设计可提供更专 业、更具针对性的智能化服务。亮点二:整体性业务建模更具延展性基于对业务的整体理解而非Q&A的堆积。基于对具体场景的 深刻业务理解进行整体建模具有完整的业务逻辑机器人的思维延 展性和可复用性大大增强应答效率更高。亮点三:差异化的知识类型表达体系智能引导多轮会话而非预设问题的反复跳转。小富4.0的业 务知识体系化并具有记忆能力可基于业务逻辑自创造问答逻辑智 能地开展多轮引导式问答让交互更自然、更具亲和力。亮点四:智能碎片化知识加工直接告知答案而非仅告知答案所在的范围。小富4. 0提供丰 富的知识加工模式可智能化地将结构化和非结构化的知识碎片化 为结构化的文档。应答客户提问时可直接回馈用户的问题而非给 出一个答案所在区间。此外与小富机器人4.0同时展示的还有泰岳统一业务知识库 系统可提供知识自动加工和强大的知识图谱关联能力;泰岳客服 大数据分析挖掘解决方案可支持多层级业务类别自动分类和语义 处理为客户提供更智能、更高效的人工智能新体验。五、语义分析及大数据发展趋势人工智能技术及大数据已经成为新经济发展的动力美国、欧 洲、日本、中国等多个国家和地区均将大数据及人工智能作为国 家战略。中国国民经济和社会发展第十三个五年规划纲要指出实 施国家大数据战略把大数据作为基础性战略资源全面实施促进大 数据发展行动加快推动数据资源共享开放和开发应用助力产业转 型升级和社会治理创新。同时2021年国家发改委、科技部、工信 部、中央网信办联合发布了“互联网+ ”人工智能三年行动实施 方案首次单独为人工智能发展提出具体的策略方案提出了人工 智能发展的九大工程。2021美国白宫发布了为人工智能的未来 做好准备(PreparingfortheFutureofArtificialIntelligence)和国家 人工智能研究与发展战略计划(NationalArtificialIntelligenceResearchandDevelopmentStr ategicPlan)两份重要报告。探讨了人工智能的发展现状、应用 领域以及潜在的公共政策问题提出了美国优先发展的人工智能七 大战略方向及两方面建议对我国人工智能产业发展具有重要的借 鉴意义。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 活动策划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!