中文问答系统中答案抽取的研究与实现ppt课件

上传人:钟*** 文档编号:5934615 上传时间:2020-02-12 格式:PPT 页数:25 大小:1.17MB
返回 下载 相关 举报
中文问答系统中答案抽取的研究与实现ppt课件_第1页
第1页 / 共25页
中文问答系统中答案抽取的研究与实现ppt课件_第2页
第2页 / 共25页
中文问答系统中答案抽取的研究与实现ppt课件_第3页
第3页 / 共25页
点击查看更多>>
资源描述
中文问答系统中答案抽取的研究与实现 1 目录 2 提要 在答案抽取的研究中 本文采纳了一种基于规则改进的问题分类方法 而后提出了一种基于依存树的语义匹配相似度算法 对问题句与候选答案句进行相似度计算 根据相似度的高低对答案进行抽取 最后通过具体的实验实现了答案抽取的全过程 实验结果表明 在保证问题分析模块问题分类准确的情况下 得到用户所需答案的准确率可以达到92 以上 相比其它算法有效地提高了答案抽取的准确度 3 人们期待更快速准确的搜索技术出现 据统计 人们花费在答案抽取的时间很长 传统的搜索引擎有很多弊端 问答系统因此产生 绪论 背景与意义 4 问答系统主要包括问题分析 信息检索和答案抽取3个主要模块 问题分析模块的主要工作包括对问题进行分类 抽取问题的关键词 对关键词进行扩展等 信息检索模块的主要任务是对文档库或网络搜索引擎进行检索 返回一些与问题相关的文档或网页 答案抽取模块的主要任务则是对信息检索模块得到的候选文档或网页进行处理 得到问题的候选答案集 并通过一定的算法从候选答案集中抽取出正确答案 绪论 背景与意义 5 答案抽取的基本步骤一般如下 把从信息检索模块得到的候选文档或网页进行处理 切分成单个句子 作为候选答案集 根据问题的类型 对候选答案集进一步处理 排除兀余的句子 减少候选答案的空间 应用相似度计算算法 计算候选答案句与问题句的相似度 根据相似度的高低对候选答案进行排序 返回相似高的句子 对于答案为一个词的问题 根据问题的类型 采用相应的抽取策略 对返回的答案句进行分析 可能需要进行命名实体的识别工作 来返回精确的答案 绪论 简介 6 本文所要做的具体工作 1 问题分析模块的处理 通过改进规则对问题进行分类 通过对问句进行词法分析和句法分析 抽取和扩展问题关键词 必要时对重写问句 为答案抽取的研究做好准备工作 2 信息检索模块的处理 将扩展后的关键词提交给Google搜索引擎 返回与问题相关的文档和网页 3 答案抽取模块的处理 对返回的相关文档和网页进行处理 形成问题的候选答案集 对问题句和候选答案句进行句法分析 计算问题句和候选答案句的相似度 以相似度的高低排序候选答案 根据相应的答案抽取策略 返回问题的答案 绪论 本文的工作 7 问答系统包含三个核心模块 问题分析 信息检索和答案抽取 模块之间的关系如图所示 绪论 问答系统 8 答案抽取模块的工作流程如下 把从信息检索模块得到的候选文档或网页切分成句子 作为候选答案集 根据问题的类型 对候选答案集进一步处理 排除冗余的句子 减少候选答案的空间 应用相似度计算算法 计算候选答案句与问题句的相似度 根据相似度的高低对候选答案进行排序 返回相似高的句子 对相似度高的句子进行重新分析 根据问题的类型所对应的抽取策略 返回给用户需要的答案 基于句法分析的答案抽取算法 9 在第 步中进行相似度计算时 需要进行如下考虑 为了使相似度的计算更加准确 需要对句子进行句法分析 得到句子中的关键词 和关键词有相同语义的词语 有时还需要考虑词语之间的顺序 以及各个词语之间的相互依存关系 根据词语的重要程度 为不同的词语设置不同的权重 基于句法分析的答案抽取算法 10 比较典型的算法有以下几种 1 基于模式匹配的算法原理是 根据问题的类型 制定不同类型问题的答案模板 由于答案模板的覆盖率是有限的 因此这种算法的匹配程度不是很高 2 基于信息检索和信息抽取的算法此算法主要是基于关键词来进行检索 它只考虑离散的词语 没有对句子的句法进行更深层次的分析 没有考虑词语与词语之间的顺序以及各个词语之间的相互依存关系 仅使用了匹配词与候选答案词的距离这一个特征 注定抽取出来的结果不会是很精确的答案 答案抽取算法介绍 11 比较典型的算法有以下几种 3 基于统计学习的算法基于统计的方法主要对测试集进行训练 来构建隐马尔可夫模型或支持向量空间模型的方法 通过分析问句与答案句的各种相关特征 计算句子作为正确答案的概率 4 基于自然语言处理的算法此算法主要是在对句子进行处理后 把每个句子表示成一个向量 通过对问题句与答案句进行相似度计算 返回相似度高的句子 然后再把返回的句子 根据问题的类型进行处理 返回给用户所需要的答案 答案抽取算法介绍 12 每种答案抽取算法都有一定的弊端 现在所研究的答案抽取算法基本都是对句子进行句法分析处理基础之上的 得到的准确率是非常高的 因此本文提出了基于依存树的语义匹配相似度算法 答案抽取算法介绍 13 在进行相似度计算对答案抽取之前 首先要对句子做更深层的处理 对句子进行句法和语义分析 通过词与词之间的相互依赖关系对句子进行句法分析是目前研究句子结构和语义的主要方法之一 在进行相似度计算时 尽量先对句子进行预处理 去除一些不必要的修饰词 得到两个意思相同的句子 句法依存结构分析 14 相似度是一个0 1之间的浮点数 两个句子经过相似度计算得到的结果越大 则表示两者之间的匹配程度越高 例如 我喜欢吃土豆 我爱吃马铃薯 在经过语义分析之后 计算两者的相似度得到的结果为1 这样得出结论两者的语义是完全相同的 中文句子相似度计算 15 相似度的计算方法分为以下几种 1 基于关键词的相似度计算这种计算方法对句子进行分词处理后 把句子看成词的线性序列 只是根据句子中的单词出现的频率等相关信息来计算句子的相似度 把两个句子之间相互匹配的问题转化为向量空间中两个向量之间相互匹配的问题 两个句子的相似度可以用两个空间向量之间的夹角来衡量 夹角越小相似度越高 有一定的局限性 中文句子相似度计算 16 2 基于语义的相似度计算采用基于语义词典进行计算 首先要计算句子中各个词语之间的相似度 然后通过词语之间的相似度再去计算句子的相似度 对句子进行分词和去除冗余信息处理后 在 同义词词林 中查找这些关键词的语义编码 通过对编码进行分析来计算词与词之间的语义距离 评价 这种方法需要一定的语义资源作为基础 而且没有考虑词语在句子中的权重 实用性是不很高 但由于语义资源的统计还不是很全面 也没有考虑到句子的成分以及各词语之间的依存关系 因此相似度的计算还是有一定的误差 中文句子相似度计算 17 3 基于句法的搭配词对的相似度的计算举例说明 句子1 许多优秀的人才都被送往国外学习 句子2 越来越多的人才都被送到了国外 经过对依存关系的分析和一些词语的处理后 得到句子S1中有效词搭配对 送往 人才 送往 国外 送往 学习 句子S2中有效词搭配对 送到 人才 送到 国外 有效搭配词对匹配权重加入同义词的处理 相似度有了一定程度的提高 中文句子相似度计算 18 4 基于依存树的语义匹配相似度算法在本算法中 重新生成一个依存树 该依存树的根节点为核心词 孩子结点为那些依附于核心词的词语 这样得到一个高度为s的依存树 然后分层来计算依存树的语义距离和相似度 只考虑依存树的前两层 中文句子相似度计算 19 4 基于依存树的语义匹配相似度算法假设第一个依存树的第二层有m个孩子结点 第二个依存树的第二层有n个孩子结点 分别计算依存树S1到依存树S2的第二层之间的相似度 同理计算出依存树S2到依存树S1的第二层之间的相似度 两者取平均值得到两棵依存树第二层之间的相似度 然后对每一层设置一定的权重 综合每层的相似度得到两个句子的之间相似度 中文句子相似度计算 20 基本步骤如下 Step1 首先对问题进行分析 对问句进行分词和词性标注处理 Step2 对问题进行分类 制定相应的答案抽取策略 Step3 抽取进行查询的关键词 Step4 利用 同义词词林 扩展关键词 Step5 进行信息抽取模块的处理 把第3步和第4步得到的问题关键词输入到Google网络搜索引擎中 得到一些与问题相关文档信息 Step6 对搜索出的前五个相关文档进行处理 得到一些以问题相关的独立的句子 即为测试的答案候选集 用于后面进行相似度的计算 Step7 利用相似度算法 计算问句与候选答案句的之间的相似度 Step8 根据相似度的高低 对候选答案句进行排序 返回相似度高的答案句作为问题的答案 Step9 根据问题类型 形成答案 实验方法与步骤 21 1 问题分类实验分析 2 相似度计算算法实验分析选取问题集中的437个问题计算最高相似度的平均值 实验结果分析 22 2 相似度计算算法实验分析本文对语义树的层次进行分析 对于每个层次给出不同的权值 权值的确定是在实验的过程中所确定的 在实验中设置几组权值a b的值 然后分别计算出语句的相似度 然后计算出平均相似度 实验结果分析 23 在今后中文问答系统研究中 还有很多工作要做 1 问题分析模块中分词和词性标注准确度的提高 2 问题分类算法的研究 3 答案抽取算法的研究句法分析研究需要深入答案抽取算法改进 展望 24 ThankYou 谢谢聆听 25
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!