TRS搜索引擎解决方案课件

上传人:文**** 文档编号:241890469 上传时间:2024-08-02 格式:PPT 页数:47 大小:7.54MB
返回 下载 相关 举报
TRS搜索引擎解决方案课件_第1页
第1页 / 共47页
TRS搜索引擎解决方案课件_第2页
第2页 / 共47页
TRS搜索引擎解决方案课件_第3页
第3页 / 共47页
点击查看更多>>
资源描述
TRS搜索引擎解决方案TRS 搜索引擎解决方案搜索技术和产品搜索技术和产品综合搜索平台的需求分析海量高效开放精准非结构化综合搜索平台的需求分析TRS核心技术专注于非结构化信息处理主要核心技术信息检索文本智能内容管理搜索和内容管理垂直/行业搜索、企业搜索、互联网搜索内容全生命周期管理TRS 核心技术专注于非结构化信息处理融合互联网搜索和企业搜索互联网搜索和企业级搜索并非一回事融合互联网搜索和企业搜索互联网搜索和企业级搜索并非一回事TRS领导“高端”搜索技术海量信息处理能力智能化信息处理能力融合互联网搜索和企业搜索的能力查全和查准的协调高安全性、可靠性高端应用伸缩扩展能力TRS领导“高端”搜索技术海量信息处理能力TRS企业搜索平台和应用TRS 企业搜索平台和应用特色数据库采集对于综合搜索平台而言,更多的是使用该种方式,实现资源的整合与搜索特色数据库采集对于综合搜索平台而言,更多的是使用该种方式,实网页采集互联网信息采集系统设置运行周期控制网页抓取模块网页采集队列链接分析和采集策略控制网页分析模块内容过滤自动分类内码转换自动排重数据输出模块数据库网页采集互联网信息采集系统设置运行周期控制网页抓取模块链接分文件系统数据加工采集文件系统数据加工采集支持扫描数据采集支持扫描数据采集海量信息处理海量信息处理的基本策略是“分布式”、“集群”、“多服务器”协同。目前在国内只有TRS已经成功在实际客户处成功部署了多服务器集群检索系统,处理数千万以至上亿条记录信息,无论Autonomy,Verity,Baidu,Google均没有这方面的成功案例新华社多媒体数据库(18T,仅中文就4000万记录)中华人民共和国门户网站(全国各级政府网站数据整合)公安部搜索引擎系统(1.2万网站,约2000万网页)海量信息处理海量信息处理的基本策略是“分布式”、“集群”、“新华社多媒体数据库全球最大中文多媒体数据库新华社多媒体数据库全球最大中文多媒体数据库每天支持10001000万的访问次数每天支持1000万的访问次数UserInterfaceWindows/Linux/Unix数据层资源整合企业搜索引擎应用TRSDBSERVERTRSDPRDBMSTRSGATEWAYTRSInfoRadarWebSphere/Weblogic/Tomcat/.NetPlatform数据层资源整合企业搜索引擎应用TRS DBTRS DPR数据存储和检索在TRS搜索引擎方案中,搜索服务所需的数据及其索引并非像其他搜索引擎以单纯的文件来进行组织和存储,而是采用类似关系数据库的管理模式,以“数据库”、“表”、“记录”、“字段”、“全文内容”及“索引”等机制来对来自不同信息源的不同类型的信息对象予以全面而有序的组织管理,这是TRS搜索引擎优于互联网搜索引擎的一大特点和优势数据存储和检索在TRS搜索引擎方案中,搜索服务所需的数据及其数据库管理和存储数据库管理和存储字段类型TRS全文数据库支持多种不同类型的字段,它们是:DATE日期型字段NUMBER 数值型字段CHAR字符串型字段PHRASE短语型字段DOCUMENT全文型字段BIT二进制型字段字段类型TRS全文数据库支持多种不同类型的字段,它们是:多种格式文件支持多种格式文件支持索引模式按字按词字词混合,混合模式只对具有按词索引属性的数据库的Pharse和Document字段有效全冗余模式:将公共部分分别在“按词”和“按字”索引中各存一份。优点是检索时直接取各自的索引即可,缺点是索引空间膨胀大半冗余模式:将公共部分只存储在“按词”的索引中。优点是“按词”检索时可直接取“按词”的索引即可,且索引空间膨胀小;缺点是“按字”检索时要取“按字”的索引和“按词”的索引进行合并,多一次“或”运算零冗余模式:将公共部分单独存储。优点是索引空间膨胀小;缺点是“按字/词”检索时要取“按字/词”的索引和“公共索引”的索引进行合并,多一次“或”运算索引模式按字索引技术零空间膨胀率(-0.21)索引分区技术(参考索引文件)多线程并行运算技术Cache技术(针对近期频繁访问的检索结果)索引技术零空间膨胀率(-0.21)检索功能48种检索运算符外部特征与正文内容的各种逻辑组合检索位置检索二次检索/渐进检索历史检索词根检索大小写敏感检索概念检索(词典)检索功能48种检索运算符相关性排序排序权重计算因素文章的词频命中词出现的位置(标题、第一段、第二段、最后一段)相关性排序排序权重计算因素检索技术自动分库技术:将物理数据库转化为能自动分裂数据库的视图。可对生成的分裂视图进行装入记录和复制记录操作,结果将自动反映到其对应的物理数据库里多库并行检索技术多级Query-CACHE技术基于词以及词频的bi-gram算法索引跳跃式扫描技术检索技术自动分库技术:将物理数据库转化为能自动分裂数据库的视知识检索词典智能语言检索简繁检索相关词提示拼音检索自然语言检索(Like函数)知识检索词典TRS搜索集群的示意架构TRS搜索集群的示意架构数据库集群服务器示意图数据库集群服务器示意图TRS信息资源管理平台配套产品:TRS全文数据库服务器(TRSDatabaseServer)TRS全文数据库集群服务器(TRSDatabaseCluster)TRS数据处理工具(TRSDataProcessor)TRS关系数据库内容检索引擎(TRSGateway)TRS内容发布应用服务器(TRSWAS)各产品组合应用可实现异构环境下非结构化信息的采集、存储、检索、控制、发布和服务,并可与主流关系型数据库无缝集成。实现非结构化、半结构化和结构化数据统一管理的完善解决方案。TRS信息资源管理平台配套产品:文本挖掘技术和产品文本挖掘技术和产品智能化信息处理TRS在业界最早推出实用化的文本挖掘技术,现已发展到4.X版本,包括自动分类、自动聚类、自动摘要、自动标引、信息过滤和信息提取、相似性检索、短语检索、拼音检索等新华社多媒体数据库、外交部在863、全国搜索引擎和数据挖掘技术学术评测中均居领先地位,是产业界中敢于参加并获得好成绩的代表,体现了TRS在自然语言和智能信息处理研究领域的强大“内功”智能化信息处理TRS 在业界最早推出实用化的文本挖掘技术,现智能化分析处理TRSCKM自动分词自动聚类自动分类/规则分类/混合分类文本相似性检索(自动排重)跨语言查重自动摘要+主题词标引(自由词+行业主题词)(摘要和标引也可以分开用)(政治)常识校对信息过滤拼音、同音检索相关短语检索信息抽取智能化分析处理TRS CKM自动分词TRSCKM产品描述国内外第一套成熟的中文文本挖掘技术,文本挖掘是数据挖掘的一个分支,它是进行知识管理的基础和关键技术。TRSCKM有效结合自然语言处理技术、人工智能技术、知识库以及统计分析技术,实现了商业化应用。在863等多次评测中均名列前茅。TRS CKM产品描述国内外第一套成熟的中文文本挖掘技术,文内容管理技术和产品内容管理技术和产品内容服务平台内容采集创建网络信息采集信息采集网关多媒体采集数据交换接口内部创作接口电子文档处理内容管理数据存储结构化数据对象数据非结构化数据内容挖掘与知识管理服务自动分类自动摘要自动聚类查重与相似性分析过滤与知识提取本地内容管理本地应用集成本地内容采集本地内容编辑跨媒体发布个性化服务版权保护内容评估站点管理电子商务个人内容桌面内容协作平台内容编审监控统计用户管理工作流引擎协同工作沟通内容管理架构内容服务平台内容采集创建网络信息采集信息采集网关多媒体采集数内容服务平台内容采集创建网络信息采集信息采集网关多媒体采集数据交换接口内部创作接口电子文档处理内容管理数据存储结构化数据对象数据非结构化数据内容挖掘与知识管理服务自动分类自动摘要自动聚类查重与相似性分析过滤与知识提取本地内容管理本地应用集成本地内容采集本地内容编辑跨媒体发布个性化服务版权保护内容评估站点管理电子商务个人内容桌面内容协作平台内容编审监控统计用户管理工作流引擎协同工作沟通内容管理架构内容采集内容采集ContentContentCaptureCapture内容存储内容存储ContentContentRepositoryRepository内容挖掘内容挖掘ContentContentMiningMining内容加工内容加工ContentContentProcessingProcessing内容服务内容服务ContentContentServicesServices内容服务平台内容采集创建网络信息采集信息采集网关多媒体采集数TRS内容管理主流产品内容服务平台内容采集创建网络信息采集信息采集网关多媒体采集数据交换接口内部创作接口电子文档处理内容管理数据存储结构化数据对象数据非结构化数据内容挖掘与知识管理服务自动分类自动摘要自动聚类查重与相似性分析过滤与知识提取本地内容管理本地应用集成本地内容采集本地内容编辑跨媒体发布个性化服务版权保护内容评估站点管理电子商务个人内容桌面内容协作平台内容编审监控统计用户管理工作流引擎协同工作沟通TRSINFORADARTRSGATEWAYTRSAPITRSDPTRSCKMTRSDBSERVERTRSCDSTRSWCMTRS内容管理主流产品内容服务平台内容采集创建网络信息采集信TRS优势特点TRS优势特点(1)异构资源搜索和整合TRS能搜索各种RDBMS,文件系统,网页等内容。其他搜索引擎不能。(1)异构资源搜索和整合TRS能搜索各种RDBMS,文件系(2)“安全”的搜索引擎TRS支持内容安全性控制,特定的人只能搜索特定的内容,其他互联网搜索引擎只能进行普遍性搜索,对内容没有安全性控制。TRS是一个基于“内容安全”的搜索引擎(2)“安全”的搜索引擎TRS支持内容安全性控制,特定的人只(3)支持数据实时更新的搜索引擎TRS支持对数据的实时更新,其他互联网搜索引擎不支持数据的实时更新。互联网搜索引擎一般有长达数个星期的数据更新周期。在数据库内部没有动态修改数据和索引的算法。不能支持数据动态更新。(3)支持数据实时更新的搜索引擎TRS支持对数据的实时更新,(4)更高的搜索准确性和更好的搜索体验TRS能够对不同的内容和查询需要采用不同的索引策略,如按字,按词,混合等搜索手段,按照内容的相关性而不是PageRank获得相关性。互联网搜索引擎采用网页的标题和PageRank进行相关性计算,对行业搜索引擎失去效果,查询效果和准确性差互联网搜索引擎竞价排名等商务模式破坏了行业性用户的搜索体验(4)更高的搜索准确性和更好的搜索体验TRS能够对不同的内容(5)智能化信息处理,提高信息使用价值TRS具有领先的中文智能处理技术,如自动分类、自动摘要、自动聚类、信息过滤等技术,实现了高级数据挖掘应用。互联网搜索引引擎在这方面还处于十分原始的阶段。必须基于大量的后台人工处理,这显然对企业和行业用户是不可能实现的。行业用户需要自主服务,自动服务。(5)智能化信息处理,提高信息使用价值TRS具有领先的中文智(6)低成本下实现海量信息检索TRS搜索引擎具有更低的硬件成本。在同样的硬件环境下可能支持更多的用户;其他互联网搜索引擎采用大量服务器群集实现对大规模用户的并发访问,但是对于一台机器上能够处理海量信息,能力很差。如TRS在新华社的应用采用4台服务器可以支持多达2000万文件的高效检索。(6)低成本下实现海量信息检索TRS搜索引擎具有更低的硬件成(7)多文种、多媒体、跨语言TRS支持多文种、多媒体、跨语言查询TRS在外交部全球网站群,新华社多媒体数据库,奥运会官方网站具有成功的应用。(7)多文种、多媒体、跨语言TRS支持多文种、多媒体、跨语言(8)超越搜索,提供完整的内容管理价值链仅有搜索是不够的,用户需要信息的整合、采集、服务、管理等,TRS作为内容管理的领导厂商,提供全面的内容管理和内容服务;互联网搜索引擎仅仅提供搜索服务,大量工作在后台,不对用户开放,无法满足行业用户的需求互联网搜索引擎的数据和索引组织的主要目标是提供快速的检索,数据资源很难与其他应用共享;TRS具有完备的数据管理功能,采集的数据资源实现完备的数据库管理,并提供完备的应用开发接口(包括C/C+,ADO,Javabeans等标准接口),可供其它应用方便调用。(8)超越搜索,提供完整的内容管理价值链仅有搜索是不够的,用TRS高素质团队与经验20人+的搜索产品研发队伍10人+的顾问咨询队伍50人+的实施与支持队伍众多大型项目成功策划、咨询、研发、实施、培训与支持经验公安系统搜索引擎、中国人民解放军总参谋部某部、国家发展和改革委员会、中华人民共和国中央人民政府门户网站、新华社多媒体数据库、人民日报社、中国经济网、外交部、国家统计局、国家知识产权局、最高人民法院北京市劳动和社会保障局、厦门市政府、上海市高级人民检察院、国防大学图书馆、广东省广州市图书馆、北京大学、清华大学、中国五金矿产进出口总公司、索尼(中国)、国家电网公司、浙江省电力公司、中国网通、广东移动、中国人民银行、中国证券网、香港中华法律集团、华润(集团)有限公司等等TRS高素质团队与经验20人+的搜索产品研发队伍TRS希望与您真诚合作!TRS希望与您真诚合作!
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!