信息资源的技术手段-课件

上传人:仙*** 文档编号:241884964 上传时间:2024-08-02 格式:PPT 页数:35 大小:1,003KB
返回 下载 相关 举报
信息资源的技术手段-课件_第1页
第1页 / 共35页
信息资源的技术手段-课件_第2页
第2页 / 共35页
信息资源的技术手段-课件_第3页
第3页 / 共35页
点击查看更多>>
资源描述
第五章第五章 信息资源管理的技术信息资源管理的技术 5.1 信息资源采集技术 5.2 信息资源压缩技术 5.3 信息资源存储技术 5.4 信息资源共享技术 5.1 信息资源采集技术信息生成的数字化过程,主要是文本、图像、音视频和数据信息生成的数字化过程,主要是文本、图像、音视频和数据信息生成的数字化过程,主要是文本、图像、音视频和数据信息生成的数字化过程,主要是文本、图像、音视频和数据信息生成的数字化过程,主要是文本、图像、音视频和数据信息生成的数字化过程,主要是文本、图像、音视频和数据等的计算机采集过程。等的计算机采集过程。等的计算机采集过程。等的计算机采集过程。等的计算机采集过程。等的计算机采集过程。汉字输汉字输汉字输入到计入到计入到计算机算机算机人工键入人工键入人工键入自动输入自动输入自动输入语音识别输入语音识别输入语音识别输入汉字识别输入汉字识别输入汉字识别输入手写体识别手写体识别手写体识别印刷体识别印刷体识别印刷体识别联机联机联机脱机脱机脱机文本文本精品资料你怎么称呼老师?如果老师最后没有总结一节课的重点的难点,你是否会认为老师的教学方法需要改进?你所经历的课堂,是讲座式还是讨论式?教师的教鞭“不怕太阳晒,也不怕那风雨狂,只怕先生骂我笨,没有学问无颜见爹娘”“太阳当空照,花儿对我笑,小鸟说早早早”5.1 信息资源采集技术5.1.1文本生成 1、键盘录入、键盘录入 智能ABC、紫光、拼音加加、五笔字型2、语音识别、语音识别 语音特征提取 模式匹配(识别算法)声学模型 语言模型 清华大学电子工程系语清华大学电子工程系语清华大学电子工程系语音技术课题组,研发的音技术课题组,研发的音技术课题组,研发的非特定人汉语识别系统非特定人汉语识别系统非特定人汉语识别系统的识别精度,达到的识别精度,达到的识别精度,达到9494948 8 8(不定长数字串)(不定长数字串)(不定长数字串)和和和9696968 8 8(定长数字(定长数字(定长数字串)。串)。串)。从说话者与识别从说话者与识别系统的相关性系统的相关性从识别系统的词从识别系统的词汇量大小汇量大小特定人语音识别系统非特定人语音系统多人的识别系统小词汇量语音识别系统中等词汇量的语音识别系统大词汇量语音识别系统5.1 信息资源采集技术识别系统分类识别系统分类识别系统分类识别系统分类从说话的方式从说话的方式孤立词语音孤立词语音识别系统识别系统连接词语音连接词语音识别系统识别系统连续语音识连续语音识别系统别系统5.1 信息资源采集技术语音识别技术的应用可以分为两个发展语音识别技术的应用可以分为两个发展方向:方向:一个方向是大词汇量连续语音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统,这些系统都是在计算机平台上实现的;另外一个重要的发展方向是小型化、便携式语音产品的应用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用,这些应用系统大都使用专门的硬件系统实现,特别是近几年来迅速发展的语音信号处理专用芯片(Application Specific Integrated Circuit,ASIC)和语音识别片上系统(System on Chip,SOC)的出现。5.1 信息资源采集技术1920年代生产的“Radio Rex”玩具狗可能是最早的语音识别器AT&T贝尔实验室开发的Audrey语音识别系统 卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx 电话通信的语音拨号汽车的语音控制工业控制及医疗领域个人数字助理智能玩具家电遥控汽车语音智能识别系统汽车语音智能识别系统汽车语音智能识别系统3、手写输入、手写输入 手写输入方法,是把要输入的汉字写在一块叫书写板的设备上。汉字识别的方法基本上分为结构识别、统计识别以及神经网络方法等几大类。联机手写识别系统采用的是结构识别方法。优点是区分相似字的能力强,缺点是抗干扰能力差。汉王联机手写识别系统,目前在中国的嵌入式中文手写技术市场上汉王占有90%以上的市场份额。手写识别手写识别-JHWRjHWR手写识别系统以先进的大容量字典技术为基础,是一种能够在任何时间、任何地点,向任何人实时、准确的提供手写识别服务的高效便捷手段,非常符合信息时代动态更新和个性化查询的需求。手写识别手写识别-eJHWR 运用句法结构自学习算法和基于特征统计算法的多核心融和技术。具有识别率高,识别速度快,无笔顺限制,数据字典大小可缩扩等特点。5.1 信息资源采集技术4、OCR识别识别 OCR是Optical Character Recognition的简称,指光学字符识别技术。是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR识别技术识别技术扫描输入图像图像版面的分析和理解基于单字图像的特征选择和提取将被分类的模式赋予识别结果图像的预处理基于单字图像特征的模式分类图像的行切分和字切分良好的硬件支持识别结果的编辑修改后处理常用软件:尚书六号、清华紫光OCR辨识系统、蒙恬认识王、丹青中英文文件辨识系统“尚书六号”使用步骤:扫描图像文件打开尚书六号读取扫描好的图像文件被识别图片的预处理开始进行识别识别校对完成后,进行保存5.1 信息资源采集技术5.1.2 图像扫描 图像扫描常用设备有扫描仪、图像采集卡、数码相机等。1 扫描仪1)、什么是扫描仪 扫描仪是指把图像或文字用扫描方式数字化后输入计算机的一种设备。2)、扫描仪的种类 a.平板式扫描仪 它是由步进电机带动扫描头对图片进行自动扫描。其特点是扫描精度较高、使用方便、成像稳定,它适用于图稿幅面不太大,精度要求较高的场合。b.手持式扫描仪 它是以手动的方式推动扫描仪对图片进行扫描。其特点是体积小、携带方便、价格便宜,但由于手推进速度均匀性问题,容易造成图像失真。它适用于图稿幅面小、精度要求不太高的场合。c.滚筒式扫描仪 它是采用扫描头固定、滚动式走纸机构移动图纸而自动完成扫描。它适用于大型工程图的输入,例如A0、A1大幅面图稿输入。3)、扫描仪的结构扫描仪的结构扫描仪主要由上盖、原稿台、光学成像部分、光电转换部分、机械传动部分组成。5)、CCD扫描仪扫描仪与CIS扫描仪扫描仪的比较 CCDCCD(光电耦合器)(光电耦合器)CISCIS(接触式图像传感器)(接触式图像传感器)光光学学系系统统部件复杂,成本较高。部件复杂,成本较高。冷冷阴阴极极管管做做光光源源,需需要要预预热热1 1分钟左右才能稳定发光。分钟左右才能稳定发光。部部件件模模块块化化,结结构构、原原理理和和光路都极为简单;光路都极为简单;LEDLED发发光光二二极极管管做做光光源源,光光色色及及均均匀匀度度上上较较差差,色色域域较较窄,光源的寿命较短。窄,光源的寿命较短。颜颜色色还还原原通通过过一一系系列列透透镜镜、反反射射镜镜成成像像,会会产产生生色色彩彩偏偏差差和和光光学学像像差差,需需要要软软件件进进行行色色彩彩校校正。正。直直接接获获取取图图像像,能能获获得得最最接接近原稿的图像效果。近原稿的图像效果。成成像像质质量量镜镜头头成成像像,扫扫描描效效果果清清晰晰。景深长,可以扫描实物。景深长,可以扫描实物。扫扫描描精精度度较较低低,成成像像易易模模糊糊和散焦。和散焦。4)、扫描仪的工作原理 利用光电元件将检测到的光信号转换为电信号,再将电信号通过模拟数字转换器转化为数字信号传输到计算机中。无论何种类型的扫描仪,它们的工作过程都是将光信号转变为电信号。所以,光电转换是他们的核心5.1 信息资源采集技术5.1.3音频采集和生成 音频是一种典型的连续时间型号计算机每隔固定的时间对波形的幅值进行采样,用得到的一系列数字化量来表示声音。在某一个特定的时刻对音频信号的测量叫做采样每秒钟采样的次数叫做采样频率,单位为HZ在数字音频中,把表示声音强弱的模拟电压用数字表示,把某一幅度范围内的电压用一个数字表示,这就是量化把声音数据写成计算机数据格式,这称之为编码5.1.3音频采集和生成 计算机必须有相应的输入输出设备才能进行声音信号的处理。1、声卡的工作原理声卡的工作原理其实很简单,我们知道,麦克风和喇叭所用的都是模拟信号,而电脑所能处理的都是数字信号,声卡的作用就是实现两者的转换。从结构上分,声卡可分为模数转换电路和数模转换电路两部分,模数转换电路负责将麦克风等声音输入设备采到的模拟声音信号转换为电脑能处理的数字信号;而数模转换电路负责将电脑使用的数字声音信号转换为喇叭等设备能使用的模拟信号。2、声卡的性能指标1).采样频率 它是指单位时间内采样的次数。常用的采样频率为:11.025kHz(语音效果)22.05 kHz(音乐效果)44.1 kHz(高保真效果)2).量化位数 它是指每一个采样点用几位二进制数来表示。常用的量化位数有16、32、64位。量化位数越多,音质就越好。3).声道数声道数分为单声道和双声道(立体声)。声音文件字节数=录音时间 (采样频率量化位数声道数)/8例如:一个语音文件,其采样频率为11.025kHz,量化位数为16,单声道,则一分钟的语音数据量为:60*(11.025*103*16*1)/8=1.26MB3、语音合成、语音合成 语音合成技术是让计算机能够产生高清晰度、高自然度的连续语音。语音合成有二种方式:再生一个预先存入的语音信号;采用数字信号处理的方法,模拟声门发声。5.1 信息资源采集技术5.1.4 视频采集视频卡是基于PC机的一种多媒体视频信号处理平台,它汇集了视频源、音频源的信号,经过捕获、压缩、存储、编辑和特技、输出处理等,可产生非常漂亮的画面。视频卡的功能还包括图像的放大修整、像素显示调整、捕捉特定画面、若干视频源图像混合等。视频卡的种类很多 l 1.视频采集卡(视频捕捉卡)(模拟采集卡和数字采集卡)l 2.视频转换卡(PC-TV或VGA-TV,TV-VGA)l 3.视频叠加卡(卡拉OK歌词的叠加)l 4.MPEG解压缩卡(电影回放卡)l 5.视频压缩卡视频采集卡共分为两大类:一类是模拟采集卡,另一类是数字采集卡。数字采集卡均采用了 IEEE1394作为标准的数字接口.带有硬件CODEC 的1394编辑卡,特点是:生成的速度快、编辑质量高,功能也比较强大,但价格昂贵。软件CODEC,特点是:价格较低,但由于是用软件实现编解码,所以处理速度相对来讲要慢得多,对计算机的配置要求也比较高;5.1 信息资源采集技术5.1.5自动识别技术自动识别技术就是应用一定的识别装置,通过被识别物品和识别装置之间的接近活动,自动地获取被识别物品的相关信息,并提供给后台的计算机处理系统来完成相关后续处理的一种技术。自动识别技术包括:条码技术、磁条磁卡技术、IC卡技术、光学字符识别、射频技术、声音识别技术、视觉识别技术等 。1、自动识别技术的分类、自动识别技术的分类 自动识别系统根据识别对象的特征可以分为两大类,分别是数据采集技术和特征提取技术。数据采集技术的基本特征是需要被识别物体具有特定的识别特征载体。特征提取技术则根据被识别物体的本身的行为特征来完成数据的自动采集。2、条码技术、条码技术 条码是由一组规则排列的条、空构成不同的图形符号。条码分为一维条码、二维条码。EAN条码是国际通用符号体系,它们是一种定长、无含义的条码,主要用于商品标识。EAN128条码是一种连续型、非定长有含义的高密度代码,用以表示生产日期、批号、数量、规格、保质期、收货地等更多的商品信息。PDF417条码是一种高密度、高信息含量的条码,其特点为:信息容量大、编码应用范围广、保密防伪性能好、译码可靠性高、条码符号的形状可变。条码成本较低、适于大量需求且数据不必更改的场合。3、光学字符识别、光学字符识别OCR 4、磁条(卡)技术、磁条(卡)技术 磁条技术的优点是数据可读写,数据存储量能满足大多数需求,便于使用,成本低廉。很容易磨损,安全性较低。在很多领域得到了广泛应用,如信用卡、银行ATM卡等。5、IC卡识别技术卡识别技术 IC(Integrated Card)卡,将可编程设置的IC芯片放于卡片中。IC卡从嵌装的芯片划分可成两大类,存储器卡和智能卡。按照数据读写方式,IC卡又可分为接触式IC卡和非接触式IC卡两类。IC卡(接触式)和磁卡比较有以下特点:安全性高;存储容量大;防磁,抗干扰能力强,可靠性比磁卡高;使用寿命长价格稍高些;由于它的触点暴露在外面,有可能因人为的原因或静电损坏。6、声音识别技术、声音识别技术 7、视觉识别、视觉识别 8、射频识别技术(、射频识别技术(RFID)射频技术是利用无线电波来进行通讯的一种自动识别技术。射频标签最大的优点就在于非接触,缺点是标签成本相对较高。RFID广泛应用于门禁安防系统、物流系统、生产线自动化、收费站等要求非接触数据采集和交换的场合。小节信息采集技术信息采集技术文本生成技术文本生成技术文本生成技术文本生成技术音频采集技术音频采集技术音频采集技术音频采集技术图像采集技术图像采集技术图像采集技术图像采集技术自动识别技术自动识别技术自动识别技术自动识别技术
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!