Linux下音频设备编程.ppt

资源描述

第8章Linux下音频设备编程,本章着重阐述了Linux下对音频设备的编程方法。读完本章，读者将了解以下内容：音频信号的数字化和相关概念；音频总线接口IIS的控制原理和控制程序；Linux下音频设备编程的特点和操作方法；MPlayer媒体播放器在嵌入式Linux上的移植实例。,8.1音频信号基础,音频信号是一种连续变化的模拟信号，但计算机只能处理和记录二进制的数字信号，而由自然音源得到的音频信号必须经过一定的变换，成为数字音频信号之后，才能送到计算机中做进一步的处理。,数字音频信号,模拟音频信号数字化的典型方法是对时间坐标按相等的时间间隔做采样，对振幅做量化，单位时间内的采样次数称为采样频率。这样，一段声波被数字化后就可以变成一串数值，每个数值对应相应抽样点的振幅值，按顺序将这些数字排列起来就是数字音频信号了。这就是模拟-数字转化（ADC）过程。数字-模拟转化（DAC）过程则相反，将连续的数字按采样时的频率和顺序转换成对应的电压。通俗一点讲，音频ADC/DAC就是录音/放音。放音是数字音频信号转换成模拟音频信号，以驱动耳机、功放等模拟设备，而录音则是要将麦克风等产生的模拟音频信号转换成数字音频信号，并最终转换成计算机可以处理的通用音频文件格式。采样就是每隔一定时间读一次声音信号的幅度，而量化则是将采样得到的声音信号幅度转换为数字值。从本质上讲，采样是时间上的数字化，而量化则是幅度上的数字化。采样频率的选择应该遵循奈奎斯特（Nyquist）采样理论：采样频率高于输入信号最高频率的两倍，就能从采样信号序列重构原始信号。为了保证声音不失真，采样频率应该在40kHz左右。常用的音频采样频率有8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz等，如果采用更高的采样频率，还可以达到DVD的音质。量化是对模拟音频信号的幅度进行数字化，量化位数决定了模拟信号数字化以后的动态范围，常用的有8位、12位和16位。量化位越高，信号的动态范围越大，数字化后的音频信号就越接近原始信号，但所需要的存储空间也越大。声道数是反映音频数字化质量的另一个重要因素，它有单声道、双声道和多声道之分。双声道又称为立体声，在硬件中有两条线路，音质和音色都要优于单声道，但数字化后占据的存储空间的大小要比单声道多一倍。多声道能提供更好的听觉感受，不过占用的存储空间也更大。,音频文件格式,1MP3MP3的全称应为MPEG1Layer-3音频文件。MPEG（MovingPictureExpertsGroup）在汉语中译为活动图像专家组，特指活动影音压缩标准，MPEG音频文件是MPEG1标准中的声音部分，也叫MPEG音频层，它根据压缩质量和编码复杂程度划分为三层，即Layer-1、Layer-2、Layer-3，且分别对应MP1、MP2、MP3这三种声音文件，并根据不同的用途，使用不同层次的编码。MPEG音频编码的层次越高，编码器越复杂，压缩率也越高，MP1和MP2的压缩率分别为4:1和6:18:1，而MP3的压缩率则高达10:112:1，也就是说，一分钟CD音质的音乐，未经压缩需要10MB的存储空间，而经过MP3压缩编码后只有1MB左右。不过MP3对音频信号采用的是有损压缩方式，为了降低声音失真度，MP3采取了“感官编码技术”，即编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音电平，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的MP3文件，并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。2WMAWMA就是WindowsMediaAudio编码后的文件格式，由微软开发。WMA针对的不是单机市场，而是网络。它的竞争对手就是网络媒体市场中著名的RealNetworks。微软声称，在只有在64kbps的码率情况下，WMA可以达到接近CD的音质。与以往的编码不同，WMA支持防复制功能，它支持通过WindowsMediaRightsManager加入保护，可以限制播放时间和播放次数甚至于播放的机器等。由于WMA支持流技术，即一边读一边播放，因此WMA可以很轻松的实现在线广播。WMA有着优秀的技术特征，在微软的大力推广下，这种格式被越来越多的人所接受。,3WAV这是一种古老的音频文件格式，由微软开发。WAV文件格式符合RIFF（ResourceInterchangeFileFormat，资源互换文件格式）规范。所有的WAV都有一个文件头，这个文件头保存了音频流的编码参数。WAV对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。在Windows平台下，基于PCM编码的WAV是被支持得最好的音频格式，所有音频软件都能完美支持。由于本身可以达到较高的音质的要求，WAV也是音乐编辑创作的首选格式，适合保存音乐素材。因此，基于PCM编码的WAV被作为一种中介的格式，常常使用在其他编码的相互转换之中，例如，MP3转换成WMA。4OggVorbisOGG是一个庞大的多媒体开发计划的项目名称，涉及视频音频等方面的编码开发。整个OGG项目计划的目的就是向任何人提供完全免费的多媒体编码方案，OGG的信念就是开源和免费。Vorbis是OGG项目中音频编码的正式命名，目前Vorbis已经开发成功，并且开发出了编码器。OggVorbis是高质量的音频编码方案，官方数据显示：OggVorbis可以在相对较低的数据速率下实现比MP3更好的音质，而且它可以支持多声道。多声道音乐的兴起，给音乐欣赏带来了革命性的变化，尤其在欣赏交响时，会带来更多临场感。这场革命性的变化是MP3无法适应的，因为MP3只能编码2个声道。与MP3一样，OggVorbis是一种灵活开放的音频编码，能够在编码方案已经固定下来后继续对音质进行明显的调节和新算法的改良。因此，它的声音质量将会越来越好。与MP3相似，OggVorbis更像一个音频编码框架，可以不断导入新技术，逐步完善。,5RARA就是RealAudio格式，这是因特网上接触得非常多的一种格式。这种格式完全针对网络上的媒体市场，支持非常丰富的功能。这种格式最大的特点是可以根据听众的带宽来控制码率，在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码，其中包括ATRAC3。和WMA一样，RA不但支持边读边放，也同样支持使用特殊协议来隐匿文件的真实网络地址，从而实现只在线播放而不提供下载的欣赏方式。6APEAPE是MonkeysAudio提供的一种无损压缩格式。由于MonkeysAudio提供了Winamp的插件支持，因此这就意味着压缩后的文件不再是单纯的压缩格式，而是与MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式，但由于能够做到真正无损，因此获得了不少发烧用户的青睐。现在有不少无损压缩方案，APE是其中有着突出性能的格式，它具有令人满意的压缩比，以及飞快的压缩速度，成为不少朋友私下交流发烧音乐的惟一选择。7AACAAC（高级音频编码技术，AdvancedAudioCoding）是杜比实验室为音乐社区提供的技术，声称最大能容纳48通道的音轨，采样率达96kHz。AAC在320kbps的数据速率下能为5.1声道音乐节目提供相当于ITU-R广播的品质。AAC是遵循MPEG-2的规格所开发的技术，与MP3比起来，它的音质比较好，也能够节省大约30%的存储空间与带宽。8ATRAC3ATRAC3（AdaptiveTransformAcousticCoding3）由日本索尼公司开发，是MD所采用的ATRAC的升级版，其压缩率（约为ATRAC的2倍）和音质均与MP3相当。压缩原理包括同时掩蔽、时效掩蔽和等响度曲线等，与MP3大致相同。ATRAC3的版权保护功能采用的是OpenMG。目前，对应ATRAC3的便携式播放机主要是索尼公司自己的产品。不过，该公司已于2000年2月与富士通、日立、NEC、Rohm、三洋和TI等半导体制造商签署了制造并销售ATRAC3用LSI的专利许可协议。,WAVE文件格式剖析,WAVE文件作为多媒体中使用的声波文件格式之一，是以RIFF格式为标准的。RIFF可以看成是一种树形结构，其基本构成单位为chunk，犹如树形结构中的节点，每个chunk由辨别码、数据大小，以及数据所组成。WAVE文件的“RIFF”格式辨别码为“WAVE”，整个文件由两个chunk所组成，辨别码分别是“fmt”和“data”。在“fmt”chunk下包含了一个PCM波形格式的数据结构，在此之后是包含原始声音信息的采样数据，这些数据是可以直接送到IIS总线的数字音频信号。WAVE文件各部分内容及格式如表8.1所示。常见的声音文件主要有两种，分别对应于单声道和双声道。对于单声道声音文件，采样速率是11.025kHz，采样数据为8位的短整数（shortint）；而对于双声道立体声声音文件，采样速率为44.1kHz，每次采样数据为一个16位的整数（int），高8位和低8位分别代表左右两个声道。WAVE文件数据块包含以脉冲编码调制（PCM）格式表示的样本。WAVE文件是由样本组织而成的。在WAVE文件中，声道0代表左声道，声道1代表右声道。在多声道WAVE文件中，样本是交替出现的。例如，对于8位双声道的立体声，存储数据格式依次为：0声道（左）、1声道（右）、0声道（左）、1声道（右）。对于16位立体声，存储数据依次为：0声道（左）低字节、0声道（左）高字节、1声道（右）低字节、1声道（右）高字节。,8.2基于IIS接口的音频系统,IIS接口控制原理,S3C2410X内置了一个IIS总线控制器，该控制器实现到一个外部8/16位立体声音频编解码器接口，支持IIS总线数据格式和MSB-justified数据格式。S3C2410X中有两条串行数据线，一条是输入信号数据线，一条是输出信号数据线，以同时发送和接收数据。IIS接口有3种工作方式：正常传输模式，正常模式下使用IISCON寄存器对FIFO进行控制。如果传输FIFO缓存为空，IISCON的第7位被设置为“0”，表示不能继续传输数据，需要CPU对缓存进行处理。如果传输FIFO缓存非空，IISCON的第7位被设置成“1”，表示可以继续传输数据。同样，数据接收时，如果FIFO满，标识位是“0”，此时，需要CPU对FIFO进行处理，如果FIFO没有满，那么标志位是“1”，这个时候可以继续接收数据。DMA模式，通过设置IISFCON寄存器可以使IIS接口工作于这种模式下。在这种模式中，FIFO寄存器组的控制权掌握在DMA控制器上，当FIFO满了，由DMA控制器对FIFO中的数据进行处理。DMA模式的选择由IISCON寄存器的第4位和第5位控制。传输/接收模式，这种模式下，IIS数据可以同时接收和发送音频数据。IIS总线控制器结构如图8.2所示，各功能说明如下：两个5比特预除器IPSR，IPSA_A用于产生IIS总线接口的主时钟，IPSA_B用做外部CODEC时钟产生器。16字节FIFO，在发送数据时数据被写进TxFIFO，在接收数据时数据从RxFIFO中读取。主IISCLK产生器SCLKG，在主模式下，有主时钟产生串行位时钟。通道产生器和状态机CHNC，IISCLK和IISLRCK有通道状态机产生并控制。16比特移位寄存器（SFTR），在发送数据时，并行数据经由SFTR变成串行数据输出；在数据接收时，串行数据由SFTR转变成并行数据。,音频接口电路设计,音频接口程序设计,1放音放音程序代码如下：#include2410addr.h#include2410lib.h#includedef.h“#include2410iis.hvoidChangeDMA2(void);voidIIS_PortSetting(void);void_WrL3Addr(U8data);void_WrL3Data(U8data,inthalt);void_irqDMA2_Done(void);void_irqDMA2_Rec_Done(void);void_irqRxInt(void);void_irqMuting(void);#defineL3C(14)/GPB4=L3CLOCK#defineL3D(13)/GPB3=L3DATA#defineL3M(11)1;fs=*(Buf+0 x1c)|*(Buf+0 x1d)8|*(Buf+0 x1e)16|*(Buf+0 x1f)24;接着初始化UDA1341，设置为放音模式：Init1341(PLAY);接着进行DMA初始化：rDISRC2=(int)(Buf+0 x30);/0 x31000030(Removeheader)rDISRCC2=(01)+(00);/源地址位于系统总线AHB，地址递增rDIDST2=(U32)IISFIFO);/IISFIFOrDIDSTC2=(11)+(10);/目的地址位于外设总线APB，地址固定rDCON2=(131)+(030)+(129)+(028)+(027)+(024)+(123)+(022)+(120)+(size/4);/101000001001xxxxxxxxxxxxxxxxxxxx/Handshake31,SyncPCLK30,CURR_TCInterruptRequest29,/SingleTx28,Singleservice27,/I2SSDO26:24,DMAsourceselected23,Auto-reload22,/Half-word21:20,size/219:0rDMASKTRIG2=(02)+(11)+(00);/No-stop2,DMA2channelOn1,No-swtrigger0,IIS初始化：if(fs=44100)/11.2896MHz(256fs)rIISPSR=(2startpiling.启动IIS。IIS启动后，将采用DMA方式播放语音数据，播放完毕后将引发中断，并重新播放语音数据。可通过按任意键，决定播放是否结束。/IISTxStartUart_Printf(nPressanykeytoexit!n);rIISCON|=0 x1;/IISInterfacestartwhile(!Uart_GetKey()if(rDSTAT2,2录音录音程序在初始化等动作上与放音类似，代码如下：voidRecord_Iis(void)unsignedintsave_B,save_E,save_PB,save_PE;Uart_TxEmpty(0);ChangeClockDivider(1,1);/1:2:4ChangeMPllValue(0 x96,0 x5,0 x1);/FCLK=135428571Hz,PCLK=3.385714MHzUart_Init(33857142,115200);Uart_Printf(RecordtestusingUDA1341n);save_B=rGPBCON;save_E=rGPECON;save_PB=rGPBUP;save_PE=rGPEUP;IIS_PortSetting();录音数据保存在rec_buf中：rec_buf=(unsignedshort*)0 x31000000;pISR_DMA2=(unsigned)DMA2_Rec_Done;pISR_EINT0=(unsigned)Muting;rINTMSK=(BIT_DMA2);Init1341(RECORD);rDISRCC2=(1startpiling.开始录音：/RxstartrIISCON|=0 x1;,录音完毕将引发DMA2中断，如下代码等待录音结束：while(!Rec_Done);rINTMSK=BIT_DMA2;Rec_Done=0;/IISStopDelay(10);/ForendofH/WRxrIISCON=0 x0;/IISstoprDMASKTRIG2=(12);/DMA2stoprIISFCON=0 x0;/ForFIFOflush录音完毕，然后播放声音：Uart_Printf(EndofRecord!n);Uart_Printf(Pressanykeytoplayrecordeddatan);Uart_Printf(IfyouwanttomuteornomutepushtheEIN0keyrepeatedlyn);Uart_Getch();size=REC_LEN*2;Uart_Printf(Size=%dn,size);Init1341(PLAY);pISR_DMA2=(unsigned)DMA2_Done;rINTMSK=(BIT_DMA2|BIT_EINT0);/DMA2InitializerDISRCC2=(01)+(00);/AHB,IncrementrDISRC2=(int)rec_buf;/0 x31000000rDIDSTC2=(11)+(10);/APB,FixedrDIDST2=(U32)IISFIFO);/IISFIFOrDCON2=(131)+(030)+(129)+(028)+(027)+(024)+(123)+(022)+(120)+(size/2);/Handshake,syncPCLK,TCint,singletx,singleservice,I2SSDO,I2Srequest,/Auto-reload,half-word,size/2rDMASKTRIG2=(02)+(11)+0;/No-stop,DMA2channelon,No-swtrigger,/IISInitialize/Master,Tx,L-ch=low,iis,16bitch.,CDCLK=256fs,IISCLK=32fsrIISMOD=(0startpiling.Uart_Printf(Pressanykeytoexit!n);rIISCON|=0 x1;/IISTxStartwhile(!Uart_GetKey();/IISTxStopDelay(10);/ForendofH/WTxrIISCON=0 x0;/IISstoprDMASKTRIG2=(12);/DMA2stoprIISFCON=0 x0;/ForFIFOflushsize=0;rGPBCON=save_B;rGPECON=save_E;rGPBUP=save_PB;rGPEUP=save_PE;rINTMSK=(BIT_DMA2|BIT_EINT0);ChangeMPllValue(0 xa1,0 x3,0 x1);/FCLK=202.8MHzUart_Init(0,115200);mute=1;,8.3音频设备程序的实现,在Linux下，音频设备程序的实现与文件系统的操作密切相关。Linux将各种设备以文件的形式给出统一的接口，这样的设计使得对设备的编程与对文件的操作基本相同，对Linux内核的系统调用也基本一致，从而简化了设备编程。如何对各种音频设备进行操作是在Linux上进行音频编程的关键，通过内核提供的一组系统调用，应用程序能够访问声卡驱动程序提供的各种音频设备接口，这是在Linux下进行音频编程最简单也是最直接的方法。声卡不是Linux控制台的一部分，它是一个特殊的设备。声卡主要提供3个重要的特征：数字取样输入/输出；频率调制输出；MIDI接口。这3个特征都有它们自己的设备驱动程序接口，数字取样的接口是/dev/dsp，频率调制的接口/dev/sequencer，而MIDI接口是/dev/midi。混音设备（如音量、平衡或者贝斯）可以通过/dev/mixer接口来控制。为了满足兼容性的需要，还提供了一个/dev/audio设备，该设备可用于读SUN_law的声音数据，但它是映射到数字取样设备的。,音频编程接口,程序员可以使用ioctl()来操作这些设备，ioctl()请求是在linux/soundcard.h中定义的，它们以SNDCTL_开头。首先使用open系统调用建立起与硬件间的联系，此时返回的文件描述符将作为随后操作的标识；接着使用read系统调用从设备接收数据，或者使用write系统调用向设备写入数据，而其他所有不符合读/写这一基本模式的操作都可以由ioctl系统调用来完成；最后，使用close系统调用告诉Linux内核不会再对该设备做进一步的处理。1open系统调用系统调用open可以获得对声卡的访问权，同时还能为随后的系统调用做好准备，其函数原型如下所示：intopen(constchar*pathname,intflags,intmode);参数pathname是将要被打开的设备文件的名称，对于声卡来讲一般是/dev/dsp。参数flags用来指明应该以什么方式打开设备文件，它可以是O_RDONLY、O_WRONLY或者O_RDWR，分别表示以只读、只写或者读写的方式打开设备文件；参数mode通常是可选的，它只有在指定的设备文件不存在时才会用到，指明新创建的文件应该具有怎样的权限。如果open系统调用能够成功完成，它将返回一个正整数作为文件标志符，在随后的系统调用中需要用到该标志符。如果open系统调用失败，它将返回1，同时还会设置全局变量errno，指明是什么原因导致了错误的发生。2read系统调用read用来从声卡读取数据：intread(intfd,char*buf,size_tcount);参数fd是设备文件的标志符，它是通过之前的open系统调用获得的；参数buf是指向缓冲区的字符指针，它用来保存从声卡获得的数据；参数count则用来限定从声卡获得的最大字节数。如果read系统调用成功完成，它将返回从声卡实际读取的字节数，通常情况会比count的值小一些；如果read系统调用失败，它将返回1，同时还会设置全局变量errno，来指明是什么原因导致了错误的发生。,3write系统调用write用来向声卡写入数据，其函数原型如下所示：size_twrite(intfd,constchar*buf,size_tcount);系统调用write和系统调用read在很大程度是类似的，差别只在于write是向声卡写入数据，而read则是从声卡读入数据。参数fd同样是设备文件的标志符，它也是通过之前的open系统调用获得的；参数buf是指向缓冲区的字符指针，它保存着即将向声卡写入的数据；参数count则用来限定向声卡写入的最大字节数。如果write系统调用成功完成，它将返回向声卡实际写入的字节数；如果write系统调用失败，它将返回1，同时还会设置全局变量errno，来指明是什么原因导致了错误的发生。无论是read还是write，一旦调用之后，Linux内核就会阻塞当前应用程序，直到数据成功地从声卡读出或者写入为止。4ioctl系统调用系统调用ioctl可以对声卡进行控制，凡是对设备文件的操作不符合读/写基本模式的，都是通过ioctl来完成的，它可以影响设备的行为，或者返回设备的状态，其函数原型如下所示：intioctl(intfd,intrequest,.);参数fd是设备文件的标志符，它是在设备打开时获得的；如果设备比较复杂，那么对它的控制请求相应地也会有很多种，参数request的目的就是用来区分不同的控制请求；通常说来，在对设备进行控制时还需要有其他参数，这要根据不同的控制请求才能确定，并且可能是与硬件设备直接相关的。5close系统调用当应用程序使用完声卡之后，需要用close系统调用将其关闭，以便及时释放占用的硬件资源，其函数原型如下所示：intclose(intfd);参数fd是设备文件的标志符，它是在设备打开时获得的。一旦应用程序调用了close系统调用，Linux内核就会释放与之相关的各种资源，因此建议在不需要的时候尽量及时关闭已经打开的设备。,音频设备文件,/dev/sndstat设备文件/dev/sndstat是声卡驱动程序提供的最简单的接口，通常它是一个只读文件，作用也仅仅只限于汇报声卡的当前状态。一般说来，/dev/sndstat是提供给最终用户来检测声卡的，不宜用于程序当中，因为所有的信息都可以通过ioctl系统调用来获得。/dev/dsp声卡驱动程序提供的/dev/dsp是用于数字采样和数字录音的设备文件，它对于Linux下的音频编程来讲非常重要。向该设备写数据即意味着激活声卡上的D/A转换器进行放音，而从该设备读数据则意味着激活声卡上的A/D转换器进行录音。目前，许多声卡都提供有多个数字采样设备，它们在Linux下可以通过/dev/dsp等设备文件进行访问。/dev/audio/dev/audio类似于/dev/dsp，它兼容于Sun工作站上的音频设备，使用的是mu-law编码方式。由于设备文件/dev/audio主要出于对兼容性的考虑，所以在新开发的应用程序中最好不要尝试用它，而应该以/dev/dsp进行替代。对于应用程序来说，同一时刻只能使用/dev/audio或者/dev/dsp其中之一，因为它们是相同硬件的不同软件接口。/dev/mixer在声卡的硬件电路中，混音器（mixer）是一个很重要的组成部分，它的作用是将多个信号组合或者叠加在一起，对于不同的声卡来说，其混音器的作用可能各不相同。运行在Linux内核中的声卡驱动程序一般都会提供/dev/mixer这一设备文件，它是应用程序对混音器进行操作的软件接口。/dev/sequencer目前大多数声卡驱动程序还会提供/dev/sequencer设备文件，用来对声卡内建的波表合成器进行操作，或者对MIDI总线上的乐器进行控制，通常只用于计算机音乐软件中。,音频设备编程设计,1DSP编程DSP是数字信号处理器（DigitalSignalProcessor）的简称，它用来进行数字信号处理的特殊芯片，声卡使用它来实现模拟信号和数字信号的转换。声卡中的DSP设备实际上包含两个组成部分：在以只读方式打开时，能够使用A/D转换器进行声音的输入；而在以只写方式打开时，则能够使用D/A转换器进行声音的输出。严格说来，Linux下的应用程序要么以只读方式打开/dev/dsp输入声音，要么以只写方式打开/dev/dsp输出声音，但事实上，某些声卡驱动程序仍允许以读写的方式打开/dev/dsp，以便同时进行声音的输入和输出。在从DSP设备读取数据时，从声卡输入的模拟信号经过A/D转换器变成数字采样后的样本，保存在声卡驱动程序的内核缓冲区中，当应用程序通过read系统调用从声卡读取数据时，保存在内核缓冲区中的数字采样结果将被复制到应用程序所指定的用户缓冲区中。需要指出的是，声卡采样频率是由内核中的驱动程序所决定的，而不取决于应用程序从声卡读取数据的速度。如果应用程序读取数据的速度过慢，以致低于声卡的采样频率，那么多余的数据将会被丢弃；如果读取数据的速度过快，以致高于声卡的采样频率，那么声卡驱动程序将会阻塞那些请求数据的应用程序，直到新的数据到来为止。在向DSP设备写入数据时，数字信号会经过D/A转换器变成模拟信号，然后产生出声音。应用程序写入数据的速度同样应该与声卡的采样频率相匹配，过慢的话会产生声音暂停或者停顿的现象，而过快的话又会被内核中的声卡驱动程序阻塞，直到硬件有能力处理新的数据为止。无论是从声卡读取数据，或是向声卡写入数据，事实上都具有特定的格式，默认为8位无符号数据、单声道、8kHz采样率，如果默认值无法达到要求，可以通过ioctl系统调用来改变它们。通常情况下，在应用程序中打开设备文件/dev/dsp之后，接着就应该为其设置恰当的格式，然后才能从声卡读取或者写入数据。,对声卡进行编程时，首先要做的是打开与之对应的硬件设备，这是借助于open系统调用来完成的，并且一般情况下使用的是/dev/dsp文件。采用何种模式对声卡进行操作也必须在打开设备时指定，对于不支持全双工的声卡来说，应该使用只读或者只写的方式打开，只有那些支持全双工的声卡，才能以读写的方式打开，并且还要依赖于驱动程序的具体实现。Linux允许应用程序多次打开或者关闭与声卡对应的设备文件，从而能够很方便地在放音状态和录音状态之间进行切换，建议在进行音频编程时只要有可能就尽量使用只读或者只写的方式打开设备文件，因为这样不仅能够充分利用声卡的硬件资源，而且还有利于驱动程序的优化。下面的代码示范了如何以只写方式打开声卡进行放音操作：inthandle=open(/dev/dsp,O_WRONLY);if(handle=-1)perror(open/dev/dsp);return-1;运行在Linux内核中的声卡驱动程序专门维护了一个缓冲区，其大小会影响到放音和录音时的效果，使用ioctl系统调用可以对它的尺寸进行恰当的设置。调节驱动程序中缓冲区大小的操作不是必需的，如果没有特殊的要求，一般采用默认的缓冲区大小就可以了。但需要注意的是，缓冲区大小的设置通常应紧跟在设备文件打开之后，这是因为对声卡的其他操作有可能会导致驱动程序无法再修改其缓冲区的大小。下面的代码示范了怎样设置声卡驱动程序中的内核缓冲区的大小：intsetting=0 xnnnnssss;intresult=ioctl(handle,SNDCTL_DSP_SETFRAGMENT,在设置缓冲区大小时，参数setting实际上由两部分组成，其低16位标明缓冲区的尺寸，相应的计算公式为buffer_size=2ssss，即若参数setting低16位的值为16，那么相应的缓冲区的大小会被设置为65536字节。参数setting的高16位则用来标明分片（fragment）的最大序号，它的取值范围从2到0 x7FFF，其中0 x7FFF表示没有任何限制。,接下来要做的是设置声卡工作时的声道数目，根据硬件设备和驱动程序的具体情况，可以将其设置为0（单声道，mono）或者1（立体声，stereo）。下面的代码示范了应该怎样设置声道数目。intchannels=0;/0=mono1=stereointresult=ioctl(handle,SNDCTL_DSP_STEREO,利用声卡上的DSP设备进行声音录制和回放的完整程序，它的功能是先录制几秒钟音频数据，将其存放在内存缓冲区中，然后再进行回放，其所有的功能都是通过读写/dev/dsp设备文件来完成的。/*sound.c*/#include#include#include#include#include#include#include#defineLENGTH3/*存储秒数*/#defineRATE8000/*采样频率*/#defineSIZE8/*量化位数*/#defineCHANNELS1/*声道数目*/*用于保存数字音频数据的内存缓冲区*/unsignedcharbufLENGTH*RATE*SIZE*CHANNELS/8;intmain()intfd;/*声音设备的文件描述符*/intarg;/*用于ioctl调用的参数*/intstatus;/*系统调用的返回值*/*打开声音设备*/fd=open(/dev/dsp,O_RDWR);if(fd0)perror(openof/dev/dspfailed);exit(1);/*设置采样时的量化位数*/arg=SIZE;status=ioctl(fd,SOUND_PCM_WRITE_BITS,/*设置采样时的声道数目*/arg=CHANNELS;status=ioctl(fd,SOUND_PCM_WRITE_CHANNELS,2Mixer编程混音器电路通常由两个部分组成：输入混音器和输出混音器。输入混音器负责从多个不同的信号源接收模拟信号，这些信号源有时也被称为混音通道或者混音设备。模拟信号通过增益控制器和由软件控制的音量调节器后，在不同的混音通道中分别进行调制，然后被送到输入混音器中进行声音的合成。混音器上的电子开关可以控制不同通道中的信号与混音器相连，有些声卡只允许连接一个混音通道作为录音的音源，而有些声卡则允许对混音通道做任意的连接。经过输入混音器处理后的信号仍然为模拟信号，它们将被送到A/D转换器进行数字化处理。输出混音器的工作原理与输入混音器类似，同样也有多个信号源与混音器相连，并且事先都经过了增益调节。当输出混音器对所有的模拟信号进行混合之后，通常还会有一个总控增益调节器来控制输出声音的大小，此外，还有一些音调控制器来调节输出声音的音调。经过输出混音器处理后的信号也是模拟信号，它们最终会被送给喇叭或者其他的模拟输出设备。对混音器的编程包括如何设置增益控制器的增益，以及怎样在不同的音源间进行切换，这些操作通常是不连续的，而且不会像录音或者放音那样需要占用大量的计算机资源。由于混音器的操作不符合典型的读/写操作模式，因此除了open和close两个系统调用之外，大部分的操作都是通过ioctl系统调用来完成的。与/dev/dsp不同，/dev/mixer允许多个应用程序同时访问，并且混音器的设置值会一直保持到对应的设备文件被关闭为止。为了简化应用程序的设计，Linux上的声卡驱动程序大多都支持将混音器的ioctl操作直接应用到声音设备上，也就是说，如果已经打开了/dev/dsp，那么就不用再打开/dev/mixer来对混音器进行操作，而是可以直接用打开/dev/dsp时得到的文件标志符来设置混音器。声卡上的混音器由多个混音通道组成，它们可以通过驱动程序提供的设备文件/dev/mixer进行编程。对混音器的操作是通过ioctl系统调用来完成的，并且所有控制命令都由SOUND_MIXER或者MIXER开头，表8.3列出了常用的几个混音器控制命令。,对声卡的输入增益和输出增益进行调节是混音器的一个主要作用，目前大部分声卡采用的是8位或者16位的增益控制器，但作为程序员来讲并不需要关心这些，因为声卡驱动程序会负责将它们变换成百分比的形式，也就是说，无论是输入增益还是输出增益，其取值范围都是从0到100。在进行混音器编程时，可以使用SOUND_MIXER_READ宏来读取混音通道的增益大小，例如，在获取麦克风的输入增益时，可以使用如下的代码：intvol;ioctl(fd,SOUND_MIXER_READ(SOUND_MIXER_MIC),在编写实用的音频程序时，混音器是在涉及兼容性时需要重点考虑的一个对象，这是因为不同的声卡所提供的混音器资源是有所区别的。声卡驱动程序提供了多个ioctl系统调用来获得混音器的信息，它们通常返回一个整型的位掩码（bitmask），其中每一位分别代表一个特定的混音通道，如果相应的位为1，则说明与之对应的混音通道是可用的。例如，通过SOUND_MIXER_READ_DEVMASK返回的位掩码，可以查询出能够被声卡支持的每一个混音通道，而通过SOUND_MIXER_READ_RECMAS返回的位掩码，则可以查询出能够被当做录音源的每一个通道。下面的代码可以用来检查CD输入是否是一个有效的混音通道。ioctl(fd,SOUND_MIXER_READ_DEVMASK,此外，所有的混音通道都有单声道和双声道的区别，如果需要知道哪些混音通道提供了对立体声的支持，可以通过SOUND_MIXER_READ_STEREODEVS来获得。,一个简单的混音器控制程序，利用它可以对各种混音通道的增益进行调节，其所有的功能都是通过读写/dev/mixer设备文件来完成的。#include#include#include#include#include#include/*用来存储所有可用混音设备的名称*/constchar*sound_device_names=SOUND_DEVICE_NAMES;intfd;/*混音设备所对应的文件描述符*/intdevmask,stereodevs;/*混音器信息对应的位图掩码*/char*name;/*显示命令的使用方法及所有可用的混音设备*/voidusage()inti;fprintf(stderr,usage:%sn%snnWhereisoneof:n,name,name);for(i=0;iSOUND_MIXER_NRDEVICES;i+)if(1getmplayergettest.mpegbye#chmoda+xmplayer最后在命令行下输入如下命令：#mplayervotest.mpeg,广告推广肇念霜淭,

展开阅读全文