XML编程开发教程

资源描述

第一章 XML与DTDXML的产生：XML的全称是Extensible Markup Language,意思是可扩展的标记语言，它是标准通用标记语言（Standard Generalized Markup Language，SGML）的一个子集。在80年代早期，IBM提出在各文档之间共享一些相似的属性例如字体大小和版面。IBM设计了一种文档系统，通过在文档中添加标记，来标识文档中的各种元素，IBM把这种标识语言称作通用标记语言（Generalized Markup Language），即GML。经过若干年的发展，1984年国际标准化组织（ISO）开始对此提案进行讨论，并于1986年正式发布了为生成标准化文档而定义的标记语言标准（ISO 8879)，称为新的语言SGML,即标准通用标记语言。SGML功能非常强大，是可以定义标记语言的元语言。 W3C介绍：W3C是万维网联盟(World Wide Web Consortium）英文的缩写，它成立于1994年10月，以开放论坛的方式来促进开发互通技术（包括规格、指南、软件和工具），开发网络的全部潜能。万维网联盟(W3C)从1994年成立以来，已发布了90多份Web技术规范，领导着Web技术向前发展。W3C认为自身不是官方组织，因此将它正式发布的规范称为推荐（建议）标准，意思是进一步标准化的建议，但是由于该组织自身的权威性往往成为事实上的标准。一项技术要成为W3C的推荐标准，需要7个步骤：1W3C收到提交(Receives a Submission) 2.W3C发布注释(Publishes a Note) 3.W3C成立工作组(Creates a Working Group) 4.W3C发布工作草案(Publishes a Working Draft) 5.W3C发布候选推荐标准(Publishes a Candidate Recommendation) 6.W3C发布提议的推荐标准(Publishes a Proposed Recommendation) 7.W3C发布推荐标准(Publishes a Recommendation)关于XML的问题： XML是HTML的扩展吗？ HTML的全称是Hypertext Markup Language（超文本标记语言），而XML的全称是(Extensible Markup Language）可扩展的标记语言，这很容易让人联想到XML是通过增加新标记来扩展HTML的一种标记语言。实际上HTML和XML在标记语言中处于不同的层次。欢迎词这是一个欢迎的例子这是一个欢迎的例子你好！欢迎你！你好!欢迎你! 提示:XML在设计之初，就考虑到了国际化的问题，同HTML4.01一样，XML也是基于ISO/IEC 10646字符集标准中定义的通用字符集（Universal Character Set.UCS)。SGML、HTML和XML之间的关系：SGML、HTML和XML之间是什么关系？ SGML是一种在Web发明前就早已存在的使用标记来描述文档资料的通用语言，它是一种定义标记语言的元语言。HTML和XML都是从SGML发展而来的标记语言，因此，它们有一些共同点，如相似的语法和标记的使用。不过HTML是在SGML定义下的一个描述性的语言，只是SGML的一个应用，其DTD作为标准被固定下来，而XML是SGML的一个简化版本，是SGML的一个子集，严格意义上来说，XML仍然是SGML。HTML不能用来定义新的应用，而XML可以，例如RDF和CDF那是使用XML定义的应用事实上。XML和SGML是兼容的但又没有SGML那么复杂，它是设计用于有限带宽的网络，如Internet. XML规范的制定者之一Tim Bray说，XML的设计出发点是取SGML的优点，去除复杂的部分，使其保持轻巧，可以在Web上工作。HTML、SGML和XML将继续使用于适合的地方，它们中的任何一个都不会使其它一个废弃。对于像新闻、网络日记、论坛留言等大部分短期的数据，HTML仍是在Web上快速出版数据的最简单的方法。如果数据要长期使用，并且需要更多的一些结构，我们更推荐使用XML。不同于HTML和XML，SGML可能永远不会在Internet上被广泛接受，因为它们不是为某个网络协议而设计，也从来没有为某个网络协议的需求而优化过。对于高端的、复杂结构的出版应用，SGML将继续应用。XML与HTML的比较：XML将数据与显示分开静夜思静夜思静夜思李白作者：李白床前明月光疑是地上霜床前明月先，疑是地上霜举头望明月举头望明月，低头思故乡低头思故乡 XML对文档的格式要求更加严格,由于HTML文档格式非常松散，导致了HTML文档解析的复杂性，也造成了浏览器兼容的问题，所以XML从一开始，就对文档的格式制定了非常严格的标准，凡是符合这一标准的XML文档就是格式良好的XML文档（Well-Formed XML Documents）。开始标签必须要有一个结束标签:在HTML文档中，可以直接使用, ,等标签，而不用加结束标签，在XML中，开始标签和结束标签必须配套，也就是必须写成.、., .空元素标签必须被关闭.在HTML文档中，可以使用, ,等单标签，而在XML中，空元素标签必须被关闭。空元素标签采用斜杠(/)来关闭，例如：,所有的标签都区分大小写在HTML文档中，标签是不区分大小写的，和是tr元素的开始标签和结束标签，但是在XML中，和是两个不同的标签，开始标签和结束标签的大小写形式必须一致.所有的标签都必须合理嵌套。在HTML文档中，.是允许的，但是在XML中，这是错误的在XML中，所有的标签都要成对出现，合理嵌套，正确的形式是：.所有标签的属性值必须用双引号()或单引号（）括起来。在HTML文档中，属性值可以加引号，也可以不加，例如：和都是合法的。在XML文档中，即使是数等字符，也必须加双引号或单引号，例如:。XML有且只能有一个根元素,在HTML中，可以有多个根元素，如下：. . 但是在XML中，有且只能有一个根元素，如下：.XML的编辑工具：Notepad(Windows自带)、UltraEdit、XMLSpyXML的文档：每一个XML文档都有一个逻辑和一个物理结构。物理上而言，文档由称为实体(entities)的存储单元组成，实体都具有内容并且都通过实体的名字进行标识文档实体和外部DTD子集除外）。实体可以是一段文本、一个文件、一个数据库记录或其他包含数据的项目。一个实体可以引用其它的实体，从而将它们包含在文档中。文档开始于根(root)或文档实体(document entity).格式良好的XML文档形成了一种层次树结构，而这个树的树根就是文档实体，与其它实体不同，文档实体没有名宇，只是用于表示文档树的根。XML文档的根元素被称为文档元素(document element)，它和在其外部出现的处理指令、注释等作为文档实体的子节点,而根元素本身和其内部的子元素也是一棵树. 实体可以包含已分析(parsed）的或未分析的(unparsed）数据.已分析的数据由字符组成，其中一些字符组成字符数据，另一些字符组成标记。已分析的实体(parsed entity）内容被称为它的替换文本，这个文本被看成是文档整体的一部分在XML处理器分析XML文档时，凡是文档中出现引用已分析实体的地方，都将被该实体的内容所替换.未分析的实体(unparsed entity)是一种资源，它的内容可以是也可以不是文本，并且，如果是文本的话，可以不是XML文本。每一个未分析的实体有一个相关联的用名字标识的记号(notation)。除了要求XML处理器能向应用程序提供可用的实体和记号的标识符之外，XML对未分析的实体内容不作任何限限制。已分析的实体以实体引用的方式通过名字来调用：未分析的实体通过ENTITY或ENTITIES属性中给出的名字来调用逻辑上而言，文档由声明，元素，注释，字符引用和处理指令组成，在文档中，所有这些都是通过显式的标记(markup)来指明的.XML标记(markup)包括开始标签(tag)、结束标签、空元素标签、实体引用、字符引用、注释、CDATA段定界符、文档类型声明，处理指令、XML声明、文本声明以及任何在文档实体顶层的空白（即，在文档元素之外，且不在任何其它的标记内部）。其它所有非标记的文本组成文档的字符数据。XML文档在逻辑上主要由以下五个部分组成。-XML声明 -文档类型声明-元素 -注释 -处理指令。XML声明：XML文档总是以一个XML声明开始，其中指明所用的XML版本、文档的编码、文档的独立性信息。其格式如下一对中括号()中的部分表示是可选信息。版本声明文档编码声明在XML声明中还可以加上交档编码信息，默认是UTF-8,如果要使用中文，我们可以在声明中加上encoding=gb2312,如下所示：独立文档声明如果我们的文档不依赖于外部文档在XML声明中，我们可以通过standalone=yes来声明这个文档是独立的文档，如要文档依赖于外部文档，可以通过standalone=no来声明。完整的XML声明如下所示： XML声明必须位于文档的第一行，前面不能有任何字符。文档类型声明DTD（Document Type Definition)文档类型定义XML从SGML继承了用于定义语法规则的DTD机制，但DTD本身井不要求遵循XML规则，几乎所用的XML应用都是使用DTD来定义的。HTML就有一个标准的DTD文件，所以其组织结构和所有的标签都是固定的DTD文件也是一个文本文件，通常用dtd作为其扩展名通过文档类型声明，指出XML文档所用的DTD.文档类型声明有两种形式一种是声明DTD在一个外部的文件中，如下：一种是直接在XML文档中给出DTD，如下： !DOCTYPE greeting 元素：在XML中，元素由开始标签、元素内容和结束标签构成，对于空元素，由空元素标签构成。每一个元素有一个用名字标识的类型，同时它可以有一个属性说明集，每一个属性说明有一个名字和一个值。在给元素命名的时候要注意，以xml或其他任何匹配(X|x)(M|m) (L|l)的字符串开头的名字，被保留用于XML规范的当前版本或后续版本的标准化。此外，在给元素命名时，还要遵守下列规范：1、名称只能以字母、下划线（）或者冒号（：）开头；2、名称中可以包含字母、数字、下划线以及其它在XML标准中允许的字符；3、名称中不能包含空格；4、名称中尽可能不要使用冒号(:),因为冒号在名称空间中被用于分隔名称空间前缀和本地部分，空元素带有属性的空元素带有内容的元素这是一个学生的信息张三18带有内容和属性的元素 18 提示：“元素”和“标签”这两个词具有不同的含义。元素是指开始标签、结束标签以及两者之间的一切内容，包括属性、文本、注释以及子元素。标签是一对尖括号（）和两者之间的内容，包括元素名和所有属性。例如：是一个标签，也是一个标签：而Hello World则是一个元素。元素的内容可以包含子元素、字符数据、字符引用和实体引用、CDATA段。子元素本身也是元素，被嵌套在上层元素之内。子元素是相对于父元素而言的，如果子元素还嵌套了其它元素，那么它同时也是父元素。张三18 .在一个元素的内容中，字符数据可以是不包括任何标记的起始定界符和CDATA段的结束定界符的任意字符串，也就是说在元素的内容中，字符数据不能有和号(&)和小于号(,在CDATA段中，字符数据可以是不包括CDATA段的结束定界符的任意字符串。在字符数据中，不能有和号(&)和小于号()，因为未经处理的小于号()与和号(&)在XML文本中往往被解释为标记的起始定界符(例外的情况见下面要介绍的CDATA段).在XML中，提供了5个预定义的实休引用，分别引用XML文档中的5个特殊字符：小于号()、双引号()、单引号()、和号(&)。这5个特殊字符也可以通过字符引用的方式去引用.字符引用和预定义实体引用都是以一个和号(&)开始并以一个分号(;)结束.如果用的是宇符引用，需要在和号(&)之后加上一个井号(#)，之后是所需字符的十进制代码或十六进制代码（ISO/IEC 10646字符集中字符的编码）。如果用的是预定义实体引用，在和号(&)之后写上宇符的助记符.CDATA段中包含的都是纯字符数据，在字符数据可以出现的任何地方都可以使用CDATA段。CDATA段主要用于需要将整个文本解释为字符数据而不是标记的情况下。CDATA段中的内容不被XML处理器分析，所以可以在其中包含任意的字符。例如，在XML文档中，我需要包含Java代码，而Java代码中可能存在着小于号()、双引号()、单引号()、和号(&)这些特殊字符，这个时候，CDATA段就派上用场了。CDATA段以字符串结束注释：在XML文档中，注释可以出现在文档中其它标记之外的任何位置，另外，它们还可以在文档类型声明中语法(grammar)允许的地方出现。XML的注释和HTML的注释类似，都是以结束。位于之间的数据将被XML处理器忽略。如：。注释用于对文档中的内容起一个说明作用。使用注释时，要注意以下五点：1、注释不能出现在XML声明之前，XML声明必须是文档最前面的部分。下面的情况是不允许的： 2、注释不能出现在标记中，下面的例子是非法的 greetingHello, world! 3、注释可以包围和隐藏标记，但要注意的是，在注释掉标记之后，要保证剩余的文本仍然是一个结构完整的XML文档。例如：!-This is a greeting example-Hello,world!当我们将注释部分去掉的时候，文档结构仍然是完整的：Hello,world!4、字符串-(双连字符)不能在注释中出现。下面的例子是非法的。这意味着，我们在注释中书写程序代码的时候，不能出现类似于i-或-i这样的代码。5、在XML中，不允许注释以-结尾。下面的例子是非法的。处理指令：(Processing Instructions,简称PIs)允许文档中包含由应用程序来处理的指令。在XML文档中，有可能会包含一些非XML格式的数锯，这些数据XML处理器无法处理，我们就可以通过处理指令来通知其它应用程序来处理这些数据。处理指令PI）的语法和XML声明类似，以结束。一个常见的使用样式表单的处理指令如下所示：在开始标记?后的第一个字符串xml-stylesheet叫做处理指令的目标，它必须标识要用到的应用程序，要注意的是对于其它的非W3C定义的处理指令不能以字符串XML和xml开头；其余的部分是传递给应用程序的字符数据。应用程序从处理指令中取得目标和数据，执行要求的动作。处理指令的目标可以是要使用的程序的名字，或者是一个类似于xml-stylesheet这样的很多程序可以识别的通用标识符。不同的应用程序支持不同的处理指令，对于不认识的处理指令，大多数应用程序采取忽略的方式进行处理。xml-stylesheet处理指令总是放在XML声明之后，第一个元素之前。其它的处理指令可以放在除标记的内部和XML声明之前的任何位置。要注意，虽然XML声明和处理指令的语法形式相似，但XML声明并不是处理指令，XML处理程序对XML声明和处理指令采取的是不同的处理方式。空白处理：在XML规范中，空白包括空格、制表符和空行。XML处理器总是将文档中不是标记的所有字符都传递给应用程序，一个进行有效性验证的XML处理器会通知应用程序这些字符中的哪一些组成了出现在元素内容中的空白。在XML文档中，可以在元素中使用一个特殊的属性xml:space，来通知应用程序保留此元素中的空白。在有效的文档中这个属性和其它任何属性一样，在使用时必须声明。xml:space属性必须被声明为Enumerated（枚举）类型，它的值必须是default和preserve两者之一，也可以两个都取例如: default表示对此元素使用应用程序的缺省空白处理模式，preserve指示应用程序保留所有的空白。如果一个元素使用了xml:space属性，将适用于该元素内容中的所有元素，除非被另一个xml:space属性的实例所覆盖。行尾处理：XML数据经常以文本的方式保存在计算机文件中，以行来分隔。然而，不同的计算机系统采用的行分隔符是不同的。在XML空白字符中，有两个是标准的ASCII码行尾控制字符：回车(CR, #xA)和换行（LF, #xD)。Windows平台下，采用#xD#xA的组合作为行分隔符，而Linux, Unix系统则采用#xA作为行分隔符，在MacOS下，采用#xD作为行分隔符。为了简化应用程序的工作，XML处理器在解析前，要将所有的两字符序列#xD#xA,以及单独的#xD字符转换成单个的#xA字符。语言标识：在文档处理中，标识出其内容所使用的自然或人工语言常常是很有用的。可以在文档中插入一个特殊的属性xml:lang，来指出XML文档中任何元素的内容和属性的值所使用的语言。在有效的文档中，这个属性和其它任何属性一样，在使用时必须声明。xml:lang属性的值是在IETF RFC 3066 (Tags for the Identification of Languages)或它的后继版本中定义的语言标识符，另外，也可以为其指定空字符串。例如： This is English 床前明月光疑是地上霜举头望明月低头思故乡属性xml:lang所指定的语言适用于它所在元素的所有属性及元素的内容，除非被该元素内容中的另一个元素的xml:lang的实例所覆盖。我们可以为一个子元素的xml:lang属性赋一个空值，来覆盖其父元素上的xml:lang属性设置。在该子元素内，将没有可用的语言信息，就好像在它自身及其祖先元素（父元素、父元素的父元素等等）上没有指定xml:lang属性一样。xml:lang的一个简单声明可以采用如下形式： xml:lang NMTOKEN #IMPLIED不过，如果合适的话，也可以给出指定的缺省值。在一本供英国学生使用的法文诗歌集中，注解(gloss）和笔记(note使用英语，xml:lang属性可以声明如下：格式良好的XML：如果一个XML文档有且只有一个根元素，符合XML元素的嵌套规则，满足XML规范中定义的所有格式正确性的约束，并且在文档中直接或间接引用的每一个已分析实休都是格式正确的，我们称这个文档是一个格式良好(well-formed)的XML文档。为什么格式良好的XML是如此重要呢？主要是因为：1、可以创建没有DTD的XML文档，便于利用XML文档做数据的交换。2. XML的处理器可以做得很小很快，从而应用于手持设备，例如：PDA、手机等存储容量较小的设备中。DTD在XML文档中引入DTD：DTD（Document Type Definition），文档类型定义。在XML标准中，描述了如何创建DTD,以及如何将它与根据它的规则所编写的XML文档相关联，并且还定义了XML处理器应该如何对DTD进行处理。有了DTD就可以检测XML文档的结构是否正确。DTD为XML文档的编写者和处理者提供了共同遵循的原则，使得与文档相关的各种工作有了统一的标准。通过在XML文档中包含文档类型声明，来建立当前文档和DTD的关联。当进行有效性验证的XML处理器读到该指令时，它获取DTD.并根据其中定义的规则对文档进行检验。文档类型声明必须位于XML声明之后，且在根元素（文档元素）之前。不过，在XML声明和文档类型声明之间可以插入注释和处理指令。我们可以直接在XML文档中定义DTD,也可以通过URI引用外部的DTD文件，或者同时采用这两种方式。!DOCTYPE greeting 文档类型声明由结束。在DTD中，所有的关键宇都是大写的。不过，在DTD中定义的元素和属性的大小写是可以任意指定的，但是要注意，因为XML文档是大小写相关的，所以一旦给一个元素命名，那么在整个文档中要使用相同的大小写例如：greeting和Greeting是两个不同的元素名。在XML文档中定义DTD，比较直观，修改也比较方便，而且不用担心XML处理器找不到DTD，但是它也有一些缺点：(1)在文档中定义DTD会导致文档本身的长度增加，在传输数据时，即使不需要验证文档的有效性，这些声明也会随着文档一起传输；(2)如果多个XML文档要共用同一个DTD，我们就需要在每一个文档中加入DTD，这是相当繁琐的。在文档类型声明时，用关键字SYSTEM或PUBLIC来指出外部DTD文件的位置。使用SYSTEM关键字的声明语法如下： SYSTEM关键字表示文档使用的是私有的DTD文件，“外部DTD文件的URI可以是相对URI或者绝对URI.相对URI是相对于文档类型声明所在文档的位置。外部DTD文件的URI这部分也被称为系统标识符(system identifier).下面是使用一个外部DTT文件的例子：如果位于不同位置的多个XML文档要使用同一个DTD.我们可以使用绝对URI来指明DTD文件的地址。假定hello.dtd位于http:/www.sunxin.org/xml/dtds/hello.dtd.可以在文档类型声明中使用此URI:如果引用DTD的XML文档与DTD文件在同一个Web服务器上，我们也可以使用相对URL: 上面的三种形式都是允许的。使用PUBLIC关键字的声明语法如下: PUBLIC关键宇用于声明公共的DTD，并且这个DTD还有一个名称，DTD的名称”也称为公共标识符(public identifier).这个DTD可以存放在某个公共的地方，XML处理程序会根据名称按照某种方式去检索DTD,如果XML处理器不能根据名称检索到DTD,就会使用外部DTD文件的URI（系统标识符）来查找该DTD。DTD名称与XML名称略有不同，它们只能包含ASCII字母和数字字符、空格、回车符、换行符和一些标点符号:-()+,./:=?;!*#$_% 公共DTD名称要遵守一些约定。如果一项DTD是ISO标准，它的名称要以字符串ISO开始。如果是一个非ISO的标准组织批准的DTD，它的名称以加号(+)开始。如果不是标准组织批准的DTD.它的名称以连宇符(-)开始.这些开始字符或字符串后接双斜杠(/)和DTD所有者的名字，之后是另一个双斜杠和DTD描述的文档类型，接着又是一个双斜杠后接ISO 639语言标识符，如EN表示英语，ZH表示中文.在http:/www.ics.uci.edu/pub/ietf/http/related/iso639.txt处列有完整的ISO639标识符。例如我们定义的人力资源DTD可以采用下面的命名： -/xin sun/DTD HR 1.0/ZH连字符(-)表示这个DTD不是由任何标准组织批准的，为xin sun所有，描述的是人力资源管理，用中文编写。完整的文档类型声明如下: HTML网页的文档类型声明，如下: W3C公布的在Web文档中使用的有效的文档类型声明列表可以在上找到.注意：文档类型声明与文档类型定义不是一个概念，DTD是文档类型定义（Document Type Definition）的英文缩写。是文档类型声明，这种语法是文档类型定义。文档类型声明可以包含（内部DTD子集）或引用（外部DTD子集）一个文档类型定义，但文档类型定义从不包含文档类型声明.在前面我们提到，如果我们的文档不依赖于外部文档，在XML声明中，可以通过standalone=yes来声明这个文档是独立的文档。如果文档依赖于外部文档，可以通过standalone=no来声明。当我们使用外部DTD文件时，就需要将属性standalone的值设置为no。在实际应用中，很少使用standalone属性，它的主要用途是作为XML处理器和其它应用程序的标志，表示是否需要获取外部内容。如果文档依赖于外部文档，即使我们不使用standalone属性，XML处理器也能够很好地进行处理。DTD的结构: DTD的结构一般由元素类型声明、属性表声明、实体声明、记号(notation)声明等构成。一个典型的文档类型定义文件会把将来所要创建的XML文档的元素结构、属性类型、实体引用等预先进行定义。元素类型声明不但说明了每个文档中可能存在的元素，给出了元素的名称，而且给出了元素的具体类型。一个XML元素可以为空，也可以只包含字符数据，还可以有若干个子元素，而这些子元素同时又可以有它们的子元素。元素类型声明采用如下的语法格式：元素内容说明可以指明五种可能的元素内容形式：#PCDATA、子元素、混合内容、EMPTY和ANY.关键字#PCDATA说明元素包含字符数据。例子： !DOCTYPE hr 人力资源标准当一个元素只包含子元素，而没有字符数据时，则称此元素类型具有元素型内容（elementcontent）。在该类型的元素声明时，通过内容模型来指定在其内容上的约束。内容模型是决定子元素类型和子元素出现顺序的一种简单语法。利用括号、逗号、竖线、星号、加号、问号的组合，可以说明很复杂的内容模型。我们看下面的例子：这说明简历中要有名字，接下来是性别和年龄，电话和手机任选一个，可以填一个家庭住址或者不填，然后是零个或多个兴趣爱好，至少要有一个教育经历，最后是零个或多个工作经验。内容模型的规则虽然简单，但是可以产生灵活多样的结构。说明元素既可以包含字符数据，也可以包含子元素。混合内容必须被定义零个或多个。例子：!DOCTYPE employee 员工信息张三在使用混合内容模型时，#PCDATA关键字必须是模型中的第一个选项，不能在模型中使用逗号、问号和加号。用竖线分隔的#PCDATA和元素的列表是合法的，其它用法都是不合法的。关键字EMPTY表明该元素既不包含字符数据，也不包含子元素，是一个空元素。如果在文档中元素本身已经表示了明确的含义，就可以在DTD中用关键字EMPTY来声明空元素。例如：表明br是一个没有内容的空元素。关键宇ANY表明该元素可以包含任何的字符数据和子元素，只要它们不违反XML格式良好的约束就可以了。例如: 表明employee可以包含任何形式的内容。在实际使用时，应该尽量避免使用ANY，一个定义明确的DTD,有助于我们理清文档的结构，更好地理解文档。实体声明：有两种类型的实体：一般实体(general entity)和参数实体（parameter entity）。一般实体是在文档内容中使用的实体，而参数实体则是在DTD中使用的已分析实体。不管是一般实体，还是参数实体都是用ENTITY关键字来声明。一般实体的声明语法如下：引用实体的方式为：&实体名;.参数实体只能在DTD中使用，它的声明语法如下: 注意在声明时，ENTITY、%和实体名之间各有一个空格。引用实体的方式为：%实体名;。在内部DTD子集中，参数实体引用不能在标记声明内部出现，可以在标记声明允许出现的地方出现。对于外部DTD子集，则没有这个限制。在DTD中，所有的参数实体必须在引用之前进行声明。这意味着内部DTD子集不能引用在外部DTD中声明的参敌实体，这是因为XML处理器将首先读取内部子集，也就是说，内部子集中的实体和属性表声明的优先级要比在外部子集中的高。内部实体在XML文档内部定义，实体的内容在声明中给出。内部实体都是已分析的实体，它们没有单独的物理存储对象。外部实体在单独的(外部)文件中定义，外部实体可以是已分析实体，也可以是未分析实体。外部一般实体的声明形式如下：关键字SYSTEM表明这是一个私有的外部一般实体，后口的URI称为该实体的系统标识符，用于给出外部文件的位置。copyright.xml文件的内容为： 2004,程序员之家,ALL Rights Reserved称为文本声明。文本声明类似于XML声明，不过文本声明没有standalone属性，并且version属性也是可选的。外部已分析实体可以使用不同于UTF-8的编码，使用文本声明来指明实体内容的编码方式。每个外部已分析实体都应该以文本声明开始，文本声明只能在外部已分析实体的开头出现，不能出现在其它任何位置。在外部已分析实体中的文本声明不会作为替换文本的一部分而出现。也可以使用PUBLIC关键字来声明公共的外部一般实体，其声明形式和使用了关键字PUBLIC的外部DTD声明类似。如下:!ENTITY open-hatch PUBLIC -/Textuality/TEXT Standard open-hatch boilerplate/EN -/Textuality/TEXT Standard open-hatch boilerplate/EN称为该实体的公共标识符，后面的URI部分为该实体的系统标识符。下面的例子声明了一个外部一般未分析实体. !ENTITY hatch-pic SYSTEM ./grafix/OpenHatch gif NDATA gif与一般实体类似，参数实体的替换文本也可以位于外部文件中，其声明形式和一般实体类似。属性表声明：属性用于将名字-值对与元素进行关联。属性说明只能在开始标签和空元素标签中出现。属性表声明详细说明了与给定元素类型相关联的每一个属性的名字，数据类型和缺省值(如果有的话)。属性表声明的语法如下:元素名是属性所属的元素的名字，属性名是属性的命名，属性类型则用来指定该属性是属于哪种类型，共有十种类型，缺省声明用于说明在元素中该属性是否必须出现，如果不是必须出现，那么当该属性没有出现时，XML处理器应该如何处理。缺省声明可以有四种缺省设置，#REQUIRED、#IMPLIED、#FIXED缺省值、只有缺省值。 #REQUIRED 关键字REQUIRED说明必须为元素提供该属性。 #IMPLIED 关键字IMPLIED说明元素可以包含该属性，也可以不包含该属性。 #FIXED+缺省值关键字FIXED缺省值，说明一个固定的属性缺省值，文档的编写者不能修改该属性的值。如果元素中不包含这个属性，XML处理器将以声明的缺省值向应用程序报告该属性。只有缺省值与FIXED缺省值一样，如果元素不包含该属性，XML处理器将以声明的缺省值向应用程序报告该属性。不同的是，这种声明方式属性的值是可以改变的。在属性表声明时，总共有十种属性类型可以选择，分别是：CDATA, Enumerated、ID、IDREF、IDREFS、ENTITY、ENTITIES、NMTOKEN、NMTOKENS、NOTATION。CDATA这是最常用的一种属性类型，表明属性值为字符数据，与元素内容说明中的#PCDATA相同。如果属性值需要出现小于号()和双引号()，可以通过预预定义实体引用或字符引用的方式插入小于号和双引号。如果包含的和号(&)不是字符或实体引用的起始定界符，也必须使用预定义实体引用或者字符引用的方式插入。Enumerated在声明属性时，可以限制属性的取值只能从一个列表中选择，这类属性属于枚举类型。枚举类型的属性有时候是很有用的，例如：person元素有一个sex属性，我们希望这个属性的取值只能是male或female,在声明属性时，将这两个值放到圆括号中，井用竖线(|)分隔，如下所示：列表中的可选属性值,不用加双引号()或单引号(),但是在给属性赋值时，需要带上双引号或单引号另外要注意的是，在给属性赋值时，不仅必须使用枚举类型声明中的可选值而且还要注意属性值的大小写，Male, MALE, Female, FEMALE等都是无效的。ID、IDREF、IDREFS一个ID类型的属性值唯一标识XML文档中的一个元素。一个ID类型的属性值必须遵守XML名称定义的规则，以字母、下划线或冒号开头，名称中可以包含字母、数字、下划线以及其它在XML标准中允许的字符，名称中不能带有空格。一个元素只能有一个ID类型的属性，ID类型的属性必须设置为#IMPLIED或者#REQUIRED,因为ID类型属性的每一个取值都是用来标识一个特定的元素，为ID类型的属性提供缺省值，特别是固定的缺省值是毫无意义的。!DOCTYPE company 张三李四IDREF类型的属性值为同一文档中另一个元素的ID类型的属性值，而这另一个元素的ID类型的属性值必须是已经存在的。利用ID和IDREF这两种类型的属性，我们可以在两个对象之间建立一种关联关系。!DOCTYPE company 张三李四!DOCTYPE company 张三李四王五如果一个属性需要引用文档中多个ID类型的属性值，那么可以把它声明为具有IDREFS类型。IDREFS类型的属性值是一系列以空格分隔的ID类型的属性值，而且必须与文档中已有的ID类型属性值相匹配。!DOCTYPE library XML详解Servlet从入门到精通JSP实例编程2004-03-142004-05-08ENTITY、ENTITIES ENTITY类型的属性把外部的二进制数据链接到文档，ENTITY类型的属性值是在DTD中声明的未分析的一般实体的名称。例如，我想在文档中包含一幅外部的图像，可以声明一个ENTITY类型的属性来引入图像，如下： !ATTLIST image src ENTITY #

展开阅读全文

XML编程开发教程

最新文档