文章目录
  1. 1. 第一类字符
  2. 2. 第二类字符
    1. 2.1. 1、字符引用
    2. 2.2. 2、实体引用

springboot启动扫描html模板的时候爆出错误:

在实体引用中,实体名称必须紧跟在'&'后面

查找资料之后发现是解析XML/HTML时对某些特殊字符需要进行转义,否则就认为是非法字符。本文就这个问题进行一下总结。

xml中需要过滤的字符分为两类:

一类是不允许出现在xml中的字符,这些字符不在xml的定义范围之内。

另一类是xml自身要使用的字符,如果内容中有这些字符则需被替换成别的字符。

第一类字符

对于第一类字符,我们可以通过W3C的XML文档来查看都有哪些字符不被允许出现在xml文档中。
XML允许的字符范围是“#x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]”。因此我们可以把这个范围之外的字符过滤掉。
需要过滤的字符的范围为:

0x00-0x08
0x0b-0x0c
0x0e-0x1f

第二类字符

对于第二类字符一共有5个,如下:

字符                HTML字符        字符编码
和(and) &        &            &
单引号  ’ '            '
双引号  ”          "            "
大于号  >        >                  >
小于号  <        &lt;                   &#60;

我们只需要对这个五个字符,进行相应的替换就可以了


与HTML一样,XML为显示非ASCII码字符集中的字符提供了两种方法:字符引用和实体引用。

1、字符引用

在XML中,字符引用是一个字符文字形式的替代品,当对该字符的文字形式直接处理会导致违反XML队格式正规的要求时,它会起到非常重要的作用。

字符引用用来表示一个可显示的字符,它由十进制或十六进制的数字前面加上“&#”或“&#x”,后面紧跟分号“;”组成:

&#NNNNNN;   &#xXXXX;

上面的字符串“NNNNNN”和“XXXX”可能是一个或多个数字,它们对应着任何XML允许的统一代码字符值。虽然在HTML中十进制数字更加通用,但XML还是偏向于使用十六进制的兴致,因为统一代码就是用十六进制进行编码。

例如,&#169或&#x169(在浏览器中)会被显示为(c),而&#174或&#xAD会被显示为(R)。

2、实体引用

实体引用允许在元素内容或属性值中插入任何字符串,这就是字符引用提供了一种助记的替代方式。

实体引用是一种合法的XML名字,前面带有一个符号“&”,后面跟着一个分号“;”如 &name;

有五个实体被定义为XML的固有部分,他们通常用作XML标记分隔符号的转义序列:

&amp;   通常用来替换字符&(CDATA部分除外)

&lt;   通常用来替换字符大于号<(CDATA区除外)

&gt;   可能用来替换字符大于号>(在CDATA部分中,如果>紧跟着字符串“]]”就必须使用该实体)

&apos;   可用来替换字符串中的单引号'

&quot;   可用来替换字符串中的字符双引号"

除了上述的五个实体外,所有实体都必须在文档使用前予以定义(好像Java中的全局变量一样)。实体在文档的DTD中定义,DTD可以是一个被称为“外部子集”的文档外的独立对象;也可以是一个在文档本身中使用<!DOCTYPE…>声明的“内部子集”。如果XML解析器发现一个未定义的实体引用,就会按照XML规范定义的那样报告一个致命错误。

例如:AT&amp;T在支持XML的浏览器中会显示为AT&T。

实体引用还可以用作普通的文本宏(样本文件)。例如下面的文本包含了一对实体引用:

NOTE: &Disclaimer;   [per &WORX;]

当引用被替换成他们所代表的值时,它可能显示为:

NOTE:This information is not to be used for navigation!

当然,此时我们假设这些实体已经经过定义。

如果实体的替换文本在声明时包含另一个实体引用,该引用会顺序扩展开,直到所有嵌套的引用全部解析完毕。但是,嵌套的“名称”不能够包含对自己的递归引用,不管是直接的还是间接的。

XML CDATA

所有 XML 文档中的文本均会被解析器解析。
只有 CDATA 区段(CDATA section)中的文本会被解析器忽略。
PCDATA
PCDATA 指的是被解析的字符数据(Parsed Character Data)。
XML 解析器通常会解析 XML 文档中所有的文本。
当某个 XML 元素被解析时,其标签之间的文本也会被解析:
<message>此文本也会被解析</message>
解析器之所以这么做是因为 XML 元素可包含其他元素,就像这个例子中,其中的 <name> 元素包含着另外的两个元素(first 和 last):
<name><first>Bill</first><last>Gates</last></name>
而解析器会把它分解为像这样的子元素:
<name> <first>Bill</first> <last>Gates</last></name>转义字符
非法的 XML 字符必须被替换为实体引用(entity reference)。
假如您在 XML 文档中放置了一个类似 "<" 字符,那么这个文档会产生一个错误,这是因为解析器会把它解释为新元素的开始。因此你不能这样写:
<message>if salary < 1000 then</message>

为了避免此类错误,需要把字符 “<” 替换为实体引用,就像这样:

if salary < 1000 then在 XML 中有 5 个预定义的实体引用:<<小于>>大于&&和号'’省略号"”引号
注释:严格地讲,在 XML 中仅有字符 “<”和”&” 是非法的。省略号、引号和大于号是合法的,但是把它们替换为实体引用是个好的习惯。
CDATA
术语 CDATA 指的是不应由 XML 解析器进行解析的文本数据(Unparsed Character Data)。
在 XML 元素中,”<” 和 “&” 是非法的。
“<” 会产生错误,因为解析器会把该字符解释为新元素的开始。
“&” 也会产生错误,因为解析器会把该字符解释为字符实体的开始。
某些文本,比如 JavaScript 代码,包含大量 “<” 或 “&” 字符。为了避免错误,可以将脚本代码定义为 CDATA。
CDATA 部分中的所有内容都会被解析器忽略。
CDATA 部分由 “<![CDATA[“ 开始,由 “]]>” 结束:


在上面的例子中,解析器会忽略 CDATA 部分中的所有内容。
关于 CDATA 部分的注释:
CDATA 部分不能包含字符串 “]]>”。也不允许嵌套的 CDATA 部分。
标记 CDATA 部分结尾的 “]]>” 不能包含空格或折行。

文章目录
  1. 1. 第一类字符
  2. 2. 第二类字符
    1. 2.1. 1、字符引用
    2. 2.2. 2、实体引用
Fork me on GitHub