如何处理XML中的特殊字符

最编程 2024-02-10 18:41:13

...

遇到这一方面的问题是因为我试图把一个对象序列化之后存贮到xml文件中，然后从xml文件中读取字符串，并反序列化对象（hadoop mapreduce程序中通过JobConf向tasktracker传送对象）。

有关序列化：

当我把序列化之后的数据直接存在xml中后，在解析xml时遇到解析错误，原因是有非法字符。在详细阅读xml的说明之后才发现：< > ' " &是不允许作为xml的PCDATA的。要使用这几个字符，必须要把他们替换为内建实体：

实体引用字符

< <
> >
& &
" "
' '

所以，最直接的方法就是自己控制，在写入xml文件时把特殊字符转为实体引用，在读取的时候，再转回来。当然还有另外一个方法就是不把字符串当PCDATA，而是当成CDATA来使用（没有测试）。

用实体引用的方法太麻烦，而我的应用xml的格式不能自己规定，所以只好寻找另外的方法：BASE64编码。这是一种常用在网络传输数据的编码方式。把存在这些非法字符的字符编码成base64编码，就不会有这些字符了。最重要的是java api中提供了这种编码的编码器和解码器，位于sun.misc的BASE64Encoder和BASE64Decoder。这样就可以把序列化之后得到的字节流转化成字符串了。并且也可以存贮在xml文件中。

不过这两个类并不是sun的开放api，编译会有警告。

上一篇：深入理解Spring：揭秘组合注解的内部工作机制

下一篇：新研究被IEEE S&P采纳：结合程序剖析与Fuzz技术的Java反序列化安全漏洞探索方法

如何处理XML中的特殊字符

如何处理企业计算机服务器中的锁定勒索病毒，锁定勒索病毒解密流程建议

处理文件中的 "M-BM-"特殊符号

如何使用 Kotlin 连接处理 Android 中的多个 API 调用

Excel 公式使用技巧 06：如何处理 COUNTIFS 函数中以数组形式提供的条件

问如何使 ABAP 将"_"理解为 BODS 全局变量值中的特殊字符？

在单元测试中如何正确的处理第三方依赖

如何处理 C++ 开发中的数据验证问题

如何用 r 语言表示字符串中的空格

如何使用 php 搜索字符串中的特定字符

如何处理XML中的特殊字符

如何处理企业计算机服务器中的锁定勒索病毒，锁定勒索病毒解密流程建议

处理文件中的 "M-BM-"特殊符号

如何使用 Kotlin 连接处理 Android 中的多个 API 调用

Excel 公式使用技巧 06：如何处理 COUNTIFS 函数中以数组形式提供的条件

问 如何使 ABAP 将"_"理解为 BODS 全局变量值中的特殊字符？

在单元测试中如何正确的处理第三方依赖

如何处理 C++ 开发中的数据验证问题

如何用 r 语言表示字符串中的空格

如何使用 php 搜索字符串中的特定字符

问如何使 ABAP 将"_"理解为 BODS 全局变量值中的特殊字符？