欢迎进入北大青鸟(广州网耀)全国IT职业教育示范中心

学历不是敲门砖,技术才是硬道理

咨询热线:4006-1122-06

广州北大青鸟Java处理带BOM的文本

发布时间: 2016-01-19 10:44:58   作者:广州网耀   来源: 本站原创   浏览次数:

摘要: BOM(byte-order mark),即字节顺序标记,它是插入到以UTF-8、UTF16或UTF-32编码Unicode文件开头的特殊标记,用来识别Unicode...
  一、什么是BOM
 
  BOM(byte-order mark),即字节顺序标记,它是插入到以UTF-8、UTF16或UTF-32编码Unicode文件开头的特殊标记,用来识别Unicode文件的编码类型。对于UTF-8来说,BOM并不是必须的,因为BOM用来标记多字节编码文件的编码类型和字节顺序(big-endian或little-endian)。
 
  在绝大多数编辑器中都看不到BOM字符,因为它们能理解Unicode,去掉了读取器看不到的题头信息。若要查看某个Unicode文件是否以BOM开头,可以使用十六进制编辑器。下表列出了不同编码所对应的BOM.
 
  BOM Encoding
 
  EF BB BF  UTF-8
 
  FE FF  UTF-16 (big-endian)
 
  FF FE  UTF-16 (little-endian)
 
  00 00 FE FF  UTF-32 (big-endian)
 
  FF FE 00 00  UTF-32 (little-endian)
 
  二、BOM的来历
 
  为了识别 Unicode 文件,Microsoft 建议所有的 Unicode 文件应该以 ZERO WIDTH NOBREAK SPACE(U+FEFF)字符开头。这作为一个"特征符"或"字节顺序标记(byte-order mark,BOM)"来识别文件中使用的编码和字节顺序。
 
  不同的系统对BOM的支持
 
  因为一些系统或程序不支持BOM,因此带有BOM的Unicode文件有时会带来一些问题。
 
  1. JDK1.5以及之前的Reader都不能处理带有BOM的UTF-8编码的文件,解析这种格式的xml文件时,会抛出异常:Content is not allowed in prolog.
 
  2. Linux/UNIX 并没有使用 BOM,因为它会破坏现有的 ASCII 文件的语法约定。
 
  不同的编辑工具对BOM的处理也各不相同。使用Windows自带的记事本将文件保存为UTF-8编码的时候,记事本会自动在文件开头插入BOM(虽然BOM对UTF-8来说并不是必须的),但是editplus就不会这样做。
 
  说起BOM,这个问题还比较麻烦,因为BOM不可见,但用程序做不同编码文本处理时候却常常需要考虑到BOM的问题。在此之前,先对BOM做个简单认识。
 
  先看看带BOM的文件:
 
  源文件:
 
  
 
  
 
  

 

 
  0100
 
  634119501312903750
 
  0
 
  
 
  
 
  999
 
  未知错误
 
  
 
  
 
  16进制打开:
 
  下面举个例子,针对UTF-8的文件BOM做个处理:
 
  String xmla = StringFileToolkit.file2String(new File("D:\\projects\\mailpost\\src\\a.xml"),"UTF-8");
 
  byte[] b = xmla.getBytes("UTF-8");
 
  String xml = new String(b,3,b.length-3,"UTF-8");
 
  Document doc1 = DocumentHelper.parseText(xml);
 
  Element e1 = (Element)doc1.selectSingleNode("/ResponseData/Body/RetDesc");
 
  Element e2 = (Element)doc1.selectSingleNode("/ResponseData/Head/RespID");
 
  Element e3 = (Element)doc1.selectSingleNode("/ResponseData/Body/RetCode");
 
  Element e4 = (Element)doc1.selectSingleNode("/ResponseData/Body/RetDesc");
 
  思路是:
 
  先按照UTF-8编码读取文件后,跳过前三个字符,重新构建一个新的字符串,然后用Dom4j解析处理,这样就不会报错了。
 
  其他编码的方式处理思路类似,其实可以写一个通用的自动识别的BOM的工具,去掉BOM信息,返回字符串。
 
 
 
  BOM与XML
 
  XML解析读取XML文档时,W3C定义了3条规则:
 
  1. 如果文档中有BOM,就定义了文件编码;
 
  2. 如果文档中没有BOM,就查看XML声明中的编码属性;
 
  3. 如果上述两者都没有,就假定XML文档采用UTF-8编码。
 
  想了解更多关于Java培训课程和技巧,请关注我们北大青鸟广州天河网耀车陂校区,扫下方二维码,关注微信公众号即可领取到滴滴出行价值百元出行礼包及北大青鸟价值198元课程体验卡、价值298元个人职业发展规划卡。
分享到:
我来说两句
评论内容:
验  证  码:
 
(网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。)
评论列表
已有 0 条评论(查看更多评论)