博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
浅谈 Java XML 底层解析方式
阅读量:4687 次
发布时间:2019-06-09

本文共 13164 字,大约阅读时间需要 43 分钟。

   XML 使用DTD(document type definition)文档类型来标记数据和定义数据,格式统一且跨平台和语言,已成为业界公认的标准。

   目前 XML 描述数据龙头老大的地位渐渐受到 Json 威胁。经手项目中,模块/系统之间交互数据方式有 XML 也有 Json,说不上孰好孰坏。

   XML 规整/有业界标准/很容易和其他外部的系统进行交互,Json 简单/灵活/占带宽比小。

   仁者见仁智者见智,项目推进中描述数据方式需要根据具体场景拿捏。

   这篇博客主要描述目前 Java 中比较主流的 XML 解析底层方式,给需要这方面项目实践的同学一些参考。

   Demo 项目 git 地址:

 

   Sax/Satx/Dom 由国外开源社区或组织贡献,Sun 重新组织起名 JAXP 自JDK 1.6 起陆续将他们添加进去。

   Xmlpull在 JDK 中没有看到它的身影,如果需要使用它,你需要添加额外的类库。

   Jdom/Dom4j/Xstream... 是基于这些底层解析方式重新组织封装的开源类库,提供简洁的 API,有机会再写一篇博客描述。

   Dom4j 是基于 JAXP 解析方式,性能优异、功能强大、极易使用的优秀开源类库。

   Jdom 如果你细看内部代码,其实也是基于 JAXP 但具体包结构被重新组织, API 大量使用了 Collections 类,在性能上被 dm4j 压了好几个档次。

   实例 Demo 中需要解析的 xml 文件如下,中规中矩不简单,也不复杂,示例业务场景都能将节点的值解析出来,组成业务实体对象。

320170105000009363
0301
018574
030101
齐天
9
2008-11-07
030102
张惠
10
2009-04-08
030103
龙五
9
2008-11-01
420170105000007363
0302
018577
030201
马宝
10
2009-09-02
Demo.xml

1. 基于树或基于对象模型

   官方 W3C 标准,以层次结构组织的节点或信息片断的集合。允许在树中寻找特定信息,分析该结构通常需要加载整个文档和构造层次结构。

   最早的一种解析模型,加载整个文档意味着在大文件 XMl 会遇到性能瓶颈。

   Dom 解析代码示例:

DocumentBuilderFactory dbFactory = DocumentBuilderFactory.newInstance();//得到Dom解析器的工厂实例        DocumentBuilder dbBuilder = dbFactory.newDocumentBuilder();//从Dom工厂中获得Dom解析器        Document doc = dbBuilder.parse(Thread.currentThread().getContextClassLoader().getResource("demo.xml").getPath());        NodeList nList = doc.getElementsByTagName("studentGridlb");        List
studentGridlbList = new ArrayList<>(); for (int i = 0; i < nList.getLength(); i++) { StudentGridlb studentGridlb = new StudentGridlb(); NodeList childNodes = nList.item(i).getChildNodes(); for (int k = 0; k < childNodes.getLength(); k++) { if (childNodes.item(k) instanceof Element) { Element element = (Element) childNodes.item(k); if ("stu_id".equals(element.getNodeName())) { studentGridlb.setStu_id(element.getTextContent()); } if ("stu_name".equals(element.getNodeName())) { studentGridlb.setStu_name(element.getTextContent()); } if ("stu_age".equals(element.getNodeName())) { studentGridlb.setStu_age(Integer.parseInt(element.getTextContent())); } if ("stu_birthday".equals(element.getNodeName())) { DateFormat format = new SimpleDateFormat("yyyy-MM-dd"); studentGridlb.setStu_birthday(format.parse(element.getTextContent())); } } } studentGridlbList.add(studentGridlb); }

   Dom 解析方式有个最大的优点可以在任何时候在树中上下导航,获取和操作任意部分的数据。

2. 流事件分析中推模型

   靠事件驱动的模型,当它每发现一个节点就引发一个事件,需要编写这些事件的处理程序。

   这样的做法很麻烦,而且不灵活,主流的分析方式有 Xmlpull和 JAXP 中的 Sax。

   Xmlpulldemo (引入 xmlpull.jar  xpp3_min.jar]):

XmlPullParserFactory pullParserFactory = XmlPullParserFactory.newInstance();        XmlPullParser pullParser = pullParserFactory.newPullParser();//获取XmlPullParser的实例        pullParser.setInput(Thread.currentThread().getContextClassLoader().getResourceAsStream("demo.xml"), "UTF-8");        int event = pullParser.getEventType();        List
studentGridlbList = new ArrayList<>(); StudentGridlb studentGridlb = new StudentGridlb(); while (event != XmlPullParser.END_DOCUMENT) { String nodeName = pullParser.getName(); switch (event) { case XmlPullParser.START_DOCUMENT: System.out.println("Xmlpull解析 xml 开始:"); break; case XmlPullParser.START_TAG: if ("stu_id".equals(nodeName)) { studentGridlb.setStu_id(pullParser.nextText()); } if ("stu_name".equals(nodeName)) { studentGridlb.setStu_name(pullParser.nextText()); } if ("stu_age".equals(nodeName)) { studentGridlb.setStu_age(Integer.parseInt(pullParser.nextText())); } if ("stu_birthday".equals(nodeName)) { DateFormat format = new SimpleDateFormat("yyyy-MM-dd"); studentGridlb.setStu_birthday(format.parse(pullParser.nextText())); } break; case XmlPullParser.END_TAG: if ("studentGridlb".equals(nodeName)) { studentGridlbList.add(studentGridlb); studentGridlb = new StudentGridlb(); } break; } event = pullParser.next(); }

   Xmlpull为接口层,xpp3_min 为实现层,其实可以引入另外自带接口层 xpp3 版本。

xmlpull
xmlpull
1.1.3.1
xpp3
xpp3_min
1.1.4c

   Sax demo:

SaxParserFactory SaxParserFactory = SaxParserFactory.newInstance(); //获取Sax分析器的工厂实例,专门负责创建SaxParser分析器        SaxParser SaxParser = SaxParserFactory.newSaxParser();        InputStream inputStream = new FileInputStream(new File(Thread.currentThread().getContextClassLoader().getResource("demo.xml").getPath()));        SaxHandler xmlSaxHandler = new SaxHandler();        SaxParser.parse(inputStream, xmlSaxHandler);

   Sax 解析时还需要单独编写时间响应 Handler ,和集合排序时实现的Comparator 类似。 

public class SAXHandler extends DefaultHandler {    private List
studentGridlbList = null; private StudentGridlb studentGridlb = null; private String tagName; @Override public void startDocument() throws SAXException { System.out.println("---->startDocument() is invoked..."); studentGridlbList = new ArrayList<>(); } @Override public void endDocument() throws SAXException { System.out.println("---->endDocument() is invoked..."); } @Override public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException { System.out.println("-------->startElement() is invoked...,qName:" + qName); if ("studentGridlb".equals(qName)) { this.studentGridlb = new StudentGridlb(); } this.tagName = qName; } @Override public void endElement(String uri, String localName, String qName) throws SAXException { System.out.println("-------->endElement() is invoked..."); if (qName.equals("studentGridlb")) { this.studentGridlbList.add(this.studentGridlb); } this.tagName = null; } @Override public void characters(char[] ch, int start, int length) throws SAXException { System.out.println("------------>characters() is invoked..."); if (this.tagName != null) { String contentText = new String(ch, start, length); if (this.tagName.equals("stu_id")) { this.studentGridlb.setStu_id(contentText); } if (this.tagName.equals("stu_name")) { this.studentGridlb.setStu_name(contentText); } if (this.tagName.equals("stu_age")) { this.studentGridlb.setStu_age(Integer.parseInt(contentText)); } if (this.tagName.equals("stu_birthday")) { DateFormat format = new SimpleDateFormat("yyyy-MM-dd"); try { this.studentGridlb.setStu_birthday(format.parse(contentText)); } catch (ParseException e) { e.printStackTrace(); } } } } public List
getStudentGridlbList() { return studentGridlbList; } public void setStudentGridlbList(List
studentGridlbList) { this.studentGridlbList = studentGridlbList; }}
SaxHandler

   推模式不需要等待所有数据都被处理,分析就能立即开始;

   只在读取数据时检查数据,不需要保存在内存中;

   可以在某个条件得到满足时停止解析,不必解析整个文档;

   效率和性能较高,能解析大于系统内存的文档;

   当然缺点也很突出例如需要自己负责TAG的处理逻辑(例如维护父/子关系等),使用麻烦;

   单向导航,很难同时访问同一文档的不同部分数据,不支持 XPath;

3. 流事件分析中的拉模型

  在遍历文档时,把感兴趣的部分从读取器中拉出,不需要引发事件,允许我们选择性地处理节点;

  大大提高了灵活性,以及整体效率,拉模式中比较常见 stax,stax 提供了两套 API 共使用。

  stax demo(基于光标的方式解析XML):

InputStream stream = new FileInputStream(Thread.currentThread().getContextClassLoader().getResource("demo.xml").getPath());        XMLInputFactory factory = XMLInputFactory.newInstance();        XMLStreamReader parser = factory.createXMLStreamReader(stream);        List
studentGridlbList = new ArrayList<>(); StudentGridlb studentGridlb = null; while (parser.hasNext()) { int event = parser.next(); if (event == XMLStreamConstants.START_DOCUMENT) { System.out.println("stax 解析xml 开始....."); } if (event == XMLStreamConstants.START_ELEMENT) { if (parser.getLocalName().equals("stu_id")) { studentGridlb = new StudentGridlb(); studentGridlb.setStu_id(parser.getElementText()); } else if (parser.getLocalName().equals("stu_name")) { studentGridlb.setStu_name(parser.getElementText()); } else if (parser.getLocalName().equals("stu_age")) { studentGridlb.setStu_age(Integer.parseInt(parser.getElementText())); } else if (parser.getLocalName().equals("stu_birthday")) { DateFormat format = new SimpleDateFormat("yyyy-MM-dd"); studentGridlb.setStu_birthday(format.parse(parser.getElementText())); } } if (event == XMLStreamConstants.END_ELEMENT) { if (parser.getLocalName().equals("studentGridlb")) { studentGridlbList.add(studentGridlb); } } if (event == XMLStreamConstants.END_DOCUMENT) { System.out.println("stax 解析xml 结束....."); } } parser.close();

  stax demo(基于迭代方式解析XML):

XMLInputFactory xmlInputFactory = XMLInputFactory.newInstance();        XMLEventReader xmlEventReader = xmlInputFactory.createXMLEventReader(Thread.currentThread().getContextClassLoader().getResourceAsStream("demo.xml"));        List
studentGridlbList = new ArrayList<>(); StudentGridlb studentGridlb = null; while (xmlEventReader.hasNext()) { XMLEvent event = xmlEventReader.nextEvent(); if (event.isStartElement()) { String name = event.asStartElement().getName().toString(); if (name.equals("stu_id")) { studentGridlb = new StudentGridlb(); studentGridlb.setStu_id(xmlEventReader.getElementText()); } else if (name.equals("stu_name")) { studentGridlb.setStu_name(xmlEventReader.getElementText()); } else if (name.equals("stu_age")) { studentGridlb.setStu_age(Integer.parseInt(xmlEventReader.getElementText())); } else if (name.equals("stu_birthday")) { DateFormat format = new SimpleDateFormat("yyyy-MM-dd"); studentGridlb.setStu_birthday(format.parse(xmlEventReader.getElementText())); } } if (event.isEndElement()) { String name = event.asEndElement().getName().toString(); if (name.equals("studentGridlb")) { studentGridlbList.add(studentGridlb); } } } xmlEventReader.close();

   基于指针的 stax API,这种方式尽管效率高,但没有提供 XML 结构的抽象,因此是一种低层 API。

   stax 基于迭代器的 API 是一种面向对象的方式,这也是它与基于指针的 API 的最大区别。

   基于迭代器的 API 只需要确定解析事件的类型,然后利用其方法获得属于该事件对象的信息。

   通过将事件转变为对象,让应用程序可以用面向对象的方式处理,有利于模块化和不同组件之间的代码重用。

   Ok,这篇博客对 java 底层解析 xml 方式做了点总结。其实在实际项目中,上述几种方式解析 xml 编写起来都很费事。

   都会引入封装起来的稳定开源库,如 Dom4j/Jdom/Xstream.....,这些类库屏蔽了底层复杂的部分,呈现给我们简洁明了的 API;

   但如果公司业务复杂程度已经远远超出了开源类库的提供的范畴,不妨自己依赖底层解析技术自己造轮子。

 

转载于:https://www.cnblogs.com/java-class/p/6857863.html

你可能感兴趣的文章
我的第一篇博客
查看>>
大数据学习线路整理
查看>>
【C++算法与数据结构学习笔记------单链表实现多项式】
查看>>
关于ProjectServer定制化项目中心页面
查看>>
使用Collectd + InfluxDB + Grafana进行JMX监控
查看>>
Linux下tar,zip命令详解
查看>>
C#垃圾回收机制
查看>>
31、任务三十一——表单联动
查看>>
python之hasattr、getattr和setattr函数
查看>>
maven使用阿里镜像配置文件
查看>>
Copy code from eclipse to word, save syntax.
查看>>
arguments.callee的作用及替换方案
查看>>
23 Java学习之RandomAccessFile
查看>>
P2709 小B的询问
查看>>
润乾报表 动态控制文本的显示
查看>>
[oracle] 如何使用myBatis在数据库中插入数据并返回主键
查看>>
PHP echo 和 print 语句
查看>>
第一讲 一个简单的Qt程序分析
查看>>
Centos 6.5下的OPENJDK卸载和SUN的JDK安装、环境变量配置
查看>>
poj 1979 Red and Black(dfs)
查看>>