07.1. XML 处理

未匹配的标注

XML 作为一种数据交换和信息传递的格式已经十分普及。而随着 Web 服务日益广泛的应用,现在 XML 在日常的开发工作中也扮演了愈发重要的角色。这一小节, 我们将就 Go 语言标准包中的 XML 相关处理的包进行介绍。

这个小节不会涉及 XML 规范相关的内容(如需了解相关知识请参考其他文献),而是介绍如何用 Go 语言来编解码 XML 文件相关的知识。

假如你是一名运维人员,你为你所管理的所有服务器生成了如下内容的 xml 的配置文件:


<?xml version="1.0" encoding="utf-8"?>
<servers version="1">
    <server>
        <serverName>Shanghai_VPN</serverName>
        <serverIP>127.0.0.1</serverIP>
    </server>
    <server>
        <serverName>Beijing_VPN</serverName>
        <serverIP>127.0.0.2</serverIP>
    </server>
</servers>

上面的 XML 文档描述了两个服务器的信息,包含了服务器名和服务器的 IP 信息,接下来的 Go 例子以此 XML 描述的信息进行操作。

解析 XML

如何解析如上这个 XML 文件呢? 我们可以通过 xml 包的 Unmarshal 函数来达到我们的目的


func Unmarshal(data []byte, v interface{}) error

data 接收的是 XML 数据流,v 是需要输出的结构,定义为 interface,也就是可以把 XML 转换为任意的格式。我们这里主要介绍 struct 的转换,因为 struct 和 XML 都有类似树结构的特征。

示例代码如下:


package main

import (
    "encoding/xml"
    "fmt"
    "io/ioutil"
    "os"
)

type Recurlyservers struct {
    XMLName     xml.Name `xml:"servers"`
    Version     string   `xml:"version,attr"`
    Svs         []server `xml:"server"`
    Description string   `xml:",innerxml"`
}

type server struct {
    XMLName    xml.Name `xml:"server"`
    ServerName string   `xml:"serverName"`
    ServerIP   string   `xml:"serverIP"`
}

func main() {
    file, err := os.Open("servers.xml") // For read access.     
    if err != nil {
        fmt.Printf("error: %v", err)
        return
    }
    defer file.Close()
    data, err := ioutil.ReadAll(file)
    if err != nil {
        fmt.Printf("error: %v", err)
        return
    }
    v := Recurlyservers{}
    err = xml.Unmarshal(data, &v)
    if err != nil {
        fmt.Printf("error: %v", err)
        return
    }

    fmt.Println(v)
}

XML 本质上是一种树形的数据格式,而我们可以定义与之匹配的 go 语言的 struct 类型,然后通过 xml.Unmarshal 来将 xml 中的数据解析成对应的 struct 对象。如上例子输出如下数据


{{ servers} 1 [{{ server} Shanghai_VPN 127.0.0.1} {{ server} Beijing_VPN 127.0.0.2}]
<server>
    <serverName>Shanghai_VPN</serverName>
    <serverIP>127.0.0.1</serverIP>
</server>
<server>
    <serverName>Beijing_VPN</serverName>
    <serverIP>127.0.0.2</serverIP>
</server>
}

上面的例子中,将 xml 文件解析成对应的 struct 对象是通过 xml.Unmarshal 来完成的,这个过程是如何实现的?可以看到我们的 struct 定义后面多了一些类似于 xml:"serverName" 这样的内容, 这个是 struct 的一个特性,它们被称为 struct tag,它们是用来辅助反射的。我们来看一下 Unmarshal 的定义:


func Unmarshal(data []byte, v interface{}) error

我们看到函数定义了两个参数,第一个是 XML 数据流,第二个是存储的对应类型,目前支持 struct、slice 和 string,XML 包内部采用了反射来进行数据的映射,所以 v 里面的字段必须是导出的。Unmarshal 解析的时候 XML 元素和字段怎么对应起来的呢?这是有一个优先级读取流程的,首先会读取 struct tag,如果没有,那么就会对应字段名。必须注意一点的是解析的时候 tag、字段名、XML 元素都是大小写敏感的,所以必须一一对应字段。

Go 语言的反射机制,可以利用这些 tag 信息来将来自 XML 文件中的数据反射成对应的 struct 对象,关于反射如何利用 struct tag 的更多内容请参阅 reflect 中的相关内容。

解析 XML 到 struct 的时候遵循如下的规则:

  • 如果 struct 的一个字段是 string 或者 []byte 类型且它的 tag 含有 ",innerxml",Unmarshal 将会将此字段所对应的元素内所有内嵌的原始 xml 累加到此字段上,如上面例子 Description 定义。最后的输出是

    <server>
        <serverName>Shanghai_VPN</serverName>
        <serverIP>127.0.0.1</serverIP>
    </server>
    <server>
        <serverName>Beijing_VPN</serverName>
        <serverIP>127.0.0.2</serverIP>
    </server>
  • 如果 struct 中有一个叫做 XMLName,且类型为 xml.Name 字段,那么在解析的时候就会保存这个 element 的名字到该字段,如上面例子中的 servers。
  • 如果某个 struct 字段的 tag 定义中含有 XML 结构中 element 的名称,那么解析的时候就会把相应的 element 值赋值给该字段,如上 servername和 serverip 定义。
  • 如果某个 struct 字段的 tag 定义了中含有 ",attr",那么解析的时候就会将该结构所对应的 element 的与字段同名的属性的值赋值给该字段,如上 version 定义。
  • 如果某个 struct 字段的 tag 定义 型如 "a>b>c", 则解析的时候,会将 xml 结构 a 下面的 b 下面的 c 元素的值赋值给该字段。
  • 如果某个 struct 字段的 tag 定义了 "-", 那么不会为该字段解析匹配任何 xml 数据。
  • 如果 struct 字段后面的 tag 定义了 ",any",如果他的子元素在不满足其他的规则的时候就会匹配到这个字段。
  • 如果某个 XML 元素包含一条或者多条注释,那么这些注释将被累加到第一个 tag 含有 ",comments" 的字段上,这个字段的类型可能是 []byte 或 string, 如果没有这样的字段存在,那么注释将会被抛弃。

上面详细讲述了如何定义 struct的tag。 只要设置对了 tag,那么 XML 解析就如上面示例般简单,tag 和 XML 的 element 是一一对应的关系,如上所示,我们还可以通过 slice 来表示多个同级元素。

注意: 为了正确解析,go 语言的 xml 包要求 struct 定义中的所有字段必须是可导出的(即首字母大写)

输出 XML

假若我们不是要解析如上所示的 XML 文件,而是生成它,那么在 go 语言中又该如何实现呢? xml 包中提供了 MarshalMarshalIndent 两个函数,来满足我们的需求。这两个函数主要的区别是第二个函数会增加前缀和缩进,函数的定义如下所示:


func Marshal(v interface{}) ([]byte, error)
func MarshalIndent(v interface{}, prefix, indent string) ([]byte, error)

两个函数第一个参数是用来生成 XML 的结构定义类型数据,都是返回生成的 XML 数据流。

下面我们来看一下如何输出如上的 XML:


package main

import (
    "encoding/xml"
    "fmt"
    "os"
)

type Servers struct {
    XMLName xml.Name `xml:"servers"`
    Version string   `xml:"version,attr"`
    Svs     []server `xml:"server"`
}

type server struct {
    ServerName string `xml:"serverName"`
    ServerIP   string `xml:"serverIP"`
}

func main() {
    v := &Servers{Version: "1"}
    v.Svs = append(v.Svs, server{"Shanghai_VPN", "127.0.0.1"})
    v.Svs = append(v.Svs, server{"Beijing_VPN", "127.0.0.2"})
    output, err := xml.MarshalIndent(v, "  ", "    ")
    if err != nil {
        fmt.Printf("error: %v\n", err)
    }
    os.Stdout.Write([]byte(xml.Header))

    os.Stdout.Write(output)
}

上面的代码输出如下信息:


<?xml version="1.0" encoding="UTF-8"?>
<servers version="1">
<server>
    <serverName>Shanghai_VPN</serverName>
    <serverIP>127.0.0.1</serverIP>
</server>
<server>
    <serverName>Beijing_VPN</serverName>
    <serverIP>127.0.0.2</serverIP>
</server>
</servers>

和我们之前定义的文件的格式一模一样,之所以会有 os.Stdout.Write([]byte(xml.Header)) 这句代码的出现,是因为 xml.MarshalIndent 或者 xml.Marshal 输出的信息都是不带 XML 头的,为了生成正确的 xml 文件,我们使用了 xml 包预定义的 Header 变量。

我们看到 Marshal 函数接收的参数 v 是 interface{} 类型的,即它可以接受任意类型的参数,那么 xml 包,根据什么规则来生成相应的 XML 文件呢?

  • 如果 v 是 array 或者 slice,那么输出每一个元素,类似 value
  • 如果 v 是指针,那么会 Marshal 指针指向的内容,如果指针为空,什么都不输出
  • 如果 v 是 interface,那么就处理 interface 所包含的数据
  • 如果 v 是其他数据类型,就会输出这个数据类型所拥有的字段信息

生成的 XML 文件中的 element 的名字又是根据什么决定的呢?元素名按照如下优先级从 struct 中获取:

  • 如果 v 是 struct,XMLName 的 tag 中定义的名称
  • 类型为 xml.Name 的名叫 XMLName 的字段的值
  • 通过 struct 中字段的 tag 来获取
  • 通过 struct 的字段名用来获取
  • marshall 的类型名称

我们应如何设置 struct 中字段的 tag 信息以控制最终 xml 文件的生成呢?

  • XMLName 不会被输出
  • tag 中含有 "-" 的字段不会输出
  • tag 中含有 "name,attr",会以 name 作为属性名,字段值作为值输出为这个 XML 元素的属性,如上 version 字段所描述
  • tag 中含有 ",attr",会以这个 struct 的字段名作为属性名输出为 XML 元素的属性,类似上一条,只是这个 name 默认是字段名了。
  • tag 中含有 ",chardata",输出为 xml 的 character data 而非 element。
  • tag 中含有 ",innerxml",将会被原样输出,而不会进行常规的编码过程
  • tag 中含有 ",comment",将被当作 xml 注释来输出,而不会进行常规的编码过程,字段值中不能含有"--"字符串
  • tag 中含有 "omitempty", 如果该字段的值为空值那么该字段就不会被输出到 XML,空值包括:false、0、nil 指针或 nil 接口,任何长度为 0 的 array, slice, map 或者 string
  • tag 中含有 "a>b>c",那么就会循环输出三个元素 a 包含 b,b 包含 c,例如如下代码就会输出
    FirstName string   `xml:"name>first"`
    LastName  string   `xml:"name>last"`

    <name>
    <first>Asta</first>
    <last>Xie</last>
    </name>

上面我们介绍了如何使用 Go 语言的 xml 包来编/解码 XML 文件,重要的一点是对 XML 的所有操作都是通过 struct tag 来实现的,所以学会对 struct tag 的运用变得非常重要,在文章中我们简要的列举了如何定义 tag。更多内容或 tag 定义请参看相应的官方资料。

本文章首发在 LearnKu.com 网站上。

上一篇 下一篇
讨论数量: 0
发起讨论 只看当前版本


暂无话题~