一、什么是XML?
XML指可擴展標記語言
XML是一種標記語句,很類似HTML
XML標簽沒有被預定義,需要自行定義標簽
二、XML和HTML的差異:
- XML為不同的目的而設計
- XML被設計為傳輸和存儲數據,其焦點是數據的內容,HTML被設計用來顯示數據, 其焦點是數據的外觀
- XML意在傳輸信息,而HTML意在顯示信息
三、XML的特點
- XML可以自定義標簽
<note>
<to>George</to>
<from>John</from>
<heading>Reminder</heading>
<body>Don't forget the meeting!</body>
</note>
上例中的標簽沒有在任何XML標準中定義過,比如<to><from>這些標簽都是有作者自己發明的
- XML必須包含根元素
XML 文檔必須有一個元素是所有其他元素的父元素。該元素稱為根元素。
<?xml version="1.0" encoding="UTF-8" ?>
<note>
<to>George</to>
<from>John</from>
<heading>Reminder</heading>
<body>Don't forget the meeting!</body>
</note>
如上所示,XML文件的根元素為note,剩下的4行描述的是根的子元素
所有的XML標簽都必須有關閉標簽,在XML中省略標簽是非法的,所有的元素都必須有關閉標簽。
如下所示:
<p>This is a paragraph</p>
<p>This is another paragraph</p>
- XML標簽對大小寫敏感
XML 標簽對大小寫敏感。在 XML 中,標簽 <Letter> 與標簽 <letter> 是不同的。
必須使用相同的大小寫來編寫打開標簽和關閉標簽:
<Message>這是錯誤的。</message>
<message>這是正確的。</message>
XML必須正確的嵌套:如下所示:由于 <i> 元素是在 <b> 元素內打開的,那么它必須在 <b> 元素內關閉。
<b><i>This text is bold and italic</i></b>
- XML 的屬性值須加引號
與 HTML 類似,XML 也可擁有屬性(名稱/值的對)。
在XML 中,XML的屬性值須加引號。請研究下面的兩個XML文檔。第一個是錯誤的,第二個是正確的:<note date=08/08/2008> <to>George</to> <from>John</from> </note> <note date="08/08/2008"> <to>George</to> <from>John</from> </note>
在第一個文檔中的錯誤是,note 元素中的 date 屬性沒有加引號。
- 標簽可以自由命名
- 標簽成對出現
- 標簽可以重名
四、XML 中的注釋
在 XML 中編寫注釋的語法與 HTML 的語法很相似:
<!-- This is a comment -->
五、什么是 XML 元素?
XML 元素指的是從(且包括)開始標簽直到(且包括)結束標簽的部分。
元素可包含其他元素、文本或者兩者的混合物。元素也可以擁有屬性。
<bookstore>
<book category="CHILDREN">
<title>Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
<book category="WEB">
<title>Learning XML</title>
<author>Erik T. Ray</author>
<year>2003</year>
<price>39.95</price>
</book>
</bookstore>
在上例中,<bookstore> 和 <book> 都擁有元素內容,因為它們包含了其他元素。<author> 只有文本內容,因為它僅包含文本。
在上例中,只有 <book> 元素擁有屬性 (category="CHILDREN")。
六、XML 命名規則
XML 元素必須遵循以下命名規則:
- 名稱可以含字母、數字以及其他的字符
- 名稱不能以數字或者標點符號開始
- 名稱不能以字符 “xml”(或者 XML、Xml)開始
- 名稱不能包含空格
七、XML讀取文本
from xml.dom import minidom
打開文件
root =minidom.parse(filepath)
firstnode =root.getElementsByTagName(onenode)[0]
secondnode=firstnode.getElementsByTagName(twonodee)[0].firstChild.data