明輝手游網(wǎng)中心:是一個(gè)免費(fèi)提供流行視頻軟件教程、在線學(xué)習(xí)分享的學(xué)習(xí)平臺(tái)!

高效交換XML文檔

[摘要]XML文檔因?yàn)槠涔逃械拿枋鲂蕴匦远呄蛴谧兊煤芰_嗦。其結(jié)果是文檔會(huì)由于被描述的數(shù)據(jù)增多而變得很長(zhǎng),而這種很大的文檔會(huì)在需要同其他實(shí)體進(jìn)行交換時(shí)出現(xiàn)問題。和其他文檔(比如普通文本文件(flat file)或者Electronic Data Interchange (EDI))比起來XML文檔就顯得特...
XML文檔因?yàn)槠涔逃械拿枋鲂蕴匦远呄蛴谧兊煤芰_嗦。其結(jié)果是文檔會(huì)由于被描述的數(shù)據(jù)增多而變得很長(zhǎng),而這種很大的文檔會(huì)在需要同其他實(shí)體進(jìn)行交換時(shí)出現(xiàn)問題。和其他文檔(比如普通文本文件(flat file)或者Electronic Data Interchange (EDI))比起來XML文檔就顯得特別冗長(zhǎng)。為了舉例說明這個(gè)概念,讓我們看看以下這個(gè)普通文本文件: John,Doe,1587,4/18/2000,1234
Anywhere St.,SomeCity,AZ,85222




再看這個(gè)XML文檔:<customers>
<customer customerID="1587">
<firstName>John</firstName>
<lastName>Doe</lastName>
<customerSince>4/18/2000
</customerSince>
<street>1234 Anywhere St.
</street>
<city>SomeCity</city>
<state>AZ</state>
<postalCode>85222</postalCode>
</customer>
</customers>




如果你曾處理過很多XML文檔,那么你就不會(huì)奇怪于即使這個(gè)XML文檔和這個(gè)以逗號(hào)分隔開的普通文本文件中包含了相同的原始數(shù)據(jù)(raw data),XML文檔也顯得比普通文本文件大很多了。畢竟,XML是一種元數(shù)據(jù)語言(metadata language)(它包含了許多優(yōu)點(diǎn)比如支持解析、驗(yàn)證、轉(zhuǎn)換等等),因此決定了其大小會(huì)比另一些同類文檔格式大很多。由于XML被更廣泛地作為一種數(shù)據(jù)交換的方法來使用,那么被交換的文檔的大小會(huì)降低應(yīng)用程序的性能和可升級(jí)性就是毫無疑問的了。

有很多方法來使XML文檔的大小最小化,比如(在適當(dāng)?shù)牡胤剑⿲⒃剞D(zhuǎn)換為屬性,縮寫元素和屬性名,去掉不重要的空白處,只定義一些內(nèi)容。然而無論你做出何種改變,最終大量的原始數(shù)據(jù)還是會(huì)形成一個(gè)很大的XML文檔。如果你的XML文檔中包含有很多兆字節(jié),你又該如何在你的企業(yè)中對(duì)它們進(jìn)行有效地傳遞或?qū)⑺鼈儌鬟f到其他企業(yè)中去呢?

一種方法是將一個(gè)大的XML文檔分成多個(gè)文檔,它們會(huì)(如果可以切分的話)運(yùn)行的很好,但這樣還會(huì)產(chǎn)生一些額外的復(fù)雜性和確保所有文檔都能被準(zhǔn)確發(fā)送和接收的問題。即使是被分開的小文檔也可能會(huì)由于大量被傳遞的數(shù)據(jù)而形成幾兆字節(jié)大小的文檔。既然存在這些潛在的問題,那我們這些XML開發(fā)人員該如何更有效地對(duì)XML數(shù)據(jù)進(jìn)行交換呢?(我贊成去打高爾夫。)

你可以用壓縮技術(shù)來加速各點(diǎn)之間的文檔交換。由于XML是一個(gè)簡(jiǎn)單的文本形式,因此大的文檔可以被壓縮成較小形式。這里顯示的范例程序證明了如何通過將一個(gè)開發(fā)式代碼的.Net組件添加到一個(gè)ZIP存檔文件中來實(shí)現(xiàn)用程序來壓縮XML文檔。這么做能夠?qū)⑽募拇笮p至最小并提高數(shù)據(jù)交換的效率。

盡管.Net的J#語言本身支持壓縮,但構(gòu)建到.Net框架中的基類庫卻不支持。然而,有一個(gè)完全由管制代碼寫成的名為SharpZipLib的組件可以被用于壓縮各種類型的文檔(在www.icsharpcode.net/OpenSource/SharpZipLib/default.asp中下載該組件)。SharpZipLib是一個(gè)用C#寫的、用在.Net中支持Zip、GZip、Tar和BZip2的類庫。它是作為一個(gè)assembly來實(shí)現(xiàn)的,而且它還能夠同任何使用.Net語言的項(xiàng)目結(jié)合使用。

我曾在幾個(gè)應(yīng)用程序中使用過SharpLibZip的早期beta發(fā)行版,我認(rèn)為它在對(duì)文檔進(jìn)行壓縮和解壓縮方面非常有效。讓我們來看看如何使用SharpZipLib組件來實(shí)現(xiàn)用程序壓縮XML文檔。

壓縮XML文檔
盡管SharpZipLib能夠執(zhí)行好幾種類型的壓縮,但我還是決定在范例程序中使用應(yīng)用最為廣泛的ZIP壓縮格式,因?yàn)樗苡忻,也很好用。為了使代碼能夠被重用,我寫了一個(gè)名為Zipper的自定義類。Zipper中有一個(gè)名為GenerateZipFile()的靜態(tài)方法(它可以接受指定要保存ZIP文件的路徑)以及一個(gè)包括所有要壓縮的文件路徑集合的ArrayList(見列表1)。

Zipper類是SharpZipLib中名為ZipOutputStream類的一個(gè)封裝類。你幾乎不用寫什么代碼,也不用花什么力氣就可以用Zipper來將多個(gè)文件壓縮到一個(gè)簡(jiǎn)單的ZIP存檔文件中(一個(gè)帶有ZIP擴(kuò)展名的文件)。這個(gè)GenerateZipFile()方法是通過建立一個(gè)ZipOutputStream類的實(shí)例并通過其SetLevel屬性設(shè)置壓縮級(jí)別來實(shí)現(xiàn)壓縮的。最高壓縮級(jí)別可以被設(shè)置到9,而最低則為0。

設(shè)置好壓縮級(jí)別之后,由ArrayList(被傳入GenerateZipFile())方法)所指定的文件內(nèi)容就會(huì)被處理。一個(gè)生成的計(jì)數(shù)器(enumerator)會(huì)逐個(gè)列舉該列表中的文件。每個(gè)文件被加載到一個(gè)接受文件名和登錄時(shí)間的ZipEntry對(duì)象中。然后ZipEntry對(duì)象通過PutNextEntry()方法被添加到ZipOutputStream對(duì)象中。


圖1. 測(cè)試Zipper類
在文件名被添加到這個(gè)ZIP存檔文件之后將通過一個(gè)FileStream對(duì)象來讀取其內(nèi)容。FileStream(位于System.IO命名空間下)用于將文件以字節(jié)形式讀入到緩沖區(qū)中。你可以通過調(diào)用FileStream對(duì)象中的Read()方法來完成讀取操作。在緩沖區(qū)中的字節(jié)通過Write()方法被寫入ZipOutputStream對(duì)象中。注意Write()方法接受要寫入數(shù)據(jù)流中字節(jié)的長(zhǎng)度以及在緩沖區(qū)中的起始位置。該過程適用于所有包含在傳給GenerateZipFile()方法的ArrayList參數(shù)之中的每一個(gè)文件。 當(dāng)所有條目被添加到這個(gè)ZIP文件之后,它會(huì)以一個(gè)ZIP作為文件擴(kuò)展名被保存到硬盤中。

列表2中顯示了一個(gè)用于測(cè)試Zipper類的簡(jiǎn)單ASP.Net應(yīng)用程序的代碼(見圖1)。它是從定義一個(gè)要被壓縮的XML文檔路徑和存儲(chǔ)ZIP文件的路徑開始的。盡管在這個(gè)例子中只有一個(gè)被壓縮的XML文檔,但是其他文檔的路徑可以被添加到ArrayList對(duì)象中來進(jìn)行壓縮。在所有文件路徑被定義好之后,將會(huì)調(diào)用靜態(tài)方法GenerateZipFile()。一旦這個(gè)ZIP文件被建好之后,會(huì)通過System.Web.Mail命名空間下的類來給最終用戶發(fā)送一封e-mail。

解壓XML文檔
對(duì)XML文檔進(jìn)行壓縮的能力在不同的情況下是非常有用的,但不可避免地會(huì)出現(xiàn)這種情況:有人給你發(fā)送了一個(gè)在解析前需要被展開的(extracted)的壓縮文檔。這個(gè)問題可以直接通過使用SharpZipLib中的一個(gè)名為ZipFile的類來解決。在列表3中你可以看到在這個(gè)用于將壓縮文件展開到一個(gè)指定目錄下的Zipper類中有一個(gè)名為ExtractZipFile()的靜態(tài)方法。代碼首先通過將一個(gè)FileStream對(duì)象(通過調(diào)用File.Open()方法得到的)傳入ZipFile類的構(gòu)造器中來建立一個(gè)ZipFile實(shí)例。建立好對(duì)象之后,ZIP文件中的每個(gè)ZipEntry會(huì)被列舉(enumerate)出來。然后調(diào)用ZipFile對(duì)象的GetInputStream()方法,該方法接受一個(gè)要被展開的ZipEntry作為參數(shù)。從GetInputStream()返回的數(shù)據(jù)流被讀取到一個(gè)緩沖區(qū)中,該緩沖區(qū)通過一個(gè)FileStream被寫入到文件里。在調(diào)用GetInputStream()時(shí),該ZipFile類會(huì)自動(dòng)對(duì)ZipEntry進(jìn)行解壓。

在調(diào)用ExtractZipFile()方法之后,所有位于ZIP文件中的被壓縮文件會(huì)被展開并存儲(chǔ)到硬盤上。另外,解壓的字節(jié)流會(huì)被寫入一個(gè)MemoryStream對(duì)象中,這在文件被解析前無需被保存到硬盤上時(shí)非常有用。

盡管XML是一個(gè)很冗長(zhǎng)的元數(shù)據(jù)語言,但大的文檔可以在使用.Net組件(比如SharpLibZip)后被壓縮成一個(gè)很小的文檔。通過對(duì)這些文檔進(jìn)行壓縮,可以縮短不同實(shí)體間文檔交換的時(shí)間,其結(jié)果是能夠更快地處理數(shù)據(jù)。想要試試這個(gè)很好的壓縮/解壓代碼的例子,你可以訪問www.xmlforasp.net/codeSection.aspx?csID=95。


關(guān)于作者:
Dan Wahlin(是ASP.NET方面的Microsoft MVP)是Wahlin Consulting LLC公司的總裁并創(chuàng)辦了XML for ASP.NET Developers網(wǎng)站(www.XMLforASP.NET),其中主要研究如何在Microsoft的.Net平臺(tái)下使用XML和Web services。他還是一名合作培訓(xùn)師和演講者,并在美國各地教授“public and on-site XML and .Net”培訓(xùn)課程。Dan是Professional Windows DNA (Wrox)、ASP.NET Tips、Tutorials 和Code (Sams)等書的合著者,并著有XML for ASP.NET Developers (Sams)一書。他的聯(lián)系方式是dwahlin@xmlforasp.net。



標(biāo)簽:高效交換XML文檔