SAX編程基礎
發表時間:2024-06-19 來源:明輝站整理相關軟件相關文章人氣:
[摘要]SAX編程入門作者: 常明 寫作日期:2000-4-26 SAX其實就是(Simple Application interface for XML),這個接口規范是XML分析器和XML處理器提供的較XML更底層的接口。它能提供應用以較大的靈活性。SAX誕生是在XML-DEV討論組上,提出它的原...
SAX編程入門
作者: 常明 寫作日期:2000-4-26
SAX其實就是(Simple Application interface for XML),這個接口規范是XML分析器和XML處理器提供的較XML更底層的接口。它能提供應用以較大的靈活性。
SAX誕生是在XML-DEV討論組上,提出它的原因是有一些情況不適用DOM接口,而且DOM實現太大而且比較慢。
SAX是一種事件驅動的接口,它的基本原理是,由接口的用戶提供符合定義的處理器,XML分析時遇到特定的事件,就去調用處理器中特定事件的處理函數。一般SAX都是JAVA的接口,但其實C++也可以用SAX接口,但C++的分析器比較少。
開發者主要關心的就是,如果我用一個SAX接口的XML分析器或處理器,我需要做些什么呢?那么,下面我們就看一下程序怎么寫吧!
SAX需要用戶提供一下幾個處理器類的實現:
DocumentHandlerXML:文件事件的處理器;
DTDHandler:DTD中事件的處理器;
ErrorHandler:出錯處理器。
寫程序就是以下這么幾步了:
首先需要從這幾個類繼承出自己的子類,
重載其中自己感興趣的事件的處理方法。
向分析器,注冊此處理器類,其實告訴分析器使用你的處理器。
啟動分析器。
下面是我抓來的一個例子(既然有現成的,自己寫好象比較浪費了:PP),這個例子中的PrettyPrint類就是一個繼承DocumentHandler的實現類,大家可以看到PrettyPrint選擇實現了開始元素、結束元素、字符數據、處理指令這樣幾個事件,最后的結果就是把以不同深度的縮進表示元素的層次的形式把XML輸出。
值得注意的是,在處理函數的參數中包含了與此事件相關的重要信息,處理函數其實就是對這些數據的處理。比如開始元素事件的參數中就會有元素名,屬性列表的信息。
void PrettyPrint::startElement(const XMLCh* constname AttributeList& attributes)
{
indent++; // A new element started, //it should be indented one
// level further than the current level
int i;
for(i = 0; i < indent; i++) outStrm << "\t";
outStrm << "<" << name;
unsigned int len = attributes.getLength();
for (unsigned int i = 0; i < len; i++)
{
outStrm << " " << attributes.getName(i) <<
"=\"" << attributes.getValue(i) <<
"\"";
}
outStrm << ">";
}
void PrettyPrint::endElement(const XMLCh* const name)
{ int i; for(i = 0; i < indent; i++)
outStrm << "\t"; outStrm << "</" <<
name << ">";
indent--;
}
void PrettyPrint::characters(const XMLCh* const chars, const unsigned int
length)
{
for (unsigned int index = 0; index < length; index++)
{
switch (chars[index])
{
case chAmpersand : outStrm << "&"; break;
case chOpenAngle : outStrm << "<"; break;
case chCloseAngle: outStrm << ">"; break;
case chDoubleQuote : outStrm << """; break;
default: outStrm << chars[index];
break;
}
}
}
void PrettyPrint::processingInstruction(const XMLCh* const target, const
XMLCh* const data)
{
int i; for(i = 0; i < indent; i++) outStrm << "\t";
outStrm << "<?" << target; if (data) outStrm
<< " " << data; outStrm << "?>\n";
}
看過這個例子,大家應該是比較清楚如何寫SAX的處理器了。具體的SAX接口可以在你要用的分析器的定義中找到,JAVA中就是interface或class,C++中可能就是類的定義。寫好以后就要調用Parser類的以下函數,將處理器設到parser內去:
public abstract void setDTDHandler (DTDHandler handler);
public abstract void setDocumentHandler (DocumentHandler handler);
public abstract void setErrorHandler (ErrorHandler handler);
...
此外SAX接口里有另外的幾個由分析器回調的處理器,他們的用法下面一一講一下:
InputSource:這個處理器的作用是控制XML文件的輸入,這樣輸入就可以有更多種選擇,可以來自文件系統,或Web服務器,甚至數據庫。
EntityResolver:解析外部實體用,分析器通過它得到外部實體。
Locator:定位器,作用是分析器用來在文件中定位的。作用之一就是報錯時能得到錯誤的位置。
這幾個的詳細用法,如果需要我以后會寫文章講細一些。
DOM也是XML的數據接口,讀到這里,有些讀者可能會問,SAX和DOM的關系是怎樣的呢? Don Park的SAXDOM實現了從SAX接口實現DOM模型,從這樣一個工具我們可以看出SAX是比DOM更低層的接 口,有了SAX,我們完全可以自己構造出DOM。DOM好用一些,為什么還要提出SAX呢?DOM模型的建立是分 析完整個XML文件后才能完成,對于某些特殊情況用DOM實現就不太現實,如XML文件特別大時,在內存建立 一棵它的DOM樹是不可想象的,還有當對于動態生成的XML,還沒有完成時,我們就需要知道里面有什么, 這時也不能用DOM。另外SAX運行很快,對于一些簡單的任務,用它效率比較高。所以DOM和SAX各有千秋, 可以在開發中互補。