겨우 찾아낸 제대로 된 XML 파싱

Projects/CoVNC 2007.06.01 16:19 Posted by soulfree >동네청년<

================================================
안준철님 정말 감사합니다.
================================================
 출처 : 블로그 > Jon's 블로그
 http://blog.naver.com/junechol/140022015860

xml에 있는 데이터를 액셀 파일로 저장하려고 한다.

화면에 액셀이 뜨지는 않고 조용히 xls 파일이 만들어져야 한다.

이를 위해서는 excel automation을 써야 한다.

또한 xml을 읽어들이는 작업은 msxml 컴포넌트를 쓴다.


비주얼 스투디오에서 끌어오기 하는 방식으로 automation을 하기도 한다.

숱한 참조문서에서 그렇게들 한다.

나도 그렇게 했었다.

왜 되는지는 모르고 되니까 좋아했다.


여기서는 #import로 automation하는 방법을 쓴다.

이게 이해하기도 쉽고, 소스파일 갯수와 크기가 줄어든다.

샘플 프로그램은 window console 기반 api 프로그램이다.

(뭐 MFC가 싫지는 않지만, 프로그래머를 바보로 만든다.)


두가지 컴포넌트를 쓴다.

1. excel.exe (액셀을 깔아야 한다. 당연히...)

2. msxml2.dll (msxml 2.6 이상의 버전을 깔면 된다. ms에서 다운가능)


완전한 소스를 올리기는 그러니 요약해서 커멘트하겠다.


------------------------------------------------------


// printf 와 strxxx 함수들을 쓰려면 이것들은 써야한다.

#include <stdio.h>
#include <tchar.h>


// #import 가 뭐하는 거냐하면...

// 아무것도 안하고 #import "msxml2.dll" 만 한다음에 컴파일해 보라.

// msxml.tlh 와 msxml.thi 가 debug 디렉토리에 생긴다.

// 이 파일들이 automation의 마술을 한다.


#import "msxml2.dll"
using namespace MSXML2;
// 뒤에 보면 여전히 MSXML2::xxx 라고 쓰고 있다. ambiguity가 발생하기 때문이다.


// excel은 절대경로로 import 할 수밖에 없을게다.

#import "C:\Program Files\Common Files\Microsoft Shared\OFFICE11\MSO.DLL" \
   rename("RGB", "MsoRGBType")
#import "C:\Program Files\Common Files\Microsoft Shared\VBA\VBA6\VBE6EXT.OLB"
#import "C:\\Program Files\\Microsoft Office\\OFFICE11\\excel.exe"\
   rename("DialogBox", "ExcelDialogBox") \
   rename("RGB", "MsoRGBType") \
   rename("CopyFile", "ExcelCopyFile") \
   no_dual_interfaces
using namespace Excel;


// ---------소스 생략----------

// main 과 doTranslate만 보면 된다.


int main(int argc, char* argv[])
{
  char excelFilename[1024];


// 실행시 파라미터 까보기 생략


// CoInitialize는 automation (COM interface 사용) 에는 필수다.

  HRESULT hr;
  hr = CoInitialize(NULL);


  printf("opening %s using MSXML2\n", argv[1]);



// xxxPtr 은 신비한 타입이다.

// xxxPtr.func() 도 있고 xxxPtr->func() 도 된다. (두가지는 다른 용도로 쓰인다.)

// smart pointer라는 것인데, _COM_SMARTPTR_TYPEDEF() 매크로를 볼 것.

  IXMLDOMDocument2Ptr pXMLDoc;


// IXMLDOMDocument2Ptr::CreateInstance 는 _com_ptr_t 템플릿 클래스의 멤버함수다.

// (comip.h 참조)

// 이건 CoCreateInstance를 불러서 COM object instance를 만든다.


// "Msxml2.DOMDocument" 가 어디서 나온건지 궁금하면...

// regedit.exe를 실행해서 HKEY_CLASSES_ROOT 아래에서 찾아보라.

// 이 스트링으로부터 CLSID 값을 받아낼 수 있다.

// 나중에 나오는 "Excel.Application"도 마찬가지

  hr = pXMLDoc.CreateInstance(L"Msxml2.DOMDocument");


// 여기서 리턴된 값이 S_OK 가 아니면 CoCreateInstance가 실패한 것이다.
  if (hr == S_OK)
  {

// _variant_t 는 VARIANT 타입의 불편함을 덜어주는 클래스다. (comutil.h 참조)

// #import 하면 이런 comxxx.h 헤더들이 다 include 된 것이다.
    _variant_t vFilename;
    vFilename.SetString(argv[1]);


// 이번에는 xxxPtr->func() 을 사용했다.

// 이건 xxx 의 함수다. 즉, 이 경우 IXMLDOMDocument2의 함수다.

// msxml2.tlh 에 사용할 수 있는 함수들이 뭐가 있는지 볼 수 있다.

// 문제는 함수 프로토타입만 있지, 뭐에 쓰는 함수인지는 없다는 건데...

// 이건 해당 컴포넌트의 매뉴얼을 (있다면) 참조하는 수밖에 없다.

// 다행히 msxml 이나 excel 은 그나마 msdn 문서가 좀 있다.


// IXMLDOMDocument2::load 는 xml 파일을 읽는 함수다.

// xml 파일이 조금만 잘못되어 있어도 에러가 난다.

// 아래쪽 else 의  GetparseError()->get_reason() 해서 어지간한 이유는 알 수 있다.

    if (pXMLDoc->load(vFilename))
    {
      doTranslate(pXMLDoc, excelFilename);
    }
    else
    {

// _bstr_t는 BSTR을 쓰기 편하게 만든 클래스임.(comutil.h 참조)
      _bstr_t bsReason;
      pXMLDoc->GetparseError()->get_reason(bsReason.GetAddress());

// printf 의 %S는 wchar 스트링을 찍는다.(%s 아님)
      printf("%S\n", bsReason);
    }

// CreateInstance() 했다면 반드시 Release() 또는 Detach() 해야한다.
    pXMLDoc.Release();
  }
  else
  {
    printf("Cannot create DOMDocument instance.\nDid ");
  }

// CoInitialize()를 부른 프로그램은 끝내기 전에 반드시 CoUninitialize() 해야 한다.

  CoUninitialize();
  return 0;
}


void doTranslate(IXMLDOMDocument2Ptr pXMLDoc, const char *excelFilename)
{
  HRESULT hr;
  int i, j;


// 왜 하필 _ApplicationPtr 로 CreateInstance를 하는 걸까?

// 물론 문서에서 그렇게 하라고 하기 때문이다.

// 다음과 같은 짓을 해보면 hr == E_NOINTERFACE 가 된다.

//     _WorksheetPtr sheet;
//     hr = sheet.CreateInstance(L"Excel.Application");


// 이게 뭘 뜻하느냐 하면, _Worksheet 인터페이스는 Excel.Application COM object의

// IUnknown 인터페이스에 물어보면 모르는 인터페이스란 얘기.

// 즉, 다른 인터페이스를 통해 간접적으로 액세스하는 인터페이스라는 말이다.


  _ApplicationPtr app;
  hr = app.CreateInstance(L"Excel.Application");

  if (hr == S_OK)
  {

// excel 버전 보기
    _variant_t var;
    var = app->GetVersion();

// 문서에 sheet 하나만 달랑 있게 하기

    app->PutSheetsInNewWorkbook(1);


// _Worksheet 인터페이스 얻기 (3단계, 다른 수도 있다. 찾아보라.)

    WorkbooksPtr books = app->GetWorkbooks();
    _WorkbookPtr  book = books->Add();
    _WorksheetPtr sheet = book->GetActiveSheet();


// 다시 xml로 돌아가자.

// IXMLDOMNode 는 msxml의 모든 구성요소들이 지원하는 인터페이스다.

// 심지어 IXMLDOMDocument2도 이걸 상속받았다.

// 별로 지원하는 함수가 많지 않다. 주로 parent/child/sibling 뒤지기만 한다.

// 혹시 노드의 attribute값을 보려면, 즉 <TAG type="dummy"> 에서 dummy를 읽으려면

// IXMLDOMElement를 써야 한다.


    _bstr_t bsGimml("GIMML");

// selectSingleNode() 는 name 이 맞는 첫번째 child 노드를 리턴한다. 유용함
    MSXML2::IXMLDOMNodePtr nodeGimml = pXMLDoc->selectSingleNode(bsGimml); 
    _bstr_t bsElements("Elements");
    MSXML2::IXMLDOMNodePtr nodeElements = nodeGimml->selectSingleNode(bsElements);


// selectSingleNode()에서 에러가 나면 리턴값이 NULL 이다.
    if (nodeElements)
    {
      bool error = false;

// 차일드 노드 루프돌기

// GetchildNodes() 함수는 IXMLDOMNodeList 인터페이스를 리턴하는데

// 여기다 대고 nextNode()를 하면 차일드를 다 뒤질 수 있다.
      MSXML2::IXMLDOMNodeListPtr elementlist = nodeElements->GetchildNodes();

// 리스트 갯수를 알아야 루프돌기 편할 것이다.
      int elementCount = elementlist->Getlength();

      /* scan for ALPHA_STRING elements */
      for (i=0; i<elementCount; i++)
      {

// nextNode()는 첫번째 차일드 노드부터 리턴한다.

// 그러니 루프내에서 무조건 부르고 본다.
        MSXML2::IXMLDOMElementPtr anElement = elementlist->nextNode();

        /* node name check (shoud be "Element") */

// 노드명 받기 <TAG type="dummy"> 에서는 TAG가 노드명
        _bstr_t bsNodename = anElement->GetnodeName();
        _bstr_t bsElement("Element");
        if (bsNodename != bsElement) // _bstr_t 비교는 연산자로 가능
        {
          printf("node name is %S. <Element> expected\n", bsNodename);
          error = true;
          break;
        }
               
        /* get id string */
        _bstr_t bsId("id");

// attribute 보기
        _variant_t varElementId = anElement->getAttribute(bsId);
        printf("%S\n", varElementId.bstrVal);

        /* format check (only "AG_FORMAT_ALPHA_STRING" will be processed) */
        _bstr_t bsAlphaString("AG_FORMAT_ALPHA_STRING");
        _bstr_t bsFormat("format");
        _variant_t varFormat = anElement->getAttribute(bsFormat);
        _bstr_t bsFormatValue(varFormat.bstrVal, true);
        if (bsFormatValue != bsAlphaString)
        {
          printf(" Skip: element %S is %S format.\n", varElementId.bstrVal, varFormat.bstrVal);
          continue;
        }


        /* get data */
        MSXML2::IXMLDOMNodeListPtr dataList = anElement->GetchildNodes();
        int dataCount = dataList->Getlength();

        if (dataCount == 0) continue;

        WCHAR wzData[10][1024] = {0,};

        for (j=0; j<dataCount; j++)
        {
          MSXML2::IXMLDOMElementPtr dataElement = dataList->nextNode();

          /* get id value */
          int id = j;
          _bstr_t bsDataId("id");
          _variant_t varDataId = dataElement->getAttribute(bsDataId);
          if (varDataId.vt == VT_BSTR)
          {

// atoi 의 wchar 버전
            id = _wtoi(varDataId.bstrVal);
            if (id < 0 || id >= 10)
            {
              error = true; break;
            }
          }


// 이 함수 내부는 생략했다.

// wzData 에 wchar 스트링을 채워 넣는 함수다.

         if (ucs2StringFromData(dataElement, wzData[id]) == false)
         {
            error = true; break;
         }
        }
               
        /* error in getting data string... stop. */
        if (error) break;


// 다시 액셀로 돌아가자.

// 아까 _Worksheet 까지는 준비해두었다.

// 액셀에 데이터를 넣을 때는 Range로 하나의 셀을 지정한 후에 값을 넣는다.

        /* write a element to excel sheet */
        char colAlphabet;
        int  rowInt;
        char cellString[20]; /* cell id like "Z11" */
        RangePtr cell;
   
        rowInt = i + 2; /* excel cell begins with 1. and added one more for header */
        colAlphabet = 'B';

// cell을 지정하기 위해서 "E13" 형태의 스트링을 만든다.
        sprintf(cellString, "%c%d", colAlphabet, rowInt);


// cell 하나를 선택하고, 값을 넣는다.   
        cell = sheet->GetRange(cellString);
        cell->PutValue2(varElementId.bstrVal);

        for (j=0; j<10; j++)
        {
          colAlphabet = 'C' + j;
          sprintf(cellString, "%c%d", colAlphabet, rowInt);
          cell = sheet->GetRange(cellString);
          cell->PutValue2(wzData[j]);
        }
  
      }

      if (!error)
      {
        /* save if no error */
        char fullpath[1024];
        sprintf(fullpath, "%s\\%s", curDir, excelFilename);

// SaveAs()를 통해 xls 저장.

// Save()를 부르면 파일 다이얼로그가 뜬다. 짜증날 것임.
        sheet->SaveAs(fullpath);
      }
    }
    else
    {
      _bstr_t bsReason;
      pXMLDoc->GetparseError()->get_reason(bsReason.GetAddress());
      printf("%S\n", bsReason);
   }

// 액셀 프로그램을 닫는다.

// 액셀이 안보이지만 프로그램이 떠 있다. 그러므로 Quit()을 해야 한다.
    app->Quit();

// 아까 말했듯이 CreateInstance 한놈은 반드시 Release() 해야 한다.
    app.Release();
  }
  else
  {
    printf("Cannot create Excel application instance.\n");
  }

}


------------------------------------------------


p.s.

혹시 excel 에 "="로 시작하는 스트링을 넣고 싶다면, 앞에 ' 를 붙여넣어라.

' 는 저장되지 않는다.

저장되기는 하는데... GetText() 해보면 '는 빠져 있다.

즉, 액셀이 특수문자로 간주하여 셀 value에서는 제외된다.

신고

'Projects > CoVNC' 카테고리의 다른 글

RTF를 사용하기 위하여  (0) 2007.07.23
소스코드 검색 사이트  (0) 2007.06.09
겨우 찾아낸 제대로 된 XML 파싱  (3) 2007.06.01
BSTR  (0) 2007.05.31
[Win32 API] DialogBoxParam  (0) 2007.05.20
MSXML 사용법 요약  (0) 2007.05.05

MSDN XML DOM API Library

Projects/CoVNC 2006.11.14 10:54 Posted by soulfree >동네청년<
http://msdn.microsoft.com/library/default.asp?url=/library/en-us/xmlsdk/html/658d31e2-45c2-41b7-98f6-385fbbe99eff.asp
신고
TAG DOM, MSDN, xml

[DOM] DOM(Document Object Model) 이해하기(API포함)

Projects/CoVNC 2006.11.14 09:24 Posted by soulfree >동네청년<

1. DOM 개념 이해하기

  1-1. DOM(Document Object Model) 이란?

        1) DOM은 문서 객체 모델의 약어로 HTML과 XML 문서를 위한 API(Application Programmi

           ng Interface)로서 문서의 물리적 구조와 문서가 접근되고 다루어지는 방법을 정의한다.

        2) DOM의 목적

         (1) 다양한 환경과 애플리케이션에서 사용할 수 있는 표준적인 프로그래밍 인터페이스 제공

         (2) 프로그램 또는 스크립트를 통해 HTML이나 XML같은 웹 문서의 내용과 구조 그리고

             스타일 정보의 검색 또는 수정이 가능하도록 해주는 플랫폼 또는 언어에 중립적인 인터

             페이스이다.

        3) DOM 문서를 이용한 XML 문서 생성 과정

           (1) XML 문서를 취급하기 위하여 프로그램에서 XML 문서를 읽어들인다.

           (2) XML 문서를 XML 파서에 의해 트리 구조로 만든다.

           (3) DOM API를 이용하여 읽어들인 XML 문서에 대한 엘리먼트, 텍스트, 애트리뷰트 내용

              을 추출한 후 XML 문서를 조작(추가,삭제,갱신) 한다.

           (4) 조작되어진 XML 문서를 프로그램이 마무리하여 생성 혹은 갱신하게 된다.

  1-2. DOM Level

        1) DOM 스펙은 W3C에서 Level 단위로 만들어지고 있는데, 처음에 만든 권고안 DOM Lev

           el 1 이었고, 현재는 DOM Level 3 권고안까지 만들어진 상태이다.

        2) DOM 레벨에 관한 정보

           ⊙ DOM Level 1  : core, HTML, 그리고 XML 문서모델에 대한 내용이다. 레벨1은 문서

                                    에 대하여 항해(navigation)하거나 조작(manipulation)하는 기능을

                                    포함한다.   

           ⊙ DOM Level 2  : 스타일 쉬트를 적용한 개체모델을 지원하고 문서에 스타일 정보를

                                    조작하는 기능을 정의한다. 또한 문서에 대한 풍부한 질의 기능과

                                    이벤트 모델에 대한 정의 기능도 포함한다.  

           ⊙ DOM Level 3  : 윈도우즈 환경 하에서 사용가능한 사용자 인터페이스를 기술하는

                                    것까지 포함한다. 이를 이용하여 사용자는 문서의 DTD를 조작하는

                                    기능과 보안 레벨까지 정의할 수 있다.

  1-3. DOM 기반 Parser

        1) DOM 기반 파서는 DOM API 라는 프로그램 라이브러리를 사용한다. 이 라이브러리를

          이용하면 XML 문서의 테이터를 엑세스하고 변경하기 위해 DOM 트리에 있는 노드를

          다룰 수 있다. 여러 언어로 작성되어 있으며 보통 무료로 다운 받을 수 있다. 여러 응용

          프로그램-인터넷 익스플로러 6(msxml 3.0 기본 내장) 에서 파서를 이미 내장하고 있다.

        2) 대표적인 DOM 기반 파서 (지원버전 : DOM Level 2 SAX 2.0)

           ⊙ JAXP    : 썬 마이크로시스템의 파서(Java API for XML Parsing)

                            http://java.sun.com/xml

           ⊙ XML4J  : IBM의 파서(XML Parser for Java)

                            http://www.alphaworks.ibm.com/tech/xml4j

           ⊙ Xerces  : 아파치의 파서(Xerces Java Parser)       http://xml.apache.org/

           ⊙ msxml    : 마이크로소프트 파서    http://msdm.microsoft.com/xml           

  1-4. DOM 구조와 원리

        DOM은 XML 문서에 노드 클래스의 하위 클래스 인스턴스로 표현되는 노드들의 트리로

       표현되는데, 특정 노드의 하위클래스는 요소, 텍스트, 주석이 될 수 있다. 따라서 DOM은

       트리 구조로서 XML 문서를 다루게 되는 것이다.

        1) DOM을 이용한 XML 문서변환

           XML 문서를 응용프로그램이 파싱 요청을 하면 XML 파서에 의해 해석한 후 DOM 인터

          페이스를 이용하여 응용프로그램과 정보를 서로 전달하여 XML문서를 조작하도록 하고

          있다.

        2) XML 문서와 DOM 트리구조

           (1) XML 문서

               <?xml version="1.0" encoding="euc-kr" ?>

                  <책>

                      <제목>XML 정목</제목>

                      <발행년도>2004년 발행</발행년도>

                  </책>

           (2) DOM 노드 트리 모델링

                                          [ Document ]

                                            (NodeList)

                                          [Element "책"]    

                                            (NodeList)    

                  (NodeList)                                        (NodeList)

               [Element "제목"]                             [Element "발행년도"]

         [NamedNodeMap "분류"]                    [NamedNodeMap "분류"] 

                [Att Node "컴퓨터"]                        [Att Node "발행"]

                  (NodeList)                                        (NodeList)

   [Text CharacterData "XML 정복"]         [Text CharacterData "2004년 발행"]

        3) XML 문서에서의 객체

           (1) XML 문서

               <?xml version="1.0" encoding="euc-kr" ?>

                  <책>

                      <제목 분류="컴퓨터">XML 정복</제목>

                      <발행년도 분류="발행">2004년 발행</발행년도>

                  </책>

           (2) XML 객체

               ⊙ Documents  : 작성된 전체 문서를 대표하는 객체이다.

               ⊙ <책> : 2개의 하위 요소 객체인 <제목>과 <발행년도>를 포함한 루트 객체이다.

               ⊙ <제목> : 다음 요소객체로 <발행년도>를 갖고 "XML 정복"라는 text객체를 소유함.

               ⊙ XML 정복 : <제목> 객체의 text객체가 된다.

               ⊙ <발행년도> : 이전 요소객체로 <제목>를 갖고 "2004년 발행"이라는 text객체를 소유

                                     한다.      

               ⊙ 2004년 발행 : <발행년도> 객체의 text객체가 된다.  

2. DOM API

   2-1. DOM 인터페이스

         1) W3C에 의해 추천된 프로그래밍 규격으로, 프로그래머가 HTMl 페이지나 XML 문서들을

            프로그램 객체로 만들거나 수정할 수 있도록 해주며, 그저 데이터 구조의 형태로 문서를

            표현하고 있는 현재의 HTML과 XML 문서들을 DOM 인터페이스를 사용하여 마치 프로

            그램 객체처럼, 자신들의 컨텐츠나, 객체 내에 감추어진 데이터를 가질 수 있게 됨으로써,

            문서를 조작할 수 있게 된다.

            ⊙ Document

            ⊙ Node

            ⊙ Nodelist

            ⊙ Element

            ⊙ NamedNodeMap

   2-2. Document 인터페이스

         Document 인터페이스는 HTML 또는 XML 문서를 나타내기 위해 사용하는데 문서 트리

        구조에서 최상위 루트에 해당한다.

         1) Document 인터페이스의 특징

             (1) 엘리먼트, 텍스트노드, 주석(comments), 처리 명령(processing instructions) 등을

                 포함하지 않고는 Document 인터페이스가 존재할 수 없다.

             (2) Document 인터페이스는 이 객체들을 만드는데 필요한 메소드 요소들도 포함하며

                 생성된 Node 객체들은 Document와 Node를 관련짓는 속성을 가진다.

             (3) Document 인터페이스

                  ⊙ Element getDocumentElement()

                  ⊙ NodeList getElementsBytagName(String tagname)

                  ⊙ Element createElement(String tagName)

                  ⊙ Text createTextNode(String data)

                  ⊙ Attr createAttribute(String name)                 

         2) Document 인터페이스의 메소드

             (1) Element getDocumentElement()

                  XML 문서에서 루트요소를 얻기 위해 메소드로 처음 XML 트리 구조를 접할 때 가장

                 먼저 루트요소를 접근한 후에 세부적으로 접근하게 된다.

             (2) NodeList getElementsBytagName(String tagname)

                  XML 문서에서 요소리스트를 얻기 위해 사용되는 메소드인데 인자 값은 tagName이

                 올 수 있는데 tagName 이후의 모든 요소리스트를 반환하게 된다.

             (3) Element createElement(String tagName)

                  지정된 형식의 ELEMENT를 생성하는 메소드이다. 이 메소드는 인자 값으로

                 tagName을 사용할 수 있는데 XML에서 설명한 엘리먼트 형식 이름이다.          

             (4) Text createTextNode(String data)

                  지정된 문자열을 가진 Text 노드를 생성하는 메소드로 인자 값으로 그 노드에 대한

                 데이터를 가지며 리턴 되는 값은 새로운 Text 객체이다.

             (5) Attr createAttribute(String name)

                  주어진 이름의 Attribute를 생성하는데 인자 값은 속성의 이름인 name이다. 또한 반환

                 값은 새로운 Attr객체로써 만약 이름이 적당하지 않은 문자를 포함하면 에러를 발생함.

         3) Node 인터페이스

             Node 인터페이스는 XML 문서에서 노드 트리의 각 요소를 읽고 쓰기 위해 사용되는데

            DOM에서 가장 기본적인 자료형으로 쓰인다.

             (1) Node 인터페이스의 특징

                  Node 인터페이스는 원소, 주석, 속성들을 상속받으며 이중에 최하위 노드인 Text

                 노드는 자식을 가질 수 없다. 만약 Text노드에 자식을 추가하면 DOMException 에러

                 가 발생하게 된다.

                 ▣ 노드에 관한 정보(NodeType)

구분

노드종류

노드명

노드값

Element

ELEMENT_NODE

요소명

null

Attribute

ATTRIBUTE_NODE

속성명

속성값

Text

TEXT_NODE

#text

노드의 내용

CDATA

CDATA_SECTION_NODE

#cdata-section

노드의 내용

Entity

ENTITY_NODE

참조된 엔티티 이름

null

Entity

Reference

ENTITY_REFERENCE_NODE

선언된 엔티티 이름

null

Processing Instruction

PROCESSING_INSTRUCTION_NODE

PI이름

PI이름을 제외한 전체 내용

comment

COMMENT_NODE

#comment

주석 내용

Document

DOCUMENT_NODE

#document

null

Document Type

DOCUMENT_TYPE_NODE

루트요소명

null

Notation

NOTATION_NODE

Notaion선언이름

null

DOCUMENT

FRAGMENT

DOCUMENT_FRAGMENT

#document-fragment

null

             (2) Node 인터페이스의 메소드

                 ▣ Node getFirstChild() : 현재 노드의 첫 번째 노드를 나타내고 만약 그런 노드가

                    없으면 null값을 반환하며 리턴값은 node이다.                  

                 ▣ Node getNextSibling() : 현재 노드의 바로 다음 노드를 나타낼 때 사용되는 메소

                    드로서 만약 해당 노드가 없으면 null값을 반환하고, 리턴값은 node이다.

                 ▣ short getNodeType() : 노드의 종류를 나타내는 메소드로 반환되는 값은 정수형

                    값을 가진다.

                    < 노드의 종류와 상수 값 >

멤버필드 이름

정수값

노드 종류

Node.ELEMENT_NODE

1

Element

Node.ATTRIBUTE_NODE

2

Attr

Node.TEXT_NODE

3

Text

Node.CDATA_SECTION_NODE

4

CDATASection

Node.ENTITY_REFERENCE_NODE

5

EntityReference

Node.ENTITY_NODE

6

Entity

Node.PROCESSING_INSTRUCTION_NODE

7

ProcessingInstruction

Node.COMMENT_NODE

8

Comment

Node.DOCUMENT_NODE

9

Document

Node.DOCUMENT_TYPE_NODE

10

DocumentType

Node.DOCUMENT_FRAGMENT_NODE

11

DocumentFragment

Node.NOTATION_NODE

12

Notation


   ▣ string getNodeName() : 노드의 이름을 나타내는 메소드로 해당 노드의 이름을  문자열 형으로 반환한다.    

   ▣ string getNodeValue() : 노드의 값을 나타내는 메소드로 문자열형으로 해당 노드의 값을 반환한다.

   ▣ Document getOwnerDocument() : 현재 노드와 연결된 Document 객체를 나타내는 메소드로 새로운 노드를 만드는 데 사용되는 Document 객체이기도 하다. 이 노드가 Document이면 null값을 반환한다.

   ▣ Node appendChild(Node newChild) : appendChild 메소드는 새로운 노드를  추가할 때 사용하는데, newChild 노드를 현재 노드의 자식 리스트의 끝에 삽입한다. newChild가 DocumentFragment객체이면 DocumentFragment의 전체 내용이 현재 노드의 자식 리스트 안으로 삽입된다.

   ▣ Node getParentNode() : getParentNode 메소드는 현재 노드의 부모 노드를 나타

    내는 메소드로 All nodes, except Document, DocumentFragment, 그리고 Attribute

   를 제외한 모든 노드가 부모를 가질 수 있다. 그러나 노드가 만들어졌지만 트리에 추가되지 않았거나 트리에서 제거되지 않았을 경우 이것은 null 값을 반환한다.

   ▣ Node insertBefore(Node newChild, Node refChild) : insertBefore 메소드는 원하는 특정 위치(refChild)에 새로운 노드(newChild)를 삽입할 때 사용하느데, 이때 삽입되는 위치는 refChild의 이전 위치가 된다. 만약 refChild가 null값이면 자식 리스트의 끝에 newChild를 삽입하고, newChild가 DocumentFragment 객체이면 refChild 앞에 같은 순서로 모든 자식들이 삽입된다. 만약 newChild가 이미 트리안에 있으면 먼저 제거된 후에 삽입된다.

   ▣ Node replaceChild(Node newChild, Node refChild) : replaceChild 메소드는 새 노드를 나타내는 newChild와 리스트에서 대체되는 노드를 나타내는 refChild를 가지며, 노드 refChild를 newChild로 대체한다. newChild가 이미 트리상에 존재하지만 먼저 제거한 후에 삽입된다.

   ▣ Node removeChild(Node oldChild) : removeChild 메소드는 인자 값으로 제거될 노드 oldChild를 가지며, 자식 리스트로부터 oldChild에 해당하는 노드를 제거한다. 만약 현재 노드가 읽기 전용일 때에는 NO_MODIFICATION_ALLOWED_ERR 에러를 발생시킨다.

   ▣ NamedNodeMap getAttributes() : 노드의 속성리스트를 얻는다.

         4) NodeList 인터페이스                      

            NodeList 인터페이스는 노드들의 집합이 구현되는 방법을 정의하거나 순서가 있는 노드

            들의 집합을 표현할 때 사용한다.

             (1) NodeList 인터페이스의 특징

                  NodeList에서의 아이템은 0부터 시작되는 정수 인덱스에 의하여 접근할 수 있으며

                 NodeList를 통해 얻은 노드들의 순서는 XML에서 부모노드로부터 추가한 순서가

                 된다.

             (2) NodeList 인터페이스의 메소드

                 ▣ int getLength() : 노드의 개수를 나타내는데 자식 노드 인덱스 범위은 0에서

                    length-1까지이다.

                 ▣ Node item(int index) : 노드리스트 안에서 노드의 인덱스 값을 인자로 가지며,

                    노드리스트에서 index가 가리키는 노드를 반환한다. 또한 index가 리스트에서의

                    노드 개수보다 많거나 같을 때에는 null값을 반환한다.    

    5) Element 인터페이스                      

        Element 인터페이스는 HTML 문서 또는 XML 문서의 원소를 표현하기 위해 사용된다.

        (1) Element 인터페이스의 특징

         Attribute 객체 또는 속성값 등을 검색할 수 있는 메소드를 가지고 있다. 그리고 모든 속성이 간단한 문자열 값을 가지는 HTML에서 속성값에 직접 접근할 수 있는 방법들이 사용될 수 있다.

        (2) Element 인터페이스의 메소드

         ▣ getAttribute(String name) : 검색할 속성이름인 name을 인자로 갖는다. 이때 반환되는 값은 문자열인 Attr 값, 또는 그 속성이 지정된 값을 갖는데 만약, 기본 값이 없을 경우 빈 문자열이 된다.

         ▣ setAttribute(String name, String value) : 주어진 이름과 값을 갖는 속성을 추가하  는데 동일한 이름을 가진 속성이 존재할 경우 값을 변경한다.    

         ▣ removeAttribute(String name) : 주어진 이름(name)의 속성을 제거하는 메소드인  데 현재 노드가 읽기 전용일 때 NO_MODIFICATION_ALLOWD_ERR 에러를 발생시키며 반환 값은 없다.

    6) NameNodeMap 인터페이스                      

       NameNodeMap 인터페이스는 NodeList의 기능과 유사한데 이름을 이용하여 노드에 접근하고 NameNodeMap을 구현하는 객체에 포함된 속성들을 추출할 때 사용한다.

       (1) NameNodeMap 인터페이스의 특징

        접근하려는 노드들은 이름과 0부터 시작하는 정수 인덱스 값을 이용해 추출할 수 있다.

       (2) NameNodeMap 인터페이스의 메소드

         ▣ Node getNamedItem(String name) : 이름을 이용하여 지정된 노드를 검색하고, 검색할 노드의 이름을 인자로 갖는다. 반환되는 값은 지정된 이름을 가진 노드이며 지정된 이름이 맵에서 어떤 노드도 일치 않으면 null 값을 반환한다.

         ▣ Node removeNamedItem(String name) : 제거될 노드의 이름을 이자로 가지며  이름에 의해 지정된 노드를 제거한다. 만약 동일한 이름의 노드가 없다면 null값을 반환한다. 그리고 맵 전체에 지정한 이름의 노드가 없을 때 NOT_FOUND_ERR 에러를 발생시킨다.    

         ▣ Node item(int index) : 정수를 인자로 가지며 index에 해당하는 Attr 노드 객체를 리턴하고, index에 해당하는 특성이 존재하지 않으면 null값을 리턴한다.

신고
TAG DOM, xml

C++ xerces-c 파서를 이용한 프로그래밍 기초

Projects/CoVNC 2006.11.13 22:11 Posted by soulfree >동네청년<
http://xml.apache.org/xerces-c/에서 라이브러리를 다운로드 받아야 합니다. 이 사이트에서 “Xerces-C++ is a validating XML parser written in a portable subset of C++”

즉, C++로 XML를 파싱하도록 합니다. 몇개 파싱 라이브러리가 존재하는데 이 Parser는 Free입니다.아무튼 이 사이트에 있는 설치를 보고 설치합니다. lib, 그에 맞는 filepath를 Visual c++에 설정을 해야한다. 에러가 좀 많이 나서 DOM 기반 파서만 여기서 풀어놓겠습니다.

#include [xercesc/util/PlatformUtils.hpp]
#include [xercesc/util/XMLString.hpp]
#include [xercesc/util/Base64.hpp]
#include [xercesc/util/PlatformUtils.hpp]
#include [xercesc/parsers/AbstractDOMParser.hpp]
#include [xercesc/parsers/XercesDOMParser.hpp]
#include [xercesc/dom/DOMImplementation.hpp]
#include [xercesc/dom/DOMImplementationLS.hpp]
#include [xercesc/dom/DOMImplementationRegistry.hpp]
#include [xercesc/dom/DOMBuilder.hpp]
#include [xercesc/dom/DOMException.hpp]
#include [xercesc/dom/DOMDocument.hpp]
#include [xercesc/dom/DOMNodeList.hpp]
#include [xercesc/dom/DOMError.hpp]
#include [xercesc/dom/DOMLocator.hpp]
#include [xercesc/dom/DOMNamedNodeMap.hpp]
#include [xercesc/dom/DOMAttr.hpp]
#include [xercesc/dom/DOM.hpp]
#include [xercesc/dom/DOMNodeFilter.hpp]
#include [xercesc/framework/MemBufInputSource.hpp]
#include [xercesc/framework/MemBufFormatTarget.hpp]
#include [xercesc/framework/LocalFileFormatTarget.hpp]

   // Initialize the XML4C2 system.
   try
   {
       XMLPlatformUtils::Initialize();
   }

   catch(const XMLException& toCatch)
   {
       char *pMsg = XMLString::transcode(toCatch.getMessage());
       XERCES_STD_QUALIFIER cerr << "Error during Xerces-c Initialization.\n"
            << "  Exception message:"
            << pMsg;
       XMLString::release(&pMsg);
       return 1;
   }

1.  XML 생성하기  

DOMImplementation* impl =
  DOMImplementationRegistry::getDOMImplementation(X("Core"));

//(Root )노드 생성
DOMDocument* doc = impl->createDocument(
         0,                    // root element namespace URI.
         X(”company”),   // root element name
         0);                   // document type object (DTD).

DOMElement* rootElem = doc->getDocumentElement();  

// node 생성와 값에 대한 값을 넣는다.
// 노드 생성
DOMElement*  prodElem = doc->createElement(X(”product”));
rootElem->appendChild(prodElem);

// 그 노드에 맞는 값
DOMText*    prodDataVal = doc->createTextNode(X(”Xerces-C”));
          prodElem->appendChild(prodDataVal);

2. 생성한 XML 파일로 저장하기.  

static XMLCh*  gOutputEncoding = 0;

DOMWriter  *theSerializer = ((DOMImplementationLS*)impl)->createDOMWriter();

// set user specified output encoding
theSerializer->setEncoding(gOutputEncoding);
XMLFormatTarget *myFormTarget;

myFormTarget = new LocalFileFormatTarget(”c://output.xml”);

theSerializer->writeNode(myFormTarget, *doc);  
3. 이미 생성된 XML 파일 검색하기  

// 이미 기본 설정한거라 보고…다운받으면 그 안에 소스가 존재합니다. 참고 바람.
// 외부 파일을 가져온다.
parser->resetDocumentPool();
doc = parser->parseURI(xmlFile);

// 파일을 검색할때는 재귀가 기본이다.

// DOMNode *n

if (n->getNodeType() == DOMNode::ELEMENT_NODE)

{

    // 노드의 이름 가져온다.
    char *name =  XMLString::transcode(n->getNodeName());

    // 노드에 대한 값을 가져온다.
    char* nodeValue = XMLString::transcode (n->getFirstChild()->getNodeValue ());

    // 속성
   if(n->hasAttributes()) {

        DOMNamedNodeMap *pAttributes = n->getAttributes();
        int nSize = pAttributes->getLength();

        // 한 노드에 붙어있는 모든 속성과 값을 가져온다.
        for(int i=0; nSize>i; i++){  
                   DOMAttr *pAttributeNode = (DOMAttr*) pAttributes->item(i);
                   // get attribute name
                   char *name = XMLString::transcode(pAttributeNode->getName());
                 
                   XERCES_STD_QUALIFIER cout << "Attribute Name : " << name << " -> “;
                   XMLString::release(&name);
                 
                   // get attribute type
                   name = XMLString::transcode(pAttributeNode->getValue());
                   XERCES_STD_QUALIFIER cout << “Attribute Value : “<< name << XERCES_STD_QUALIFIER endl;
                   XMLString::release(&name);
               }
   }
}

신고
TAG DOM, xercesc, xml

DOM에 대한 소개

Projects/CoVNC 2006.11.13 21:59 Posted by soulfree >동네청년<

DOM(Document Object Model)

DOM은 HTML과 XML 문서를 연결시켜주는 프로그래밍적 인터페이스이다. DOM은 어떤 XML 문서를 열고 XML 데이터를 처리할 수 있는 방법을 정의하고 있다.

DOM을 이용하면 개발자는 XML 문서를 만들 수 있고, XML 문서 구조를 내비게이션할 수 있으며, 그 요소들을 추가/수정/삭제할 수 있다.

DOM의 중요한 목적은 아주 다양한 환경과 애플리케이션에서 사용할 수 있는 표준적인 프로그래밍 인터페이스를 제공하는 것이다.

W3C DOM은 어떠한 프로그래밍 언어로도 개발될 수 있도록 고안되었다.


노드(Node) 인터페이스

다음 장에서 살펴보겠지만 XML 문서를 읽어들이기 위해 XML 파서(XML Parser, XML 해석기)라고 불리는 프로그램이 사용될 것이다. 문서가 메모리로 올라오면 Document Object Model (DOM) 를 통해 XML 문서의 정보를 읽고 조작할 수 있게 된다.

DOM은 XML 문서 구조를  트리 형식으로 나타낸다. documentElement 는 그 트리의 탑-레벨이다. 이 요소는 하나 또는 그 이상의 자식 노드(childNodes)를 가진다. 이 자식 노드는 그 트리의 가지로 보면 된다.

노드 인퍼페이스(Node Interface)는 XML 노드 트리의 각 요소를 읽고 쓰기 위해 사용된다. 각각의 노드를 접근하기 위해 documentElement의 childNodes 속성을 접근할 수 있다.

Microsoft XML parser 는 인터넷 익스플로러에서 DOM을 입증하기 위해 사용된다. 이 파서는 노드 트리를 탐색하고, 노드와 그 노드의 속성 값에 접근하고, 노드의 추가/삭제, 노드 트리를 XML로 바꾸는 등의 모든 필요한 기능들을 지원한다.

Microsoft XML parser의 모든 입증된 기능은 공식적인 W3C XML DOM 권고안을 따른다.

Microsoft XML parser는 현재 전체 13개의 노드 타입을 지원한다. 가장 많이 사용되는 노드 타입은 다음 표와 같다:

노드 타입(Node Type)
Document type<!DOCTYPE food SYSTEM "food.dtd">
Processing instruction<?xml version="1.0"?>
Element<drink type="beer">Carlsberg</drink>
Attributetype="beer"
TextCarlsberg

DOM 관련 예제를 보려면 Microsoft Internet Explorer 5.0 이상을 사용해야 한다

신고
TAG DOM, xml