728x90

파이썬을 사용하여 XML을 다룰때 BeautifulSoup을 많이 사용합니다.
새로 환경을 구성하여 BeautifulSoup을 이용하는데
이전에 보지 못했던 에러가 발생했습니다. 

강의 예제 코드 돌리다만난 에러라니...

 

핵심 에러 메세지는 다음과 같습니다.
BeautifulSoup 사용시 지정한 Feature가 없다는 내용입니다. 

FeatureNotFound: Couldn't find a tree builder with the features you requested: xml. Do you need to install a parser library?

 

lxml 패키지 설치하기

`xml`이 문제라고 하는데 정확히 어떤 라이브러리를 설치해야 하는지 알려주지는 않는군요.
구글을 통해 검색을 해보니 `lxml` 라이브러리의 설치가 필요한 것 같습니다. 
Jupyter 노트북을 사용중이라 아래와 같이 설치를 진행해 봤습니다.

!pip 로 주피터 노트북에서 직접 패키지를 설치해 봅니다

설치가 되었으니 이제 잘 되겠지...했으나...
계속 패키지가 없다고 에러가 나옵니다.
난감하네요.

하아... 계속 에러가...

 

그래서 조금 더 검색을 해보니
주피터 노트북을 재기동 하라는 이야기가 있습니다. 
구동중인 주피터를 중지하고 다시 실행했습니다.

Shutdown this notebook server (y/[n])? y
[C 11:01:20.436 NotebookApp] Shutdown confirmed
[I 11:01:20.439 NotebookApp] Shutting down 3 kernels
[I 11:01:20.443 NotebookApp] Kernel shutdown: 7a48be4a-c426-427b-b974-e8e26fccc994
[I 11:01:20.443 NotebookApp] Kernel shutdown: 45325d5b-9d8f-4f43-956f-d2b030475625
[I 11:01:20.443 NotebookApp] Kernel shutdown: d1b14c79-3741-4a14-9d0c-a5fe03a65532
[I 11:01:20.567 NotebookApp] Starting buffering for 45325d5b-9d8f-4f43-956f-d2b030475625:2d7ed833d3fe445c8b3ad49096ce9deb
[I 11:01:20.571 NotebookApp] Kernel shutdown: 45325d5b-9d8f-4f43-956f-d2b030475625
...
...
[I 11:01:20.967 NotebookApp] Shutting down 0 terminals
%
% jupyter notebook
[I 11:01:28.154 NotebookApp] Serving notebooks from local directory: /Users/nopd/dev
[I 11:01:28.154 NotebookApp] Jupyter Notebook 6.4.8 is running at:
[I 11:01:28.154 NotebookApp] http://localhost:8888/?token=731a38a75b038a956951174a7aa6da6d75acd13fe855ebd6
[I 11:01:28.154 NotebookApp]  or http://127.0.0.1:8888/?token=731a38a75b038a956951174a7aa6da6d75acd13fe855ebd6
[I 11:01:28.154 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).
[C 11:01:28.157 NotebookApp]

    To access the notebook, open this file in a browser:
        file:///Users/nopd/Library/Jupyter/runtime/nbserver-45577-open.html
    Or copy and paste one of these URLs:
        http://localhost:8888/?token=731a38a75b038a956951174a7aa6da6d75acd13fe855ebd6
     or http://127.0.0.1:8888/?token=731a38a75b038a956951174a7aa6da6d75acd13fe855ebd6

다시 파일을 열어 코드를 실행해보니 이제 잘 됩니다. 

주피터 재기동후 성공!

 

요약

0. 에러를 만난다
1. 에러를 잘 보고 필요한 패키지를 찾는다 : lxml
2. 주피터 노트북을 재기동한다
3. 계속 파이썬 코드를 잘 짠다

728x90
728x90
XE는 사용자가 꽤 많은 CMS (Content Management System) 임에도 불구하고 열악한 기술지원과 매뉴얼 때문에 커스터마이징을 필요로 하는 사람들에게 참 많은 숙제를 안겨주고 있다. 제로보드 시절만 해도 그렇지 않았는데 네이버가 인수한 이후에는 뭔가 부드럽지 않은 분위기다.

오늘 올리는 내용은 사실 포스팅으로 남겨 두기도 참 뻘쭘한 내용이다. XE 개발자 매뉴얼에 제대로 기술이 되어 있지 않아 삽질한 내용이기 때문이다. MySql 에서 쿼리 크기를 제한할 때는 쿼리 뒷부분에 limit [숫자] 형태로 쿼리 갯수를 제한할 수 있다. MS-SQL 에서 select 문 바로 뒤에 top [숫자] 를 적어주는 것과 동일한 효과다.

select * 
  from xe_documents 
 where module_srl=3038
   and voted_count > 5
 limit 5


특정한 게시판 모듈에서 추천수가 5 이상인 게시물을 가져오되 5개를 넘지 않도록 만든 아주 간단한 쿼리다. 이 쿼리를 XE 가 사용하는 XML 형태로 변경하면 어떻게 될까? 구현하는 사람에 따라 차이가 있겠지만 아래와 같은 XML 로 만들어질 것 같다. 


	
        
		
	
		
		
		
	
	
		
	
	


삽질을 했던 이유는 바로 마지막의 <list_count> 부분이다. 개발자 매뉴얼 그 어디에도 <list_count> 엘레멘트가 <navigation> 엘레멘트의 하위 엘레멘트라는 표기가 없다. 물론 <navigation> 엘레멘트 설명에는 "정렬 순서나 페이징을 지원" 이라고 되어 있지만 그 설명을 "따라서 <list_count> 는 <navigation> 의 자식입니다"로 해석할 수 있는 사람은 몇 안될것 같다. 누군가 동일한 삽질을 할까봐 포스팅으로 남겨둔다.

- NoPD - 
728x90
728x90
얼마전에 올렸던 포스팅에서 OpenXML을 이용하여 대용량 XML 형태 데이터를 MS-SQL 데이터베이스에 효과적으로 넣는 방법에 대해서 공유를 했었다. 하지만 OpenXML 을 이용하는 방법은 조금 까다로운 감이 없지 않고 구문이 복잡해져서 복잡한 XML 데이터를 핸들링 할때는 불편한게 사실이다.

오늘 소개해 드리는 방법은 이보다 더 간단한 방식으로 SQL Server 2005, 2008 등에서 XML 에 대한 자체적인 지원을 시작하면서 사용 가능해진 방법이다. OpenXML 을 이용하는 방법보다 단순하게 쿼리를 만들 수 있는 장점이 있는 반면 OpenXML 이 상당히 구체적으로 노드와 어트리뷰트, 값을 지정해서 뽑아내는 것보다 명확하지 않아 보일 수 있는 단점도 있다.
DECLARE @x XML

SET @x = N'
  
    1
    2
    3
  
'

SELECT 
	x.y.value('@name[1]', 'VARCHAR(20)'),
	x.y.value('.', 'INT')
FROM @x.nodes('my_data/item_list/item') as x(y)
변수를 XML 형태로 선언을 하고 파싱을 하고자 하는 XML 데이터를 이 변수에 넣어주는 것에서부터 시작해 보자. 데이터는 객체의 nodes 라는 속성을 통해서 읽어내고자 하는 XML 의 노드를 지정하여 데이터 소스로 사용하게 된다. Select 문에서 읽어들인 값에 대해 .value 속성을 통해 이름과 자료형을 기술해주면 데이터가 파싱되어 결과로 출력된다.


- NoPD -
728x90

+ Recent posts