웹에 풍기는 Java 향기

XML, PDF, HTML, MS Word 텍스트 추출 라이브러리

[ 2009년 2월 19일에 작성한 글입니다 ]

여러 포멧의 문서를 인덱싱 하려면 텍스트 추출기가 필요합니다.
문서관리 시스템을 만들때 필수적인 라이브러리로 문서 등록시 텍스트를 추출하여 검색 인덱스를 생성하고 파일을 저장함으로써 파일 내용 검색을 가능케 합니다.

[XML]
- Dom, Sax, JDom,
- Piccolo (http://piccolo.sourceforge.net)
- Apache Disester (http://jakarta.apache.org/commons/digester/)

[PDF]
- PDFBox (http://www.pdfbox.org)
- Xpdf (http://www.foolabs.com/xpdf)
- JPedal (http://www.jpedal.org)
- Etymon PJ( http://www.etymon.com)

[Html]
Jtidy (http://jtidy.sourceforge.net )
NekoHTML (http://people.apache.org/~andyc/neko/doc/index.html)
HTMLParser( http://htmlparser.sourceforge.net)

[MS Word]
POI (http://jakarta.apache.org/poi)
Text Extractors(http://textmining.org)
Antiword (http://www.winfield.demon.nl)
OpenOffice SDK (http://www.openoffice.org)

실제로 돌려보면 그래픽 위주의 파워포인트 같은 문서는 깔끔한 텍스트 추출이 불가능하네요...

저작자표시 (새창열림)

'Java > Lucene' 카테고리의 다른 글

Apache Lecene 관련 링크 (0)	2012.01.06

Posted by 꼰스

MPI 에 관심을 갖게 된 이유

난 물리학을 잘 모르는 물리학도다... ㅡㅡ;

어릴적 대학졸업 논문이랍시고 정말 허접스러운(애덜 장난같은~) 아동용 Java Applet 가상실험실을 만들었었다.
포트리스 게임처럼 대포가 각도와 추진력을 설정하고 발포를 하면 그냥 대포알이 포물선을 그리며 날라가는 모습을 그래픽적으로 처리한 것 뿐이다. 이건 물리학이 아니라 프로그래밍을 배우는 초보자가 그리픽을 가지고 연습한 수준이라고 밖에 볼수 없는터라.. 챙피하단 거다. 공기의 저항과 같은 여러가지 Factor 들이 조합된 시뮬레이션이었다면 참 좋았을것을...

이렇듯 시간에 쫓겨 허접스런 논문을 만들기전에 선정되었던 주제가 바로 PVM (Parallel Virtual Machine)이다.

새벽 3시가 다된 지금.. 구글링을 해본다.
PVM을 처음 알게된 1996년. 14년이 흐른 지금 이 기술은 어디까지 발전되어 있을까?
PVM와 연관된 MPI (Message Passing Interface) 라는 용어도 보인다.
PVM이던 MPI던 14년전에 시작해서 지금까지 이 기술들에 관심을 가지고 공부해왔다면 뭔가 큰 성과가 나지 않았을까 하는 얼토당토한 상상도 해본다. 허긴 그것이 무엇이건간에 이토록 오랜시간을 투자하면 안될것이 어디 있겠는가?

난 지금 Java 엔지니어다.
Java MPI 스팩인 MPJ(Message Passing in Java), JMPI(Java Message Passing Interface) 등을 공부해 보려한다.
복잡한 수식의 계산, 물리학 시뮬레이션, 기상 분석, 에니메이션 그래픽 랜더링 등에 두루 사용될 수 있는 기술이 아닐까 싶다.

응용기술은 강하지만 기반기술이 많이 부족해 보이는 "IT강국 코리아" !
게임은 많이 개발하지만 제대로 된 국산 3D 게임 엔진을 찾아보기 힘든 "게임강국 코리아" !
지금 난 아무것도 모른다. 앞으로 차근차근 알수 있게 되겠지..
기반기술은.. 뿌리와도 같다..

저작자표시 (새창열림)

Posted by 꼰스

Windchill Deploy Ant Script

Windchill 은 Rose 모델링을 통한 소스 Generation 과정을 통해 개발이 진행되므로 개발환경 구축하기에 힘든 면이 있습니다. 여러가지 방법이 있겠으나 서버환경과 Eclipse Workspace를 분리해야한다는 대전제 하에 class, jsp 등을 Ant 스크립트를 통하여 옮기는 방법을 선택하여 사용하고 있습니다.

아래 build 스크립를 이용하여 Eclipse Workspace의 결과물을 Windchill로, Windchill 하위에 Generation 된 소스파일을 Eclipse Workspace 로 편리하게 이동할 수 있습니다. 샘플이니 자유롭게 수정해서 사용하시면 됩니다.

build-windchill.xml 은 Eclipse Project Root 에 넣고 Eclipse Ant View 에 등록하여 사용합니다.

build-windchill.xml