XML, PDF, HTML, MS Word 텍스트 추출 라이브러리

Java/Lucene2012. 1. 6. 01:23

[ 2009년 2월 19일에 작성한 글입니다 ]

여러 포멧의 문서를 인덱싱 하려면 텍스트 추출기가 필요합니다.
문서관리 시스템을 만들때 필수적인 라이브러리로 문서 등록시 텍스트를 추출하여 검색 인덱스를 생성하고 파일을 저장함으로써 파일 내용 검색을 가능케 합니다.

[XML]
- Dom, Sax, JDom,
- Piccolo (http://piccolo.sourceforge.net)
- Apache Disester (http://jakarta.apache.org/commons/digester/)

[PDF]
- PDFBox (http://www.pdfbox.org)
- Xpdf (http://www.foolabs.com/xpdf)
- JPedal (http://www.jpedal.org)
- Etymon PJ( http://www.etymon.com)

[Html]
Jtidy (http://jtidy.sourceforge.net )
NekoHTML (http://people.apache.org/~andyc/neko/doc/index.html)
HTMLParser( http://htmlparser.sourceforge.net)

[MS Word]
POI (http://jakarta.apache.org/poi)
Text Extractors(http://textmining.org)
Antiword (http://www.winfield.demon.nl)
OpenOffice SDK (http://www.openoffice.org)

실제로 돌려보면 그래픽 위주의 파워포인트 같은 문서는 깔끔한 텍스트 추출이 불가능하네요...

Apache Lecene 관련 링크 (0)	2012.01.06

Posted by 꼰스

웹에 풍기는 Java 향기