'Java/Lucene'에 해당되는 글 2건

  1. 2012.01.06 Apache Lecene 관련 링크
  2. 2012.01.06 XML, PDF, HTML, MS Word 텍스트 추출 라이브러리
Java/Lucene2012. 1. 6. 01:30
[ 2009년 2월 19일에 작성한 글입니다 ]

아파치에서 오픈소스로 진행되는 Java 기반 FullText 검색엔진 Lucene 에 대한 정보들 입니다.
Google 에서 'apache lucene 한글 형태소' 로 검색을 해서 얻은 결과를 정리한 것입니다.

[아마추어가 만드는 검색엔진 DABOT(다봇) for 루씬(Lucene)]
http://dabot.tistory.com

[용식님 블로그의 Lucene 카테고리]
http://devyongsik.tistory.com/category/OpenSource/lucene

[루씬 링크모음]
http://lucene.egloos.com/1368209

[루씬 한글분석기 오픈소스 프로젝트]
http://cafe.naver.com/korlucene.cafe

[???]
http://www.wiseant.net/tc/wiseant/category/프로그래밍/Lucene(루씬)

[???]
http://theeye.pe.kr/entry/Java-Lucene-루씬을-이용한-JSP용-클래스?category=11

[???]
http://irgroup.org/zbxe/lucene

[루씬용 한글형태소 분석기 solr에 적용 사례]
http://esconsult.egloos.com/961906

[???]
http://blog.naver.com/songws72/50041586496

언제나 무료이면서 정확한 한글 자연어 검색엔진이 나올까요? (너무 도둑심보인가? ㅋ)

'Java > Lucene' 카테고리의 다른 글

XML, PDF, HTML, MS Word 텍스트 추출 라이브러리  (0) 2012.01.06
Posted by 꼰스
Java/Lucene2012. 1. 6. 01:23
[ 2009년 2월 19일에 작성한 글입니다 ]

여러 포멧의 문서를 인덱싱 하려면 텍스트 추출기가 필요합니다.
문서관리 시스템을 만들때 필수적인 라이브러리로 문서 등록시 텍스트를 추출하여 검색 인덱스를 생성하고 파일을 저장함으로써 파일 내용 검색을 가능케 합니다.

[XML]
- Dom, Sax, JDom,
- Piccolo (http://piccolo.sourceforge.net)
- Apache Disester (http://jakarta.apache.org/commons/digester/)

[PDF]
- PDFBox (http://www.pdfbox.org)
- Xpdf (http://www.foolabs.com/xpdf)
- JPedal (http://www.jpedal.org)
- Etymon PJ( http://www.etymon.com)

[Html]
Jtidy (http://jtidy.sourceforge.net )
NekoHTML (http://people.apache.org/~andyc/neko/doc/index.html)
HTMLParser( http://htmlparser.sourceforge.net)

[MS Word]
POI (http://jakarta.apache.org/poi)
Text Extractors(http://textmining.org)
Antiword (http://www.winfield.demon.nl)
OpenOffice SDK (http://www.openoffice.org)

실제로 돌려보면 그래픽 위주의 파워포인트 같은 문서는 깔끔한 텍스트 추출이 불가능하네요...

'Java > Lucene' 카테고리의 다른 글

Apache Lecene 관련 링크  (0) 2012.01.06
Posted by 꼰스