티스토리 뷰

개발자노트

Lucene 1.3 final released

앤디군 2003. 12. 29. 16:02
Jakarta Lucene - Overview - Jakarta Lucene

java로 된 검색엔진 lucene 1.3이 발표되었습니다. 이미 3일전에 발표됐군요.

이전 버전에서는 StandardTokenizer가 한글 형태소를 제대로 분석하지 못해서 따로 Tokenizer를 만들어줘야했었는데 이번 버전에서는 기본 tokenizer를 이용해서도 한글 처리가 가능할것 같습니다. change log에 다음과 같은 내용이 있군요.


5. Fix StandardTokenizer's handling of CJK characters (Chinese,
Japanese and Korean ideograms). Previously contiguous sequences
were combined in a single token, which is not very useful. Now
each ideogram generates a separate token, which is more useful.
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함