文件名称:siuying_segment
介绍说明--下载内容均来自于网络,请自行研究使用
「我是中國人」,ChineseTokenizer會將之分割為五個中文字:「我、是、中、國、人」,CJKTokenizer則會將之分割為「我是、是中、中國、國人」四個二節的詞。前者的問題是沒有考慮中文詞語的問題,如搜尋「國中」一樣搜尋到「我是中國人」。後者的問題則是制做了大量沒意義的詞如「是中」「國人」,讓索引沒必要地增大、降低搜尋效率。
相关搜索: ChineseTokenizer
(系统自动生成,下载前可以参看下载内容)
下载文件列表
build.xml
src
...\org
...\...\apache
...\...\......\lucene
...\...\......\......\analysis
...\...\......\......\........\cjk
...\...\......\......\........\...\CJKAnalyzer.java
...\...\......\......\........\...\CJKTokenizer.java
...\...\......\......\........\cn
...\...\......\......\........\..\ChineseAnalyzer.java
...\...\......\......\........\..\ChineseFilter.java
...\...\......\......\........\..\ChineseTokenizer.java
...\...\......\......\........\cw
...\...\......\......\........\..\bothlexu8.txt
...\...\......\......\........\..\CharStream.java
...\...\......\......\........\..\CStandardTokenizer.java
...\...\......\......\........\..\CStandardTokenizer.jj
...\...\......\......\........\..\CStandardTokenizerConstants.java
...\...\......\......\........\..\CStandardTokenizerTokenManager.java
...\...\......\......\........\..\CWordAnalyzer.java
...\...\......\......\........\..\CWordFilter.java
...\...\......\......\........\..\CWordFilter.java~
...\...\......\......\........\..\CWordTokenizer.java
...\...\......\......\........\..\CWordTokenizer.java~
...\...\......\......\........\..\data
...\...\......\......\........\..\....\sforeign_u8.txt
...\...\......\......\........\..\....\snotname_u8.txt
...\...\......\......\........\..\....\snumbers_u8.txt
...\...\......\......\........\..\....\ssurname_u8.txt
...\...\......\......\........\..\....\tforeign_u8.txt
...\...\......\......\........\..\....\tnotname_u8.txt
...\...\......\......\........\..\....\tnumbers_u8.txt
...\...\......\......\........\..\....\tsurname_u8.txt
...\...\......\......\........\..\ParseException.java
...\...\......\......\........\..\Segmenter.jav.old
...\...\......\......\........\..\segmenter.java
...\...\......\......\........\..\segmenter.java~
...\...\......\......\........\..\SegmenterUtils.java
...\...\......\......\........\..\SegmenterUtils.java~
...\...\......\......\........\..\simplexu8.txt
...\...\......\......\........\..\test
...\...\......\......\........\..\....\SegmenterUtilsTest.java
...\...\......\......\........\..\....\SegmenterUtilsTest.java~
...\...\......\......\........\..\Token.java
...\...\......\......\........\..\TokenMgrError.java
...\...\......\......\........\..\tradlexu8.txt
...\...\......\......\demo
...\...\......\......\....\DeleteFiles.java
...\...\......\......\....\FileDocument.java
...\...\......\......\....\IndexCJKFiles.java
...\...\......\......\....\IndexFiles.java
...\...\......\......\....\SearchCJKFiles.java
...\...\......\......\....\SearchFiles.java
src
...\org
...\...\apache
...\...\......\lucene
...\...\......\......\analysis
...\...\......\......\........\cjk
...\...\......\......\........\...\CJKAnalyzer.java
...\...\......\......\........\...\CJKTokenizer.java
...\...\......\......\........\cn
...\...\......\......\........\..\ChineseAnalyzer.java
...\...\......\......\........\..\ChineseFilter.java
...\...\......\......\........\..\ChineseTokenizer.java
...\...\......\......\........\cw
...\...\......\......\........\..\bothlexu8.txt
...\...\......\......\........\..\CharStream.java
...\...\......\......\........\..\CStandardTokenizer.java
...\...\......\......\........\..\CStandardTokenizer.jj
...\...\......\......\........\..\CStandardTokenizerConstants.java
...\...\......\......\........\..\CStandardTokenizerTokenManager.java
...\...\......\......\........\..\CWordAnalyzer.java
...\...\......\......\........\..\CWordFilter.java
...\...\......\......\........\..\CWordFilter.java~
...\...\......\......\........\..\CWordTokenizer.java
...\...\......\......\........\..\CWordTokenizer.java~
...\...\......\......\........\..\data
...\...\......\......\........\..\....\sforeign_u8.txt
...\...\......\......\........\..\....\snotname_u8.txt
...\...\......\......\........\..\....\snumbers_u8.txt
...\...\......\......\........\..\....\ssurname_u8.txt
...\...\......\......\........\..\....\tforeign_u8.txt
...\...\......\......\........\..\....\tnotname_u8.txt
...\...\......\......\........\..\....\tnumbers_u8.txt
...\...\......\......\........\..\....\tsurname_u8.txt
...\...\......\......\........\..\ParseException.java
...\...\......\......\........\..\Segmenter.jav.old
...\...\......\......\........\..\segmenter.java
...\...\......\......\........\..\segmenter.java~
...\...\......\......\........\..\SegmenterUtils.java
...\...\......\......\........\..\SegmenterUtils.java~
...\...\......\......\........\..\simplexu8.txt
...\...\......\......\........\..\test
...\...\......\......\........\..\....\SegmenterUtilsTest.java
...\...\......\......\........\..\....\SegmenterUtilsTest.java~
...\...\......\......\........\..\Token.java
...\...\......\......\........\..\TokenMgrError.java
...\...\......\......\........\..\tradlexu8.txt
...\...\......\......\demo
...\...\......\......\....\DeleteFiles.java
...\...\......\......\....\FileDocument.java
...\...\......\......\....\IndexCJKFiles.java
...\...\......\......\....\IndexFiles.java
...\...\......\......\....\SearchCJKFiles.java
...\...\......\......\....\SearchFiles.java