资源列表
[中文信息处理] siuying_segment
说明:「我是中國人」,ChineseTokenizer會將之分割為五個中文字:「我、是、中、國、人」,CJKTokenizer則會將之分割為「我是、是中、中國、國人」四個二節的詞。前者的問題是沒有考慮中文詞語的問題,如搜尋「國中」一樣搜尋到「我是中國人」。後者的問題則是制做了大量沒意義的詞如「是中」「國人」,讓索引沒必要地增大、降低搜尋效率。<李利华> 在 2008-10-13 上传 | 大小:1.59mb | 下载:0
[中文信息处理] Write_Tools
说明:写作工具,应朋友要求编写的代码,可以把日常写作中搜集的各类资料整理归类,并理清思路专心创作,希望多多交流。<gold> 在 2008-10-13 上传 | 大小:1.61mb | 下载:0
[中文信息处理] siuying_segment
说明:「我是中國人」,ChineseTokenizer會將之分割為五個中文字:「我、是、中、國、人」,CJKTokenizer則會將之分割為「我是、是中、中國、國人」四個二節的詞。前者的問題是沒有考慮中文詞語的問題,如搜尋「國中」一樣搜尋到「我是中國人」。後者的問題則是制做了大量沒意義的詞如「是中」「國人」,讓索引沒必要地增大、降低搜尋效率。<李利华> 在 2025-02-06 上传 | 大小:1.59mb | 下载:0
[中文信息处理] fenciserver
说明:中文分词程序,实现简单的分词,有简易的智能-Chinese word segmentation program to segment a simple word, there is a simple intelligent<李庆文> 在 2025-02-06 上传 | 大小:1.62mb | 下载:0
[中文信息处理] Converters-apr-2009
说明:More old version of converters. Very useful for combination modules which are writed on different language.<Max> 在 2025-02-06 上传 | 大小:1.6mb | 下载:0