资源列表
[中文信息处理] CRF++-0.50
说明:CRF++ 5.0的 source 应用在自然语言识别等领域的机器训练,对2G以上的语料不会出现内存溢出等问题-CRF++ 5.0 of source identification in natural language applications in areas such as machine training corpus of more than 2G of memory will not overflow and other i<李菲> 在 2025-02-08 上传 | 大小:360kb | 下载:0
[中文信息处理] ictclas4j_0[1].9.1
说明:基于java语言的分词系统,可以标注词性、词频等信息,可用于二次开发-Based on the java language word segmentation system that can mark parts of speech, word frequency and other information, can be used for secondary development<罗义兵> 在 2025-02-08 上传 | 大小:6.49mb | 下载:0
[中文信息处理] libcharguess-src-1.0b.tar
说明:判断一串字符是属于什么字符集的程序,如判断是否属于utf-8,gb2312-A string of characters to determine what character set are the procedures, such as to determine whether they are utf-8, gb2312<站长> 在 2025-02-08 上传 | 大小:248kb | 下载:0
[中文信息处理] TextClassify
说明:文本分类算法,含有三个分类算法,朴素贝叶斯,KNN,VSM-Text classification algorithms, containing three classification algorithms, Naive Bayes, KNN, VSM<lingqiang> 在 2025-02-08 上传 | 大小:3.5mb | 下载:0
[中文信息处理] lunce-IKAnalyzer
说明:中文分词工具,利用lucence的接口写的,进行最长匹配,正向和反向匹配后根据词数选择。别人写的,我用了,觉得不错,简单,上手快-Chinese word segmentation tool lucence interface written for the longest match, the forward and reverse to match the number under the word choice. Someone<xielang> 在 2025-02-08 上传 | 大小:848kb | 下载:1
[中文信息处理] fenci_ICTCLAS
说明:基于中科院计算所的ICTCLAS系统开发的分词工具,只有一个类,上手最快,功能强大-Based on calculations of the Chinese Academy of Sciences ICTCLAS segmentation system development tools, there is only one category, the fastest to use and powerful<xielang> 在 2025-02-08 上传 | 大小:2.13mb | 下载:0