搜索资源列表
分词051024
- 中文信息处理,例如将可含有汉字和拼音的将TXT文本中的汉字和拼音用空格隔开-Chinese information processing, for example, may contain characters and the alphabet will TXT version of the characters and the alphabet with a space separated
wordseg
- 中文文本分类中对文本进行分词处理,以降温本表示称词的集合,然后用词向量来进行分类。-Chinese text classification of text-word processing, said to cool the pool said the words, then word vector to classify.
中文分词函数库CipSegSDKV1.03
- 东大做中文分词的源代码,主要是用于搜索引擎的中文文本预处理-Tung Chinese-made version of the source code is mainly for the Chinese search engine Hypertext
zidongfenci3.0
- 这个是我们的中文信息处理的作业,我是用mfc结合sqlserver写的,可以自己一步一步的进行分词,并且可以对文本进行分词,还可以自己的找到其中的歧义字段,并自动保存到文件
taggingPOS
- 中文信息处理的源程序,用于设置词汇在文本中的位置信息,vc++编程,.cpp文件
基于KNN的中文文本自动分类研究
- 在介绍SVM和KNN分类算法的基础上,提出了一种新的、较简单的,但更为合理的基于表模型的文档表示方 法,阐述了一种基于表模型的分类算法———TableKNN算法。通过实验比较TableKNN算法与传统KNN算法应用于文 本分类的效果,证实了TableKNN算法在处理文本分类问题上的优越性。
中文网页自动分类器
- 利用knn算法实现了一个中文网页自动分类器, 包括网页预处理,ictclas中文分词,基于tf-idf的文本特征表示,基于df的特征选取和基于knn的分类算法,最后通过struts2框架web发布
prop200406
- 概率句法分析器对于统计自然语言处理的很多高层应用,如统计机器翻译、问答系统、信息抽取、文本挖掘等都是至关重要的,直接决定这些应用系统的最终性能。本系统是一个概率型的Chart分析器。系统的分析算法是采用了多种优化策略。分析结果是概率最大的一棵分析树。在概率模型方面,本系统在一定程度上突破了pcfg的上下文无关假设,引入了结构上下文条件,使得分析结果正确率有了明显提高。在使用宾州中文树库进行的实验中,我们的分析器的标记召回率和标记精确率平
分词051024
- 中文信息处理,例如将可含有汉字和拼音的将TXT文本中的汉字和拼音用空格隔开-Chinese information processing, for example, may contain characters and the alphabet will TXT version of the characters and the alphabet with a space separated
wordseg
- 中文文本分类中对文本进行分词处理,以降温本表示称词的集合,然后用词向量来进行分类。-Chinese text classification of text-word processing, said to cool the pool said the words, then word vector to classify.
中文分词函数库CipSegSDKV1.03
- 东大做中文分词的源代码,主要是用于搜索引擎的中文文本预处理-Tung Chinese-made version of the source code is mainly for the Chinese search engine Hypertext
FileProgress1
- 文本结构化技术的初步实现及其中文信息处理的算法, 主要以论述为主!-text structure technology to achieve the initial and the Chinese information processing algorithm, based mainly discussed!
taggingPOS
- 中文信息处理的源程序,用于设置词汇在文本中的位置信息,vc++编程,.cpp文件-Chinese information processing of the source code, to set up the vocabulary in the text of the location information, vc++ Programming,. Cpp file
KaiYuanIctclas
- ICTCLAC开源代码,可用在中文文本信息处理上,为信息抽取进行中文分词、词性标注处理,准确度达到85 以上,-failed to translate
softwarecode
- 中文分词是中文信息处理中的重要环节,中文分词技术广泛应用于自动翻译、文本检索、语音识别、文本校对、人工智能以及搜索引擎技术等领域。中文分词算法的选择,中文词库的构建方式,词库中词条的完备性在很大程度上与中文分词系统性能紧密相关。-Chinese word segmentation in Chinese information processing is an important part of Chinese word segmenta
2
- 高 维 数 据 特 征降维研究综述-中文文本处理-Characteristics of high-dimensional data dimensionality reduction Survey
Chinese-text-categorization-Study
- 本文通过对Bayes、KNN、SVM 应用于中文文本分类进行比较实验研究。 应用ICTCLAS 对中文文档进行分词,在大维数,多数据情况下应用TFIDF 进行 特征选择,并同时利用它实现了对特征项进行加权处理,使文本库中的每个文本 具有统一的、可处理的结构模型。然后通过三类分类算法实现了对权值数据进行 训练和分类。-Based on the Bayes, KNN, SVM applied
Chinese
- 是做文本预处理时候利用爬虫收集的500个中文文档,包括分词部分、去掉特殊符号部分以及最后的相似度计算等(It is the 500 Chinese document collected by a crawler for text preprocessing, including the part of the participle, the removal of the special part of the symbol, and t
ChineseChuLi
- 中文文本处理的python程序,包括分词、删除特殊字符、删除停用词、爬虫程序、PCA降维、Kmean聚类、可视化等(Python programs for Chinese text processing, including participle, deleting special characters, deleting disuse words, crawler programs, PCA dimensionality reduct
新建文件夹
- 文本处理,自然语言处理,包含中文和英文停用词(text processing,including chinese and english stopwords)