搜索资源列表
FreeICTCLAS.zip
- 计算所汉语词法分析系统ICTCLAS.分词正确率高达97.58%(973专家组评测),未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。
ictclas_Source_Code
- 计算所汉语词法分析系统ICTCLAS介绍 词是最小的能够独立活动的有意义的语言成分。 但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的
HtmlAnylse
- 网页是组成互联网的基本数据单元,是各种面向互联网的应用系统最原始的数据源。网页内部含有大量噪音信息,如何从网页中有效地提取有价值的内容成为影响数据处理效果的关键。 网页正文提取指的是从原始网页中精确地提取出正文文本,比如提取新闻网页中的报道内容。能否高效地提取出网页的正文,是很多互联网应用系统如搜索引擎、新闻资讯系统等面临的一个重要问题。由于网页本身的无结构化的特点,通常采用的正文提取方法是针对目标网页的特点人工制定抽取模板,
compare
- 一个可以将进行中文分词后的文档与标准文档进行比较的工具,可以测试分词识别的准确率、召回率等-one can be carried out after the Chinese word document with the standard document comparison tool Segmentation can test the accuracy of the identification and recall rates
prep_identify
- 摘要:本文运用规则和统计相结合的方法构造了一个汉语介词短语识别算法。首先,根据介词和介词短 语右边界组成的搭配模板自动提取可信搭配关系,并用这些搭配关系对介词短语进行识别。之后,用基于词 性的三元边界统计模型和规则相结合的方法识别其它未处理的介词短语。通过对含有7323 个介词短语的语 料作交叉测试,精确率达到87148 % ,召回率达到87127 %。
prop200406
- 概率句法分析器对于统计自然语言处理的很多高层应用,如统计机器翻译、问答系统、信息抽取、文本挖掘等都是至关重要的,直接决定这些应用系统的最终性能。本系统是一个概率型的Chart分析器。系统的分析算法是采用了多种优化策略。分析结果是概率最大的一棵分析树。在概率模型方面,本系统在一定程度上突破了pcfg的上下文无关假设,引入了结构上下文条件,使得分析结果正确率有了明显提高。在使用宾州中文树库进行的实验中,我们的分析器的标记召回率和标记精确率平
ICTCLAS
- 计算所汉语词法分析系统ICTCLAS.分词正确率高达97.58%(973专家组评测),未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。-Calculate the Chinese Lexical Analysis System ICTCLAS. Segmen
prop200406
- 概率句法分析器对于统计自然语言处理的很多高层应用,如统计机器翻译、问答系统、信息抽取、文本挖掘等都是至关重要的,直接决定这些应用系统的最终性能。本系统是一个概率型的Chart分析器。系统的分析算法是采用了多种优化策略。分析结果是概率最大的一棵分析树。在概率模型方面,本系统在一定程度上突破了pcfg的上下文无关假设,引入了结构上下文条件,使得分析结果正确率有了明显提高。在使用宾州中文树库进行的实验中,我们的分析器的标记召回率和标记精确率平
ictclas_Source_Code
- 计算所汉语词法分析系统ICTCLAS介绍 词是最小的能够独立活动的有意义的语言成分。 但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的
compare
- 一个可以将进行中文分词后的文档与标准文档进行比较的工具,可以测试分词识别的准确率、召回率等-one can be carried out after the Chinese word document with the standard document comparison tool Segmentation can test the accuracy of the identification and recall rates
prep_identify
- 摘要:本文运用规则和统计相结合的方法构造了一个汉语介词短语识别算法。首先,根据介词和介词短 语右边界组成的搭配模板自动提取可信搭配关系,并用这些搭配关系对介词短语进行识别。之后,用基于词 性的三元边界统计模型和规则相结合的方法识别其它未处理的介词短语。通过对含有7323 个介词短语的语 料作交叉测试,精确率达到87148 % ,召回率达到87127 %。-Abstract: In this paper the use of
FreeICTCLAS
- 汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58 (973专家组评测),未登录词识别召回率均高于90 ,其中中国人名的识别召回率接近98 处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格
ICTCLAS_2009_API_DOC
- 计算所汉语词法分析系统ICTCLAS.分词正确率高达97.58 (973专家组评测),未登录词识别召回率均高于90 ,其中中国人名的识别召回率接近98 处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。这是最新版的API接口文档,有详细的示例。-Calculation of the Chinese lexical analy
result
- 最后的测试程序,得出文本检索的正确率和召回率-In the end, the cosine similarity of texts is used to measure the similarity between the query and documents. The data comparison indicates that this algorithm has well experimental results. Moreov
CONLL-2000
- 它是一个可以测试中文命名实体的准确率和召回率和F值的算法-It is a Chinese named entity can test the accuracy and recall rate and F values of the algorithm
Free-Software
- 计算所汉语词法分析系统之免费版本ICTCLAS.非收费之源代码。 分词正确率高达97.58 (973专家组评测),未登录词识别召回率均高于90 ,其中中国人名的识别召回率接近98 处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。--Calculate the Chinese Lexical Analysis Syste
precesion
- 准确率召回率及f值的计算源码,本代码主要用于上述三个数值的计算,主要针对自然语言处理领域检索结果。-the values of the F and the values of Recall and the precession 。the program is offen used in the area of NLP .
MIR04_Eval
- 信息检索的评价 基本指标:召回率、正确率 P-R曲线 其他指标:F值、AP、MAP -How to evaluate an information retrieval system ?
WordSequence
- 正向最大匹配法实现中文分词,并计算其正确率(P)、召回率(R)和F测度-Positive maximum matching method to realize the Chinese word segmentation
accuracy--recall-Python
- Python代码编写的一个推荐算法的准确率/召回率得计算源码-Python code to write a recommendation algorithm accuracy/recall rate was calculated source