搜索资源列表
mm
- 通过与训练语料库中进行比对,对指定文本进行前向分词与后向分词。训练语料库为人民日报1998年1月的文章,训练语料是已经分好词的-fmm and bmm cut words
segment
- 用最大匹配法对汉语进行自动分词 seg.py 分词的实现 accuracy.py 分词性能评估 PD_1998_01_POS.txt ”人民日报“语料库-Automatically the word seg.py segmentation achieve maximum matching of Chinese accuracy.py word performance assessment PD_1998_01_POS.txt
pos_tag
- 用viterbi方法进行词性标注 pos_tag.py 词性标注 evaluate.py 词性标注性能评估 PD_1998_01_POS.txt ”人民日报“语料库 标准词性标注结果.txt 语料库中后10 的数库(分词+词性标注)-Using the viterbi methods for part-of-speech tagging pos_tag.py part-of-speech tagging the eval
fenci
- 利用HMM,针对《1998年人民日报》语料库进行研究,最终实现了中文语句的自动分词-By HMM, research, and ultimately the Chinese statement for the 1998 People' s Daily " Corpus automatic segmentation
RMM
- 这个是RMM算法,支持正向、逆向最大匹配,是自然语言处理的重要算法之一,只要替代程序中的词库即可。本词库取自1988年人民日报语料材料,算法对中文分词精确度达到90 以上-This is RMM algorithm supports forward, reverse maximum matching, natural language processing algorithm, as long as the alternative pr
program
- 中文分词程序,使用的是1998年的人民日报语料进行的处理,有做相同研究的可以下载使用-Chinese word segmentation program
automatic-word-segmentation
- 实现一个中文自动分词程序,所使用的编程语言不限 选作:对人名,地名,机构名的识别 下载北大计算语言所标注的99年人民日报分词语料库,构建一个词表 实现正向、逆向最大分词算法-To implement a Chinese automatic word segmentation procedure, used by any programming language Chosen for: the person names,
199801
- 人民日报语料,分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)
HMM-master
- 隐马尔科夫模型进行中文分词 模型训练 python HMM_train.py RenMinData.txt_utf8 RenMinData.RenMinData_utf8 为人民日报已经人工分词的预料。 生成三个文件 * prob_start.py 为模型的初始概率 * prob_trans.py 为模型状态转移概率 * prob_emit.py 为发射概率 测试模型效果 python HMM.p