搜索资源列表
SogouW.20061127
- 互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。 语料库统计的意义:反映了互联网中文语言环境中的词频、词性情况。 应用案例:中文词性标注、词频分析等。 词性分类: N 名词 V 动词 ADJ 形容词 A
SogouC.mini.20061127
- 文本分类现成语料库,是SogouC.mini.20061127.zip格式的,可用于web数据挖掘
SogouW.20061127
- 互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。 语料库统计的意义:反映了互联网中文语言环境中的词频、词性情况。 应用案例:中文词性标注、词频分析等。 词性分类: N 名词 V 动词 ADJ 形容词 A
SogouC.mini.20061127
- 文本分类现成语料库,是SogouC.mini.20061127.zip格式的,可用于web数据挖掘-Off-the-shelf text classification corpus is SogouC.mini.20061127.zip format, can be used for web data mining
SogouC.reduced.20061127
- 搜狗语料 关于文本分类语料库的问题搜狗实验室搜狗实验室(Sogou Labs)是搜狗搜索核心研发团队对外交流的窗口,期望通过这个平台,展现搜狗研发团队强大的研发-Sogou corpus corpus corpus on the issue of text categorization Sogou Sogou Lab Lab (Sogou Labs) is the core of R & D team Sogou search
搜狗分类新闻.20061127
- 用于自然语言处理的新闻语料,抓取网上的一些新闻资料(The news materials used in Natural Language Processing, and grab some news on the Internet)