资源列表
[搜索引擎] heritrix-1.14.0-src
说明:知名网络蜘蛛源码,可以下载整站内容,扩展性强,可以下载动态网页<zhang> 在 2008-10-13 上传 | 大小:9.7mb | 下载:0
[搜索引擎] PDFBox-0.6.7a
说明:采用java编写的处理PDF文档的程序,可从PDF文档中抽取txt文本,可与lucene搜索引擎相结合。-adopting the java programs compiled to dispose the PDF document, taking out the txt text from the PDF document, and combining with the lucene searcher.<孔敬> 在 2024-12-29 上传 | 大小:9.2mb | 下载:0
[搜索引擎] KeyWordSCount
说明:曾经有人问:在程序中输入关键字,能找出百度或谷歌中搜索的页面总数,并且统计该关键字社会关心程.这些VC源代码就实现了这些功能.代码注释详尽.-It has been asked: enter a keyword in the procedure, can be found Baidu or Google search for the total number of pages, and keyword statistics of the<郭事业> 在 2024-12-29 上传 | 大小:9.72mb | 下载:0
[搜索引擎] heritrix-1.14.0-src
说明:知名网络蜘蛛源码,可以下载整站内容,扩展性强,可以下载动态网页<zhang> 在 2024-12-29 上传 | 大小:9.7mb | 下载:1
[搜索引擎] searchengine
说明:This document includes the use of Web data mining expertise to carry out the search engine design, and personalized search engine based on the study of documents, rich, do not miss!<likechao> 在 2024-12-29 上传 | 大小:9.79mb | 下载:0
[搜索引擎] heritrix-1.14.2-src
说明:heritrix-1.14.2-src是网络爬虫Heritrix最新版本的源码,希望对大家有帮助-heritrix-1.14.2-src is a network of reptiles Heritrix the latest version of source, in the hope that we have to help<> 在 2024-12-29 上传 | 大小:10.05mb | 下载:0
[搜索引擎] paoding-analysis-2.0.4
说明:Paoding中文分词是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。 Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。-Paoding Chinese word is a Java development can be combined with Lucene appl<ltqjun> 在 2024-12-29 上传 | 大小:9.35mb | 下载:0
[搜索引擎] ZeroCrawler
说明:该程序用于抓取某一网页的所有链接,适合爬虫初学者使用-The procedure used to crawl all the links of a web page, suitable for reptiles beginners<绿水悠悠> 在 2024-12-29 上传 | 大小:9.67mb | 下载:0