资源列表
[搜索引擎] PageContent
说明:根据标点符号抽取正文的C语言源程序,非常有个性的方式-According punctuation extracting text<chrysanth> 在 2024-11-14 上传 | 大小:10kb | 下载:0
[搜索引擎] NWebCrawler
说明:网络爬虫, * 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 * 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 * 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 * 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 * 较好的性能:基于正则表达式的页面解析、适度加锁、维持H<wu> 在 2024-11-14 上传 | 大小:378kb | 下载:0
[搜索引擎] Search-Engine
说明:实现了搜索引擎大部分功能,而且实现的相当不错-Most of the search engines to achieve a functional<孙晓龙> 在 2024-11-14 上传 | 大小:12.05mb | 下载:0
[搜索引擎] Heritrix-User-Manual
说明:最新的Heritrix用户文档,包括基本的Heritrix介绍、安装、创建任务、任务分析等,并给出了一个具体的实例-The latest Heritrix user documentation, including basic Heritrix introduction, installation, create a task, task analysis, and gives a concrete example<Liu> 在 2024-11-14 上传 | 大小:142kb | 下载:0
[搜索引擎] heritrix_developer_manual
说明:Heritrix官方开发文档,crawler.archive.org/articles,提供了基本的类的开发介绍。-(Heritrix official development documents, crawler.archive.org/articles, provides a basic introduction class development.)<Liu> 在 2024-11-14 上传 | 大小:82kb | 下载:0
[搜索引擎] 1432981_153527064080_2[1]
说明:可以在百度搜索人物图样,可以办报纸用处多-People can Baidu search pattern, you can use more than a newspaper<jianhs> 在 2024-11-14 上传 | 大小:97kb | 下载:0