文件名称:BuptCrawl
- 所属分类:
- Internet/网络编程
- 资源属性:
- [Java] [源码]
- 上传时间:
- 2013-11-19
- 文件大小:
- 5.41mb
- 下载次数:
- 0次
- 提 供 者:
- 付**
- 相关连接:
- 无
- 下载说明:
- 别用迅雷下载,失败请重下,重下不扣分!
介绍说明--下载内容均来自于网络,请自行研究使用
使用Java语言编写的一个网络爬虫demo,将爬取下来的网页转化为统一的XML格式,对XML文件进行解析,对各个DOM节点进行编号。根据节点编号可以获取到各元素节点的内容-Using the Java language using a web crawler demo, will climb to take down the web page into a unified XML format, the XML file is parsed for each DOM nodes are numbered. According to the node ID can get to the content of each element node
(系统自动生成,下载前可以参看下载内容)
下载文件列表
BuptCrawl
.........\.classpath
.........\.project
.........\.settings
.........\.........\org.eclipse.core.resources.prefs
.........\.........\org.eclipse.jdt.core.prefs
.........\bin
.........\...\com
.........\...\...\bupt
.........\...\...\....\crawler
.........\...\...\....\.......\Controller.class
.........\...\...\....\.......\dom4j
.........\...\...\....\.......\.....\Dom4JUtils.class
.........\...\...\....\.......\.....\Downloader.class
.........\...\...\....\.......\.....\HtmlClean.class
.........\...\...\....\.......\.....\HtmlCodeUtil.class
.........\...\...\....\.......\MyCrawler.class
.........\...\edu
.........\...\...\uci
.........\...\...\...\ics
.........\...\...\...\...\crawler4j
.........\...\...\...\...\.........\crawler
.........\...\...\...\...\.........\.......\Configurable.class
.........\...\...\...\...\.........\.......\CrawlConfig.class
.........\...\...\...\...\.........\.......\CrawlController$1.class
.........\...\...\...\...\.........\.......\CrawlController.class
.........\...\...\...\...\.........\.......\Page.class
.........\...\...\...\...\.........\.......\WebCrawler.class
.........\...\...\...\...\.........\examples
.........\...\...\...\...\.........\........\basic
.........\...\...\...\...\.........\........\.....\BasicCrawlController.class
.........\...\...\...\...\.........\........\.....\BasicCrawler.class
.........\...\...\...\...\.........\........\imagecrawler
.........\...\...\...\...\.........\........\............\Cryptography.class
.........\...\...\...\...\.........\........\............\ImageCrawlController.class
.........\...\...\...\...\.........\........\............\ImageCrawler.class
.........\...\...\...\...\.........\........\localdata
.........\...\...\...\...\.........\........\.........\CrawlStat.class
.........\...\...\...\...\.........\........\.........\Downloader.class
.........\...\...\...\...\.........\........\.........\LocalDataCollectorController.class
.........\...\...\...\...\.........\........\.........\LocalDataCollectorCrawler.class
.........\...\...\...\...\.........\........\multiple
.........\...\...\...\...\.........\........\........\BasicCrawler.class
.........\...\...\...\...\.........\........\........\MultipleCrawlerController.class
.........\...\...\...\...\.........\........\shutdown
.........\...\...\...\...\.........\........\........\BasicCrawler.class
.........\...\...\...\...\.........\........\........\ControllerWithShutdown.class
.........\...\...\...\...\.........\........\statushandler
.........\...\...\...\...\.........\........\.............\StatusHandlerCrawlController.class
.........\...\...\...\...\.........\........\.............\StatusHandlerCrawler.class
.........\...\...\...\...\.........\fetcher
.........\...\...\...\...\.........\.......\CustomFetchStatus.class
.........\...\...\...\...\.........\.......\IdleConnectionMonitorThread.class
.........\...\...\...\...\.........\.......\PageFetcher$1.class
.........\...\...\...\...\.........\.......\PageFetcher$GzipDecompressingEntity.class
.........\...\...\...\...\.........\.......\PageFetcher.class
.........\...\...\...\...\.........\.......\PageFetchResult.class
.........\...\...\...\...\.........\frontier
.........\...\...\...\...\.........\........\Counters$ReservedCounterNames.class
.........\...\...\...\...\.........\........\Counters.class
.........\...\...\...\...\.........\........\DocIDServer.class
.........\...\...\...\...\.........\........\Frontier.class
.........\...\...\...\...\.........\........\InProcessPagesDB.class
.........\...\...\...\...\.........\........\WebURLTupleBinding.class
.........\...\...\...\...\.........\........\WorkQueues.class
.........\...\...\...\...\.........\parser
.........\...\...\...\...\.........\......\BinaryParseData.class
.........\...\...\...\...\.........\......\ExtractedUrlAnchorPair.class
.........\...\...\...\...\.........\......\HtmlContentHandler$Element.class
.........\...\...\...\...\.........\......\HtmlContentHandler$HtmlFactory.class
.........\...\...\...\...\.........\......\HtmlContentHandler.class
.......