文件名称:BuptCrawl
- 所属分类:
- Internet/网络编程
- 资源属性:
- [Java] [源码]
- 上传时间:
- 2013-11-19
- 文件大小:
- 5.41mb
- 下载次数:
- 0次
- 提 供 者:
- 付**
- 相关连接:
- 无
- 下载说明:
- 别用迅雷下载,失败请重下,重下不扣分!
下载
别用迅雷、360浏览器下载。
如迅雷强制弹出,可右键点击选“另存为”。
失败请重下,重下不扣分。
如迅雷强制弹出,可右键点击选“另存为”。
失败请重下,重下不扣分。
介绍说明--下载内容均来自于网络,请自行研究使用
使用Java语言编写的一个网络爬虫demo,将爬取下来的网页转化为统一的XML格式,对XML文件进行解析,对各个DOM节点进行编号。根据节点编号可以获取到各元素节点的内容-Using the Java language using a web crawler demo, will climb to take down the web page into a unified XML format, the XML file is parsed for each DOM nodes are numbered. According to the node ID can get to the content of each element node
(系统自动生成,下载前可以参看下载内容)
下载文件列表
BuptCrawl
.........\.classpath
.........\.project
.........\.settings
.........\.........\org.eclipse.core.resources.prefs
.........\.........\org.eclipse.jdt.core.prefs
.........\bin
.........\...\com
.........\...\...\bupt
.........\...\...\....\crawler
.........\...\...\....\.......\Controller.class
.........\...\...\....\.......\dom4j
.........\...\...\....\.......\.....\Dom4JUtils.class
.........\...\...\....\.......\.....\Downloader.class
.........\...\...\....\.......\.....\HtmlClean.class
.........\...\...\....\.......\.....\HtmlCodeUtil.class
.........\...\...\....\.......\MyCrawler.class
.........\...\edu
.........\...\...\uci
.........\...\...\...\ics
.........\...\...\...\...\crawler4j
.........\...\...\...\...\.........\crawler
.........\...\...\...\...\.........\.......\Configurable.class
.........\...\...\...\...\.........\.......\CrawlConfig.class
.........\...\...\...\...\.........\.......\CrawlController$1.class
.........\...\...\...\...\.........\.......\CrawlController.class
.........\...\...\...\...\.........\.......\Page.class
.........\...\...\...\...\.........\.......\WebCrawler.class
.........\...\...\...\...\.........\examples
.........\...\...\...\...\.........\........\basic
.........\...\...\...\...\.........\........\.....\BasicCrawlController.class
.........\...\...\...\...\.........\........\.....\BasicCrawler.class
.........\...\...\...\...\.........\........\imagecrawler
.........\...\...\...\...\.........\........\............\Cryptography.class
.........\...\...\...\...\.........\........\............\ImageCrawlController.class
.........\...\...\...\...\.........\........\............\ImageCrawler.class
.........\...\...\...\...\.........\........\localdata
.........\...\...\...\...\.........\........\.........\CrawlStat.class
.........\...\...\...\...\.........\........\.........\Downloader.class
.........\...\...\...\...\.........\........\.........\LocalDataCollectorController.class
.........\...\...\...\...\.........\........\.........\LocalDataCollectorCrawler.class
.........\...\...\...\...\.........\........\multiple
.........\...\...\...\...\.........\........\........\BasicCrawler.class
.........\...\...\...\...\.........\........\........\MultipleCrawlerController.class
.........\...\...\...\...\.........\........\shutdown
.........\...\...\...\...\.........\........\........\BasicCrawler.class
.........\...\...\...\...\.........\........\........\ControllerWithShutdown.class
.........\...\...\...\...\.........\........\statushandler
.........\...\...\...\...\.........\........\.............\StatusHandlerCrawlController.class
.........\...\...\...\...\.........\........\.............\StatusHandlerCrawler.class
.........\...\...\...\...\.........\fetcher
.........\...\...\...\...\.........\.......\CustomFetchStatus.class
.........\...\...\...\...\.........\.......\IdleConnectionMonitorThread.class
.........\...\...\...\...\.........\.......\PageFetcher$1.class
.........\...\...\...\...\.........\.......\PageFetcher$GzipDecompressingEntity.class
.........\...\...\...\...\.........\.......\PageFetcher.class
.........\...\...\...\...\.........\.......\PageFetchResult.class
.........\...\...\...\...\.........\frontier
.........\...\...\...\...\.........\........\Counters$ReservedCounterNames.class
.........\...\...\...\...\.........\........\Counters.class
.........\...\...\...\...\.........\........\DocIDServer.class
.........\...\...\...\...\.........\........\Frontier.class
.........\...\...\...\...\.........\........\InProcessPagesDB.class
.........\...\...\...\...\.........\........\WebURLTupleBinding.class
.........\...\...\...\...\.........\........\WorkQueues.class
.........\...\...\...\...\.........\parser
.........\...\...\...\...\.........\......\BinaryParseData.class
.........\...\...\...\...\.........\......\ExtractedUrlAnchorPair.class
.........\...\...\...\...\.........\......\HtmlContentHandler$Element.class
.........\...\...\...\...\.........\......\HtmlContentHandler$HtmlFactory.class
.........\...\...\...\...\.........\......\HtmlContentHandler.class
.......