文件名称:crawler-1.0-sources
介绍说明--下载内容均来自于网络,请自行研究使用
网络蜘蛛是通过网页的链接地址来寻找网页
网络蜘蛛
,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
----这样看来,网络蜘蛛就是一个爬行程序,一个抓取网页的程序-internet crawler
网络蜘蛛
,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
----这样看来,网络蜘蛛就是一个爬行程序,一个抓取网页的程序-internet crawler
(系统自动生成,下载前可以参看下载内容)
下载文件列表
crawler-1.0-sources
...................\META-INF
...................\........\MANIFEST.MF
...................\net
...................\...\vidageek
...................\...\........\crawler
...................\...\........\.......\component
...................\...\........\.......\.........\DefaultLinkNormalizer.java
...................\...\........\.......\.........\Downloader.java
...................\...\........\.......\.........\ExecutorCounter.java
...................\...\........\.......\.........\LinkNormalizer.java
...................\...\........\.......\.........\PageCrawlerExecutor.java
...................\...\........\.......\.........\UrlUtils.java
...................\...\........\.......\.........\WebDownloader.java
...................\...\........\.......\config
...................\...\........\.......\......\CrawlerConfiguration.java
...................\...\........\.......\......\CrawlerConfigurationBuilder.java
...................\...\........\.......\......\http
...................\...\........\.......\......\....\Cookie.java
...................\...\........\.......\ContentVisitor.java
...................\...\........\.......\exception
...................\...\........\.......\.........\CrawlerException.java
...................\...\........\.......\link
...................\...\........\.......\LinksFinder.java
...................\...\........\.......\link\DefaultLinkFinder.java
...................\...\........\.......\....\FrameLinkFinder.java
...................\...\........\.......\....\IframeLinkFinder.java
...................\...\........\.......\page
...................\...\........\.......\Page.java
...................\...\........\.......\PageCrawler.java
...................\...\........\.......\PageVisitor.java
...................\...\........\.......\page\ErrorPage.java
...................\...\........\.......\....\OkPage.java
...................\...\........\.......\....\RejectedMimeTypePage.java
...................\...\........\.......\queue
...................\...\........\.......\.....\DelayedBlockingQueue.java
...................\...\........\.......\Status.java
...................\...\........\.......\Url.java
...................\...\........\.......\visitor
...................\...\........\.......\.......\DoesNotFollowVisitedUrlVisitor.java
...................\...\........\.......\.......\DomainVisitor.java
...................\...\........\.......\.......\RejectAtDepthVisitor.java