搜索资源列表
webmagic-master
- 一个爬虫框架,除了不会反爬虫外(当然可以自己加)其他都很牛逼,用java写的。-A crawler fr a me, besides will not reverse the crawler themselves are added (of course) other are very cow force, written in Java.
webmagic
- 开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。作者曾经在前公司进行过一年的垂直爬虫的开发,webmagic就是为了解决爬虫开发的一些重复劳动而产生的框架。-Open source Java vertical crawler fr a mework, the goal is to simplify the devel
webmagic
- webmagic是一个无需配置便于二次开发的爬虫框架,它提供简单灵活的API,只需要少量代码即可实现一个爬虫-Is a configuration without the need to facilitate the development of the two crawler fr a mework, which provides a simple and flexible API, only a small amount of co
WebMagic_jb51
- webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。 -The design of webmagic with completely modular, functional coverage throughout the reptile life cycle (link extraction, downloa
DownloadProxy
- webmagic框架实现网络爬虫,用java语言实现为爬虫添加代理(Using java language to add agents for reptiles)
SpringBoot_Magic
- 基于springboot的java爬虫,服务器使用mysql。全注解方式。拓展性强。(Java crawler based on springboot)
WebMagic
- 爬虫小样例,去爬取豆瓣的数据并保存,需要jdk1.7(a demo of Crawler,Climb the data of douban and save it,need jdk 1.7.Research and Implementation of Distributed and Multi-topic Web Crawler System)
webmagic
- webmagic实现网络爬取,java代码实现(Network crawling by webmagic)
源码_俞育峰
- 知识库管理系统,包含源码和数据库。通过maven构建,使用git版本控制和团队合作,采用springmvc+mybatis框架,集成Lucene全文检索,openoffice转化office文档,ffmpeg处理视频文件,red5搭建流媒体服务,基于pageRank、TF-IDF算法提取处理知识点,webmagic爬取数据,itextpdf、poi处理office等。(knowledge base manage,resource and