分类分类
大小:118 KB更新:2026-02-19
类别:其它源码系统:Win2003,WinXP,Win2000,Win9X
支持在Request对象中,通过header(map)来自定义本次请求的header,以及支持通过seimiCookies来自定义cookies,自定义cookies会直接进入cookiesStore,对同域下第二次请求依然有效
优化默认启动方式,改造cn.wanghaomiao.seimi.boot.Run支持CommandLineParser,可以使用 -c 和-p来传参,其中-c用来指定crawlernames,多个用','分隔,-p指定一个端口,可以选择性的启动一个内嵌的http服务,并开启使用内嵌http接口
maven-compiler-plugin打包插件升级为1.3.0,完善Linux下的脚本,并增加启动配置文件,可以到maven-compiler-plugin主页详细查看
默认下载器改为Apache Httpclient,备用为下载器OkHttp3实现
优化部分代码
demo日志默认全部输出至控制台
SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发,同时融合了Java语言本身特点与Spring的特性,并希望在国内更方便且普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目,非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成(当然,数据处理亦可以自行选择其他解析器)。并结合SeimiAgent彻底完美解决复杂动态页面渲染抓取问题。

同类推荐:站长常用源码
JimuReport 积木报表其它源码2.84 MBv1.7.42024-04-18
下载smart-doc接口文档生成工具其它源码2.67 MBv3.0.32024-04-17
下载HertzBeat 赫兹跳动其它源码88.23 MBv1.4.42024-01-24
下载JGroups群组通讯工具包其它源码2.65MBv5.2.92022-11-03
下载Ember.js其它源码1.60MBv4.0.02021-12-01
下载Guns后台管理系统其它源码12.4 MB v6.12021-10-18
下载zrlog个人博客程序其它源码10.68 MBv2.2.12021-10-09
下载Netty(Java 网络服务框架)v4.1.53其它源码22.4 MB2020-10-20
下载WebMagic(Java爬虫框架)其它源码729 KBv0.7.22020-08-13
下载透明白色花环HTML5特效其它源码65.9 KB2019-11-15
下载OrientDB(基于Java的文档数据库)其它源码51.3 MBv3.0.13 社区版2019-01-03
下载JeeWx 捷微微信管家平台其它源码16.88 MBv4.12018-11-13
下载

