MyGit

v2.1.5

owner888/phpspider

版本发布时间: 2018-07-18 20:46:49

owner888/phpspider最新发布版本:v2.1.7(2020-10-10 16:02:13)

1、断点续采如果不继续会清空redis所有数据,所以一个项目要用一个redis db,清空的时候flushdb,解决缓存数据量太大清空redis的性能问题

2、解决url匹配不够完美问题,目前遇见url如下: <a href="?xxx" <a href="//xxx" <a href="//www.host.com/xxx" <a href="//www.host.com//xxx" <a href="/xxx" <a href="/?xxx" <a href="xxx" <a href="./xxx" <a href="../xxx" <a href="/../xxx"

3、增加redis集合,可以随机读取url进行采集,进行多域并发

4、缩短redis前缀,减少redis占用空间

5、记录速度较慢域名花费抓取时间,超过设置时间则不对该域名进行采集,为了避免掉入蜘蛛陷阱设置的,有些垃圾站,蜘蛛池,无限多的页面让你爬,还很慢

6、增加泛域名采集

7、增加子域名数量限制,避免蜘蛛陷阱,有的变态会把一个网站弄一堆域名,比如:a.xxx.com/1.html、b.xxx.com/1.html,这两个1.html其实是同一个,但是url不同,会重复采集

相关地址:原始地址 下载(tar) 下载(zip)

查看:2018-07-18发行的版本