python可以爬取wind数据库吗_如何利用Python来爬取近百万条数据?数据库会炸吧?... - Go语言中文社区

python可以爬取wind数据库吗_如何利用Python来爬取近百万条数据?数据库会炸吧?...


2.页面分析

发现一共有88万多个问题,再看一下页面的列表规律,我们按照每页最大显示50个问题,一共有17776页,数据非常大

1).页面列表的构建

整个的stackoverflow上关于Python的问题页面非常规整,我们可以很容易的构建列表,比如前1000页range(1,1000),range(1000,2000):

2.数据的存储

我们需要在items.py里面构建一个存储的数据结构类,把这个7个特征存起来

不要忘记了在Setting里面配置一下:

DOWNLOADER_MIDDLEWARES = {'stackoverflow.middlewares.RandomProxyMiddleware': 543,}

但是代理的ip非常不稳定,尤其是免费的。而且代理IP爬取的时间会比本机更慢,毕竟中间加了中转

第二种方法:重启猫继续用本机IP

一般重启家里的路由器有的时候会换本机的IP地址,因为本机的IP地址爬取的速度是最快,然后放慢爬取的速度,加一些delay.

我采用了第二种方法,爬了999页大概49950条数据,并且放慢了速度,大概需要20分钟左右

我们一共有近90万的数据需要爬取,如果按照这样的速度去爬取的话,大概需要7个小时才能完全爬取完毕。Scrapy提供了非常完善的异常处理和log分析,即使我们中间爬取出错了,我们依然可以获得已经爬取的数据.当然有条件的话可以放在服务器上去爬取,速度会更快.

版权声明:本文来源CSDN,感谢博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/weixin_39862899/article/details/112035838
站方申明:本站部分内容来自社区用户分享,若涉及侵权,请联系站方删除。
  • 发表于 2021-06-20 10:51:56
  • 阅读 ( 1027 )
  • 分类:数据库

0 条评论

请先 登录 后评论

官方社群

GO教程

猜你喜欢