python爬虫——校花网 - Go语言中文社区

python爬虫——校花网


爬取校花网图片

校花网http://www.xiaohuar.com/list-1-0.html

1.进入网站,我们会发现许多图片,这些图片就是我们要爬取的内容。
这里写图片描述
2.对网页进行分析,按F12打开开发着工具(本文使用谷歌浏览器)。我们发现每个图片都对应着一个路径。
这里写图片描述
这里写图片描述
3.我们访问一下img标签的src路径。正是图片的路径,能够获取到图片。因此我们需要获取网页中img标签下的src。
这里写图片描述
4.找到网页中的src。查看一下网页源代码,谷歌查看网页源代码快捷键(ctrl+u)。所有图片的src都在源代码中,我们使用正则表达式,可以轻松获取src路径。
这里写图片描述
5.想获取多个网页的图片,就要分析网页网址的规律,打开第二页,第三页,
发现网址分别为http://www.xiaohuar.com/list-1-1.htmlhttp://www.xiaohuar.com/list-1-2.html
,很容易发现url的规律。

6.所有内容我们都分析完了,用代码实现起来很简单。用for循环遍历所有的网址,获取每页的页面内容,从中用正则表达式提取出图片的src。再用for循环去遍历所有图片的image_url。请求image_url,获取到内容,以二进制格式写入文件。

完整代码:

import requests
import re
#获取网页地址
#http://www.xiaohuar.com/list-1-3.html
#http://www.xiaohuar.com/list-1-5.html


url='http://www.xiaohuar.com/list-1-%s.html'

for i in range(4):#4表示要爬取4页图片,这里可根据需求做出修改。
    temp=url % i
    print(temp)
    #获取网页源码
    response=requests.get(temp)
    html=response.text
    #从源码文本中匹配我们需要的url
    img_urls=re.findall(r'/d/file/d+/w+.jpg',html)

    for img_url in img_urls:
        img_response=requests.get('http://www.xiaohuar.com%s'%img_url)
        print(img_url)
        #图片的二进制信息
        img_data=img_response.content
        girl=img_url.split('/')[-1]
        with open('%s'%girl,'wb') as f:
            f.write(img_data)

爬取结果:

这里写图片描述

版权声明:本文来源CSDN,感谢博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/qq_41251963/article/details/81697433
站方申明:本站部分内容来自社区用户分享,若涉及侵权,请联系站方删除。
  • 发表于 2020-03-01 17:40:51
  • 阅读 ( 1640 )
  • 分类:

0 条评论

请先 登录 后评论

官方社群

GO教程

猜你喜欢