python爬虫_批量爬取美女图片

学习python一月有余，写了一个爬虫练手，爬取 http://www.mzitu.com/xinggan/网站图片。关于python爬虫，网上和博客中教程较多，综合参考后写了本文。对以下博主表示感谢。

主要参考：https://blog.csdn.net/mockingbirds/article/details/72854243，文中讲的很详细了。本文在此基础上填了几个小坑。

环境：python 2.7

相关库：requests、bs4、urllib（scrapy库安装失败，懒的折腾了，没使用）
成果：
主要思路借鉴博客https://blog.csdn.net/mockingbirds/article/details/72854243
一、获取主页性感分类中每页的链接
二、获取当前页中主题的链接和主题名称
三、获取每个主题中的图片链接
四、逐个下载图片并按照主题名称分类保存
上文的博客讲的很详细了。这里就不详细讲了，本文代码在文章最后。主要经验教训：
一、上述第三步中，下载网页内容进行图片地址解析时，最好用requests库，不要用urlib。虽然大部分网页能正常解析，但是个别网页会显示乱码，这样地址解析时会报错。这是一个大坑，找了半天才发现
[python]view plain copy
response = requests.get(titleurl)  
response.encoding  = 'utf-8'  
html = response.text  
二、上述第四步中，下载图片使用函数requests.get(image_url,headers=header)，不要使用urllib.urlretrieve(image_url,file_name)。因为这个网站有一个简单的反爬虫方法，就是根据headers。使用后一个函数下载的图片是404错误图片。头的内容只需要referer和User-Agent即可。
[python]view plain copy
img_response = requests.get(image_url, headers=header)  
三、采用网站中的主题名建立文件夹，将该主题下的图片都放入文件夹中。网站上的主题名有的含有冒号，建立文件夹的时候回报错，需要将冒号替换掉
[python]view plain copy
base_dir=base_dir.replace(':','')#将其中的冒号替换掉，否则无法建立文件夹  
完整代码如下

#coding=utf-8
#爬取http://www.mzitu.com/xinggan/网站图片，遍历
import urllib
import requests
from bs4 import BeautifulSoup
import os

header={
'Referer': 'http://www.mzitu.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',
}

class GetSexGirl(object):
    #获取所有页数的地址
    def get_all_urls(self):
        urls_list = []
        for i in range(1,82):
            url = "http://www.mzitu.com/xinggan/page/%s"%i
            urls_list.append(url)
        return urls_list
    #获取当前页中所有主题的地址和主题名称
    def get_title_urls(self,url):
        map_title_url = {}
        response = requests.get(url,header)
        html =response.text

        soup=BeautifulSoup(html)
        mytag=soup.select('#pins span a')
        size = len(mytag)
        for i in range(size):
            url=mytag[i].attrs['href']
            title=mytag[i].get_text()
            map_title_url[url] = title
            #print i,':  ',url,title
        return map_title_url
    # 获取当前主题下的所有图片url
    def get_image_urls(self,titleurl):
        response = requests.get(titleurl)
        response.encoding  = 'utf-8'
        html = response.text
        soup=BeautifulSoup(html)
        mytag=soup.select('.pagenavi span ')
        pagenum=int(mytag[6].get_text())#得到当前主题中的图片总页数
        mytag=soup.select('.main-image img ')[0]
        url1= mytag.attrs['src']
        #http://i.meizitu.net/2018/04/21c01.jpg
        url0= url1[0:32]
        imag_url_list = []
        for i in range(1,pagenum+1):
            url=url0+'%02d.jpg' % i
            imag_url_list.append(url)
            print i,url
        return  imag_url_list         #通过循环得到当前主题中的所有图片地址

     # 下载给定url的图片到本地
    def download_image(self, base_dir, image_url):
        #print('basedir is :'+base_dir+'  image_url is :'+image_url)
        image_name = image_url[-9:-4]
        # 获取图片的名称, image_url = http://i.meizitu.net/2017/04/24b01.jpg 这种格式
        #要保存到的目标文件名=文件目录+图片编号+后缀名
        file_name = base_dir+"%s.jpg"%image_name
        print  'file_name is :%s'%file_name, 'image_url is :%s'%image_url
       # urllib.urlretrieve(image_url,file_name)
        try:
            img_response = requests.get(image_url, headers=header)
        except:
            return
        if img_response.status_code!=404:
            f = open(file_name, 'wb')
            f.write(img_response.content)  # 多媒体文件要是用conctent
            f.close()
        return


if __name__ == '__main__':
    get_sex_girl = GetSexGirl()
    mian_page_urls_list=get_sex_girl.get_all_urls()#获取所有页的地址
    mian_page_num=len(mian_page_urls_list)
    for i in range(0,mian_page_num-1):
        print 'page',i+1
        mian_page_urls=mian_page_urls_list[i]##获取当前页的地址
        map_title_url=get_sex_girl.get_title_urls(mian_page_urls)
        title_urls_list=map_title_url.keys()##获取当前页的所有主题地址
        title_num=len(title_urls_list)
        for k in range(0,title_num-1):
            title_url=title_urls_list[k]#当前的主题地址
            title_name=map_title_url[title_url]#获取当前主题名称
            print '主题:',title_name
            imag_url_list=get_sex_girl.get_image_urls(title_urls_list[k])#获取所有图片地址
            imag_num=len(imag_url_list)
            title_name=title_name.replace(':','')#将其中的冒号替换掉，否则无法建立文件夹
            base_dir = os.path.abspath('.')+r'%s%s'%(i+1,title_name)
            if os.path.exists(base_dir) == False:
                print  ' 该主题文件夹不存在, 创建：', base_dir
                # 创建文件夹存放图片
                os.makedirs(base_dir)

            for m in range(0,imag_num-1):
                image_url=imag_url_list[m]
                get_sex_girl.download_image(base_dir, image_url)







                            
                            版权声明：本文来源CSDN，感谢博主原创文章，遵循 CC 4.0 by-sa 版权协议，转载请附上原文出处链接和本声明。

                            原文链接：https://blog.csdn.net/qq_16631573/article/details/80186391

                            站方申明：本站部分内容来自社区用户分享，若涉及侵权，请联系站方删除。
                        

                            
                                    
                                    发表于 2020-03-01 22:39:03
                                
阅读 ( 1271 )
分类：
                                

                        


                        
                        
                    

            你可能感兴趣的文章
            
                    Python老司机手把手带你写爬虫，整站下载妹子图，一次爽个够！
                    1099 浏览
                

                    【python--爬虫】守望先锋英雄介绍视频爬虫
                    1704 浏览
                

                    【python--爬虫】彼岸图网高清壁纸爬虫
                    1801 浏览
                

                    Python爬虫下手，从高清妹子大图开始（福利福利）
                    1589 浏览
                

                    python妹子图爬虫5千张高清大图突破防盗链
                    1121 浏览
                

                    python爬虫入门，一次性爬取上千张妹子图
                    1567 浏览
                

                    利用Python爬虫唯一图库网上的漂亮妹子图
                    1620 浏览
                

                    python爬虫——图片进阶（妹子图）
                    1866 浏览
                

                    python爬虫王者荣耀高清皮肤大图背景故事通用爬虫
                    1848 浏览
                

        

            精选的优质文章
            
                    也许 Go 开发可以更简单！
                    10580 浏览
                

                    如何使用 Golang 日志监控你的应用程序？
                    12053 浏览
                

                    从Go语言实现模板设计模式浅谈Go的抽象能力
                    14102 浏览
                

                    阿里云基于 Go 的微服务架构分享
                    23968 浏览
                

                    java是否会被取代？Go会否给Java带来冲击？
                    28491 浏览
                

                    千万级规模高性能、高并发的网络架构经验分享
                    30048 浏览
                

                    阿里部分面试题汇总,对想进阿里的同学非常实用
                    62343 浏览
                

                    实用好文：知乎实时数仓架构实践及演进
                    31364 浏览
                

                    支撑马蜂窝「双11」营销大战背后的技术架构
                    228307 浏览
                

                    想进大厂？50个多线程面试题，你会多少？（一）
                    23104 浏览
                

        
0 条评论

                                请先 登录 后评论
                            
官方社群
            
                    
                

            

              关注公众号
            
—— 加入社区微信群 ——

                →「Go语言教程」领取

            

                

        
GO教程
            
            1.1 Go语言简介
1.2 Go语言的特性
1.3 Go语言为并发而生
1.4 哪些项目使用Go语言开发？
1.5 哪些大公司正在使用Go语言
1.6 Go语言的性能如何？
1.7 Go语言标准库强大
1.8 Go语言上手简单
1.9 Go语言代码风格清晰、简单
1.10 Go语言工程结构详述
1.11 第一个Go语言程序
1.12 Go语言历史版本

        

            
            2.1 Go语言变量的声明
2.2 Go语言变量的初始化
2.3 Go语言多个变量同时赋值
2.4 Go语言匿名变量
2.5 Go语言变量的作用域
2.6 Go语言整型（整数类型）
2.7 Go语言浮点类型（小数类型）
2.8 Go语言复数
2.9 Go语言bool类型（布尔类型）
2.10 Go语言字符串
2.11 Go语言字符类型（byte和rune）
2.12 Go语言数据类型转换
2.13 Go语言指针
2.14 Go语言变量的生命周期
2.15 Go语言常量
2.16 Go语言类型别名
2.17 Go语言关键字与标识符
2.18 Go语言运算符的优先级

        

            
            3.1 Go语言数组
3.2 Go语言多维数组
3.3  Go语言切片
3.4 使用append()为切片添加元素
3.5 Go语言切片复制
3.6 Go语言从切片中删除元素
3.7 Go语言range关键字
3.8 Go语言多维切片
3.9 Go语言map（映射）
3.10 Go语言遍历map
3.11 map元素的删除和清空
3.12  Go语言sync.Map
3.13 Go语言list（列表）
3.14 Go语言nil：空值/零值

        

            
            4.1 Go语言分支结构
4.2 Go语言循环结构
4.4 Go语言键值循环
4.5 Go语言switch语句
4.6 Go语言goto语句
4.7 Go语言break（跳出循环）
4.8 Go语言continue

        

            
            5.1 Go语言函数声明
5.2 Go语言函数变量
5.3 Go语言匿名函数
5.4 Go语言函数类型实现接口
5.5 Go语言闭包（Closure）
5.6 Go语言可变参数
5.7 Go语言defer（延迟执行语句）
5.8 Go语言递归函数
5.9  Go语言处理运行时错误
5.10 Go语言宕机（panic）
5.11 Go语言宕机恢复（recover）
5.12 Go语言计算函数执行时间
5.13 Go语言Test功能测试函数

        

            
            6.1 Go语言结构体定义
6.2 Go语言实例化结构体
6.3 初始化结构体的成员变量
6.4 Go语言构造函数
6.5 类型内嵌和结构体内嵌
6.6 初始化内嵌结构体
6.7 内嵌结构体成员名字冲突
6.8 Go语言垃圾回收和SetFinalizer
6.9 Go语言链表操作
6.10 Go语言数据I/O对象及操作

        

            
            7.1 Go语言接口声明（定义）
7.2 Go语言实现接口的条件
7.3 Go语言类型与接口的关系
7.4 Go语言类型断言
7.5  Go语言排序
7.6 Go语言接口的嵌套组合
7.9 Go语言接口和类型之间的转换
7.10 Go语言空接口类型
7.11 Go语言类型分支
7.12 Go语言error接口

        

            
            8.1 包的基本概念
8.2 Go语言封装简介及实现细节
8.3 Go语言GOPATH
8.4 Go语言常用内置包
8.5 Go语言自定义包
8.6 Go语言package
8.7 Go语言导出包中的标识符
8.8 Go语言import导入包
8.9 Go语言sync包与锁
8.10 Go语言big包
8.11 Go语言正则表达式：regexp包
8.12 Go语言time包：时间和日期
8.13  Go语言os包用法简述
8.14 Go语言flag包：命令行参数解析
8.15 Go语言go mod包依赖管理工具
8.16 Go语言runtime包:运行时

        

            
            9.1 Go语言并发简述
9.2 Go语言轻量级线程
9.3 Go语言并发通信
9.4 Go语言竞争状态
9.5 Go语言调整并发的运行性能
9.6 并发和并行的区别
9.7 goroutine和coroutine的区别
9.8 Go语言通道（chan）
9.9 示例：并发打印
9.10 Go语言单向通道
9.11 Go语言无缓冲的通道
9.12 Go语言带缓冲的通道
9.13 Go语言channel超时机制
9.14 Go语言多核并行化
9.15 互斥锁和读写互斥锁
9.16 Go语言等待组
9.17 死锁、活锁和饥饿概述
9.18 Go语言CSP：通信顺序进程简述
9.19 示例：聊天服务器

        

            
            10.1 Go语言反射（reflection）
10.2 Go语言反射规则浅析
10.3 通过反射获取类型信息
10.4 通过反射获取指针指向的元素类型
10.5 通过反射获取结构体的成员类型
10.6 Go语言结构体标签
10.7 通过反射获取值信息
10.8 通过反射访问结构体成员的值
10.9 判断反射值的空和有效性
10.10 通过反射修改变量的值
10.11 通过类型信息创建实例
10.12 通过反射调用函数
10.13 Go语言inject库：依赖注入

        

            
            11.1 Go语言自定义数据文件
11.2 Go语言JSON文件的读写操作
11.3 Go语言XML文件的读写操作
11.4 Go语言使用Gob传输数据
11.5 Go语言纯文本文件的读写操作
11.6 Go语言二进制文件的读写操作
11.7 Go语言自定义二进制文件的读写操作
11.8 Go语言zip归档文件的读写操作
11.9 Go语言tar归档文件的读写操作
11.10 Go语言使用buffer读取文件
11.11 Go语言文件的写入、追加、读取、复制操作
11.12 Go语言文件锁操作

        

            
            12.1 go build命令
12.2 go clean命令
12.3 go run命令
12.4 go fmt命令
12.5 go install命令
12.6 go get命令
12.7 go generate命令
12.8 go test命令
12.9 go pprof命令

        

            
            13.1 Go语言的深拷贝和浅拷贝
13.2 Go语言引用传递和值传递
13.3 Go语言的Socket编程

        

            
            14.1 Golang Map底层实现
14.2 go语言触发异常的场景有哪些
14.3 Printf()、Sprintf()、Fprintf()函数的区别用法是什么
14.4 详细说说new和make的区别
14.5 详细说说切片和数组的区别
14.6 Golang的内存模型，为什么小对象多了会造成gc压力
14.7 Data Race问题怎么解决？能不能不加锁解决这个问题
14.8 在 range 迭代 slice 时，你怎么修改值的
14.9 select可以用于什么
14.10 go语言编程的好处是什么
14.11 你是否主动关闭过http连接，为啥要这样做
14.12 recover的执行时机
14.13 说出一个避免Goroutine泄露的措施
14.14 如何跳出for select 循环
14.15 如何初始化带嵌套结构的结构体
14.16 Printf()、Sprintf()、Fprintf()函数的区别用法是什么
14.17 go语言中的引用类型包含哪些
14.18 说说go语言的select机制

        

        推荐文章
        
                2019最新Python爬虫面试高频率面试题总结（二）
            

                Python 爬虫面试题 170 道
            

                2019最新Python爬虫高频率面试题总结（一）
            

                Python编程惯例
            

                Python3 爬虫实战(一)——爬取one每日一句，并保存到本地
            

                python妹子图爬虫5千张高清大图突破防盗链福利5千张福利高清大图
            

                python爬虫 妹子图 新人福利！！
            

                python爬虫——校花网
            

                python爬虫——爬取妹子网美女图片
            

                Python骚操作：爬虫爬取性感美女图，已装满我硬盘！
            

    

        猜你喜欢
        



        
    

        随便看看
        
                Go开发工程师：迎接上升风口，踏入蓝海行业！【完结】
                
            

                成都web前端前景怎么样？
                
            

                利用Python爬取全国250m精度的人口数据、房价数据等数据 | CSDN博文精选
                
            

                GitHub上的项目体验第二期——mall-admin-web
                
            

                前端基础：技术栈简介
                
            

                vue+Cesium学习笔记——wsdchong
                
            

                前端可视化echarts使用理解——wsdchong
                
            

                想成为前端大神秒杀群雄？收下这份2020年最新前端学习路线！
                
            

                你要是还学不会，请提刀来见 Typora+PicGo+Gitee + node.js 打造个人高效稳定优雅图床
                
            

                Typora+PicGo-Core+Github+jsDelivr 搭建图床(2021.1.31)