python爬虫

一．安装爬虫
1、在搜索栏中输入anaconda，鼠标移至Anaconda Prompt上右键，选择打开文件位置,如图1所示。

图 1
2、右键点击Anaconda Prompt，选择以管理员身份运行，如图2所示。

图 2

3、加载完成，输入：conda install scrapy并按回车,如图3所示。

图 3
4、加载完成后，输入y，确认安装，如图4所示。

图4
5、安装完成后，输入scrapy，查看是否安装成功，如图5所示。

图5

二、用anaconda创建爬虫框架。
1、在除C以外的任意盘符下创建文件夹，并命名为scrapy，如图2.1所示。

图2.1
2、用一中的方式打开Anaconda Prompt，输入创建文件夹的盘符+冒号如图2.2所示。

图2.2

3、用cd指令进入1中创建的文件夹，如图2.3所示。

图2.3
4、输入scrapy startproject 文件夹名（jd_scrapy），如图2.4所示。

图2.4
5、输入图2.4中最后两行命令，将两个example换成自己创建项目的名称，如图2.5。

图2.5

三、打开项目。
1、打开pycharm，在左上角file中，选择open，如图3.1。

图3.1
2、在open中找到刚才创建文件夹的路径，选择第一个jd_scrapy点击ok，如图3.2。

图3.2
3、选择new_window，如图3.3所示

图3.3

四、配置环境。
1、选择file中的settings，如图4.1所示。

图4.1
2、在Project Interpreter中，将环境改为python3.6，如图4.2所示。

图4.2

五、修改程序。
1、右键第二个jd_scrapy选择new下的python file，如图5.1所示。

图5.1
2、新建main.py程序，如图5.2所示。

图5.2
3、在main.py中输入图5.3中代码，如图5.3所示。

图5.3
4、双击打开items.py，将代码修改为图5.4所示。

图5.4

5、双击打开pipelines.py，将代码修改为如图5.5所示。

图5.5
6、双击打开settings.py文件，按ctrl+f打开搜索框，输入pip，并将后三行的注释去掉，如图5.6所示。

图5.6
7、双击打开jd.py文件，将代码修改为如图5.7所示。

图5.7
注：图中第8行start_urls后的绿色区域改为要爬取的网址。
图中第11行后的绿色区域为所要爬取的区域的xpath。
图中第14行后的绿色区域为爬取内容的xpath。
建议使用谷歌浏览器。

六、xpath爬取方法。
1、打开要爬取的网址，按f12或者fn+f12，打开开发者工具，如图6.1所示。

图6.1
2、点击左上角的图标（图6.2）选择爬取区域（图6.3）后单击，所选区域代码会变蓝（图6.4）。

图6.2

图6.3

图6.4

3、右键所选区域，复制xpath如图6.5所示。

图6.5
3、直接将区域的xpath和爬取内容的xpath粘进jd.py，如图6.6所示。

图6.6

七、爬取代码。
1、在pycharm左下角单击图标，打开Terminal，如图7.1所示。

图7.1
2、在框内输入scrapy crawl jd，运行项目。

图7.2
八、爬取成功，双击打开左侧a.csv查看结果，如图8.1所示。

图8.1

版权声明：本文来源CSDN，感谢博主原创文章，遵循 CC 4.0 by-sa 版权协议，转载请附上原文出处链接和本声明。
原文链接：https://blog.csdn.net/xiaoqiang616717/article/details/104114177
站方申明：本站部分内容来自社区用户分享，若涉及侵权，请联系站方删除。

发表于 2020-02-25 01:38:44
阅读 ( 993 )
分类：

python爬虫

你可能感兴趣的文章

精选的优质文章

0 条评论

官方社群

GO教程

推荐文章

猜你喜欢

随便看看