python爬虫(五)爬虫实战 - Go语言中文社区

python爬虫(五)爬虫实战


一、爬取新浪新闻网页

url = "https://news.sina.cn/gn?vt=4&pos=3"

1、分析页面内容

 1)为了方便使用Chrome浏览器打开该网页。进入网址后,按F12进入开发界面;

2)点击右上角的Network,再点击下方的Doc(因为大部分新闻网址的新闻内容都在这查找)。查看内容是否就是我们需要的

新闻内容;如果存在就进行下一步;

3)点击右下角的Headers,查看请求Request的方法和URL;

4)经过查看发现所有的新闻标题都在一个section标签内,而标签内容则在它的子标签h2中;

5)代码

from bs4 import BeautifulSoup
import requests

headers = {'user_agent':"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.75 Safari/537.36"}
res = requests.get('https://news.sina.cn/gn/?from=wap',headers=headers)
res.encoding = 'utf-8'
# print(res.text)

soup = BeautifulSoup(res.text,'html.parser')
for news in soup.select('section'):
    if len(news.select('h2')) > 0:
        h2 = news.select('h2')[0].text
        print(h2)

返回结果:

中办国办:统筹推进自然资源资产产权制度改革
中办国办:统筹推进自然资源资产产权制度改革
蔡英文:说好的支持我呢?赖清德称那是4个月前
北京近2次地震都在周日中午?专家:纯属巧合
国家市场监督管理总局启动对爱立信调查
短视频平台试点防沉迷系统: 每天限40分钟 禁打赏
日外相出席中日经济高层对话 两国官方频繁互动
台军要拿方便面“招降”解放军?台网友看笑了
王凯补缺长春市委书记 系中央纪委“老人”(简历)
原反贪局长因“贪”站上被告席 自称“深深惭愧”
坚持参选是有意“卡韩”?王金平:谁卡谁都不知道
四川射洪10月正式公布撤县建市成功?官方回应
山西应县原书记被撤职:对严重统计违法问题失察
上海财大新成立了一个研究院 该校党委书记任院长
王凯任长春市委书记 前任已任新疆政法委书记
中国女排前队长惠若琪当选江苏省青联副主席(图)
韩国瑜诠释“韩流”:台湾民心思变 须回归民本
王凯任长春书记 此前任吉林省委组织部长(简历)
央行副行长:中国股市正显示出触底和复苏迹象
怀柔发生北京23年来最大地震 专家初判:正常起伏
新晋辽宁省委常委于天敏职务明确
厅级干部跨省提拔:75后谢元任天津东丽区委副书记
俄专家:欧盟“注定接受”中国建议
研究称两成中国人死于吃错饭?专家:夸大其词了
辽宁452名法官检察官因不适应一线办案等退出员额
八一飞行表演队大秀“歼十之吻”(图)
北京飞絮今年怎么治?28.4万杨柳雌株“被盯上了”
北京地铁1号线苹果园站附近道路塌陷  已在抢修
北京10天内2次地震 专家:均天然地震 二者无关联
蔡英文:攻击我的都是赖清德熟悉的人 请他多节制
北京怀柔发生3.0级地震 市区多地居民有震感

 

版权声明:本文来源CSDN,感谢博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/qq_40042590/article/details/89299672
站方申明:本站部分内容来自社区用户分享,若涉及侵权,请联系站方删除。
  • 发表于 2020-03-01 22:36:52
  • 阅读 ( 857 )
  • 分类:

0 条评论

请先 登录 后评论

官方社群

GO教程

猜你喜欢