Python Beautiful Soup类的基本元素 - Go语言中文社区

Python Beautiful Soup类的基本元素


Beautiful Soup库是解析,遍历,维护“标签树”的功能库。
条件:
pip install lxml
pip install html5lib

以下5种基本元素是使用方法!
Tag:标签,最基本的信息组织单元,分别用<>和</>标明开头和结尾

    提前要写的代码:

import requests
r = requests.get("https://python123.io/ws/demo.html")
r.text
demo = r.text
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo , "html.parser")
print(soup.prettify())

执行结果:(比例不对就用放大镜查看!)

做汤:

可以查看标题!

Name:标签的名字,<p>...</p>的名字是'p',格式:<tag>.name

(比例不对就用放大镜查看!)

获取标签名字:

它父亲的名字,就是上一层的:

其父亲的上一层的名字:

Attributes:标签的属性,字典的形式组织,格式:<tag>.attrs

说明标签特点:

有一个字典。

上图为字典属性值。

上图为连接属性值。

标签属性类型:

为字典类型。

tag标签属性:

NavigableString:标签内非属性字符串,<>...</>中字符串,格式:<tag>.string

a标签的字符串信息:

p标签:

p标签的字符串信息:

Comment:标签内字符串的注释部分,一种特殊的Comment类型

处理注释部分:

 

版权声明:本文来源CSDN,感谢博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/weixin_42859280/article/details/84197036
站方申明:本站部分内容来自社区用户分享,若涉及侵权,请联系站方删除。
  • 发表于 2020-03-07 16:06:21
  • 阅读 ( 830 )
  • 分类:

0 条评论

请先 登录 后评论

官方社群

GO教程

猜你喜欢