Python Beautiful Soup库实用笔记

209次阅读
没有评论

共计 2368 个字符,预计需要花费 6 分钟才能阅读完成。

安装 Beautiful Soup

pip install beautifulsoup4
pip install lxml # 安装解析器 lxml

使用 Beautiful Soup

Beautiful Soup 将复杂的 HTML 文档转换成一个复杂的树形结构,每个节点都是 Python 对象,所有对象可以归纳为 4 种:Tag,NavigableString,BeautifulSoup,Comment。

Tag

Tag 就是 HTML 中的标签。首先,用 HTML 创建一个 Beautiful Soup 对象。

soup = BeautifulSoup(html, 'lxml')
head = soup.head # 提取 head 标签
title = soup.title # 提取 title 标签
p = soup.p # 提取 p 标签 

标签有两个重要的属性:name 和 attrs。

name = soup.p.name
attrs = soup.p.attrs # 标签的所有属性是一个字典 

NavigableString

获取标签内部的文字,用 .string 即可,例如:

title = soup.title
print(title.string)

get_text() 用来获取标签中所有字符串包括子标签的内容,返回的是 unicode 类型的字符串。实际场景中一般使用 get_text() 方法获取标签中的内容。

BeautifulSoup

BeautifulSoup 对象表示一个文档的全部内容,大部分时候,它是一个特殊的 Tag,可以分别获取它的类型、名称和属性。

print(type(soup))
print(soup.name)
print(soup.attrs)

Comment

Comment 对象是特殊类型的 NavigableString 对象,在对其进行内容输出的时候,是不包括注释符号的。

# <a href="https://docs.python.org/zh-cn/3/"  id="link1"><!-- Python 官方文档 --></a>
a = soup.a
print(a.string) # 输出:Python 官方文档 

在利用 .string 进行内容输出的时候,注释符号被去掉了,这可能会给我们带来不必要的麻烦。所以,在使用之前最好做下判断,判断代码如下:

if type(soup.a.string)==bs4.element.Comment:
    print soup.a.string

遍历文档树

直接子节点

标签的 .contents 属性可以将标签的子节点以列表的方式输出:

head = soup.head
print(head.contents)

标签的 .children 属性可以将标签的子节点以列表生成器的方式输出:

head = soup.head
## 通过遍历生成器的方式来获得里面的内容
for item in head.children:
    print(item)

所有子孙节点

标签的 .descendants 属性包含标签的所有子孙节点。

head = soup.head
for item in head.descendants:
    print(item)

节点内容

.strings 属性可以获取多个内容,需要通过遍历获取。

for str in soup.strings:
    print(repr(str)) # repr() 函数将对象转化为供解释器读取的形式 

使用 .strings 输出的字符串包含了很多空格和空行,使用 .stripped_strings 可以去除空白内容。

for str in soup.stripped_strings:
    print(repr(str))

父节点

通过 .parent 属性来获取元素的父节点。

p = soup.p
print(p.parent.name)

通过 .parents 属性来递归获取元素的所有父节点。

兄弟节点

.next_sibling 属性获取该节点的下一个兄弟节点,.previous_sibling 则与之相反,如果节点不存在,则返回 None。注意:实际文档中标签的 .next_sibling 和 .previous_sibling 属性通常是字符串或空白,因为空白或者换行也可以被视作一个节点,所以得到的结果可能是空白或者换行。

通过 .next_siblings 和 .previous_siblings 属性可以对当前节点的兄弟节点迭代输出。

for sibling in soup.img.next_siblings:
    print(repr(sibling))

前后节点

.next_element .previous_element 属性,与 .next_siblings .previous_siblings 不同,它并不是针对于兄弟节点,而是所有节点,不分层次。

通过 .next_elements 和 .previous_elements 的迭代器可以向前或向后访问文档的解析内容。

for element in soup.img.next_elements:
    print(repr(element))

搜索文档树

find_all(name, attrs, recursive, text,kwargs)
# 查找所有 p 标签
print(soup.find_all('p'))
# 搜索属性值符合条件的标签
print(soup.find_all(id='link1'))

CSS 选择器

# 查找标签名为 title 的标签
print(soup.select('title'))
# 查询类名为 python 的标签
print(soup.select('.python'))
# 查找 id 为 link1 的标签
print(soup.select('#link1'))
# 组合查找:查找 p 标签中,id 等于 link1 的内容,二者用空格分开
print(soup.select('p #link1'))
# 查找 class 值为 "python" 的 p 标签
print(soup.select('p[class="python"]'))

正文完
 0
阿伯手记
版权声明:本站原创文章,由 阿伯手记 于2023-08-18发表,共计2368字。
转载说明:本站原创内容,除特殊说明外,均基于 CC BY-NC-SA 4.0 协议发布,转载须注明出处与链接。
评论(没有评论)
验证码

阿伯手记

阿伯手记
阿伯手记
喜欢编程,头发渐稀;成长路上,宝藏满地
文章数
766
评论数
204
阅读量
447490
今日一言
-「
热门文章
职场救急!AI请假话术生成器:1秒定制高通过率理由

职场救急!AI请假话术生成器:1秒定制高通过率理由

超级借口 不好开口?借口交给我!智能生成工作请假、上学请假、饭局爽约、约会拒绝、邀约推辞、万能借口等各种借口理...
夸克网盘快传助手提高非VIP下载速度

夸克网盘快传助手提高非VIP下载速度

夸克网盘限速这个大家都知道,不开会员差不多限速在几百 K。那有没有办法在合法合规途径加速下载夸克网盘呢?这里推...
国内已部署DeepSeek模型第三方列表 免费满血版联网搜索

国内已部署DeepSeek模型第三方列表 免费满血版联网搜索

本文收集了目前国内已部署 DeepSeek 模型的第三方列表,个个都是免费不限次数的满血版 DeepSeek,...
巴别英语:用美剧和TED演讲轻松提升英语听力与口语

巴别英语:用美剧和TED演讲轻松提升英语听力与口语

还在为枯燥的英语学习而烦恼吗?巴别英语通过创新的美剧学习模式,让英语学习变得生动有趣。平台提供海量美剧和 TE...
Chinese Name Generator 在线中文姓名生成器

Chinese Name Generator 在线中文姓名生成器

Chinese Name Generator 是一款在线中文姓名生成器,可在几秒内生成符合个人需求的中文名字。...
TVAPP:开源电视盒子资源库,一键打造家庭影院

TVAPP:开源电视盒子资源库,一键打造家庭影院

导语 TVAPP 是一个专为 Android TV 电视盒子用户打造的开源影音资源库,集成了影视、直播、游戏等...
2025年12月 每日精选

2025年12月 每日精选

关于每日精选栏目 发现一些不错的资源,点击 这里 快速投稿。 12 月 26 日 .ax 顶级域 目前全球唯一...
最新评论
15220202929 15220202929 怎么用
八对 八对 麻烦大佬更新下【堆新】的友链站名:八对星星描述:极目星视穹苍无界•足履行者大地有疆链接:https://8dui.com图标:https://cf.8dui.com/logo.webp横标:https://cf.8dui.com/logo-w.webp订阅:https://8dui.com/rss.xml
三毛笔记 三毛笔记 已添加
DUINEW DUINEW 已添加贵站,期待贵站友链~博客名称:堆新博客地址:https://duinew.com/博客描述:堆新堆新,引力向新!——堆新(DUINEW)博客头像:https://d.duinew.com/logo.webp横版头像:https://d.duinew.com/logo-w.webp博客订阅:https://duinew.com/rss.xml
hedp hedp 没看懂
bingo bingo 直接生成就可以啦,也可以添加一些选项
满心 满心 申请更新下友联信息,原名:满心记,现名:周天记原域名:qq.mba,现域名:zhoutian.com描述:我在人间混日子
开业吉日 开业吉日 没看明白这个怎么用
开业吉日 开业吉日 beddystories 这个网站太赞了,收藏
热评文章
夸克网盘快传助手提高非VIP下载速度

夸克网盘快传助手提高非VIP下载速度

夸克网盘限速这个大家都知道,不开会员差不多限速在几百 K。那有没有办法在合法合规途径加速下载夸克网盘呢?这里推...
清华大学官方免费DeepSeek教程

清华大学官方免费DeepSeek教程

AI 领域近期最引人注目的焦点当属 DeepSeek,这款由中国创新企业深度求索研发的人工智能工具,正以开放源...
Short-Link 免费开源短网址程序,基于Fastify、Vercel和Supabase构建

Short-Link 免费开源短网址程序,基于Fastify、Vercel和Supabase构建

Short-Link 是一款基于 Fastify、Vercel 和 Supabase 构建的 URL 缩短服务...
国内已部署DeepSeek模型第三方列表 免费满血版联网搜索

国内已部署DeepSeek模型第三方列表 免费满血版联网搜索

本文收集了目前国内已部署 DeepSeek 模型的第三方列表,个个都是免费不限次数的满血版 DeepSeek,...
Chinese Name Generator 在线中文姓名生成器

Chinese Name Generator 在线中文姓名生成器

Chinese Name Generator 是一款在线中文姓名生成器,可在几秒内生成符合个人需求的中文名字。...
BeddyStories 完全免费儿童睡前故事库,让孩子随时随地入睡更轻松

BeddyStories 完全免费儿童睡前故事库,让孩子随时随地入睡更轻松

BeddyStories 是一个致力于为儿童提供优质睡前故事的在线平台,用户可以在这里找到来自世界各地的经典故...
DrawLink:一键生成链接视觉卡片,提升分享点击率

DrawLink:一键生成链接视觉卡片,提升分享点击率

小贴士 :此站或已变迁,但探索不止步。我们已为您备好「类似网站」精选合集,相信其中的发现同样能为您带来惊喜。