如何从网页中提取网址，避免括号和单引号的干扰？

如何摆脱爬取网址中出现的括号和单引号

当你使用beautifulsoup等html解析器爬取网页时，你可能会遇到一些情况下，所抓取的网址中会带有括号和单引号。这会给后续数据处理带来不便。以下是如何解决这个问题的方法：

使用正则表达式

正则表达式（regex）是一种强大的工具，可以用于匹配和提取文本中的特定模式。在你的例子里，你可以使用正则表达式来匹配网址，并提取它们而不包括括号和单引号。

例如:

import re  pattern = r'href="(.*?)"' urls = re.findall(pattern, html)

登录后复制

这将从html中匹配所有href属性，并将值存储在urls列表中，而不会包含引号。

使用lxml

lxml是一个库，它提供了另一种解析xml和html的方法。它使用xpath语法来查找和提取元素。

例如:

import requests from lxml import etree  headers = {     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36' } res = requests.get(url, headers=headers) res_dom = etree.HTML(res.text) urls = res_dom.xpath('//h3/a/@href')

登录后复制

这将抓取所有h3标记中a元素的href属性，并且不会包含括号和单引号。

以上就是如何从网页中提取网址，避免括号和单引号的干扰？的详细内容，更多请关注php中文网其它相关文章！

甲倪知识

如何从网页中提取网址，避免括号和单引号的干扰？

作者: nijia

发表评论取消回复

联系我们

微信扫一扫关注我们

给这篇文章的作者打赏

作者: nijia

相关文章

如何解决 Sqlalchemy 查询数据返回的时间类型不符合预期的问题？

Django 中如何实现公用信息查询通用化？

字典中出现 None 值的原因分析：为什么 None 可以作为字典键？

Python Flask 中的蓝图：何时该用，何时不该用？

如何使用Go语言构建嵌套数组并添加结构体？

桌面自动化脚本开发：哪些Python库和框架最实用？

发表评论 取消回复

联系我们

微信扫一扫关注我们

发表评论取消回复