python 找出html中的所有链接(Xpath、正则两个版本)
要在hrml文件中找出特定的内容,首先需要观察该内容是什么东西,在什么位置,这样才能找出来。 假设html的文件名称是:"1.html"、href属性全都在a标签里。 正则版:#coding:utf-
顺晟科技
2022-09-15 22:29:03
206
要在hrml文件中找出特定的内容,首先需要观察该内容是什么东西,在什么位置,这样才能找出来。
假设html的文件名称是:"1.html"、href属性全都在a标签里。
正则版:
#coding:utf-8 import re with open('1.html','r') as f: data = f.read() result = re.findall(r'href="(.*?)"',data) for each in result: print each
Xpath版:
#coding:utf-8 from lxml import etree with open('1.html', 'r') as f: data = f.read() selector = etree.HTML(data) result = selector.xpath('//a/@href') for each in result: print each
1.html 自己随便找个链接 这里的html丢失
15
2022-09
19
2021-06
16
2021-06
16
2021-06
16
2021-06
16
2021-06