顺晟科技
2021-06-16 10:45:11
273
节省时间,不废话,举个例子就好!输入以下代码(共6行)
导入请求
从lxml导入html
Url='https://movie.douban.com/' #需要抓取数据的Url
page=请求。会话()。获取(url)
tree=html.fromstring(page.text)
结果=树。XPath('//TD[@ class=' title ']//a/text()')#获取所需数据
让我们看看获得的数据
打印(结果)
['隐形客人',
斯隆女士,
《美女与野兽》,
Chek ',
拆分',
莎士比亚传记',
八月',
休斯顿,我们有麻烦了!
古城由一条线领导,
被操纵的城市']
爬虫结束了~ ~ ~有成就感!
以上代码抓取的是这一页,红框里的数据,这是本周豆瓣电影的口碑列表。
先简单介绍一下怎么写爬虫。
在爬行之前,我们首先简单明了地说明两点:
1.爬虫的网址;
2.要爬网的内容(数据)。
步,爬虫的网站,这个…用豆瓣来做吧。不知道为什么爬虫教程要用豆瓣操作!
第二部分是要抓取的内容(数据)。
这是上面6行代码的最后一行,可能是新手最难的地方。这部分代码是为了获取数据。
//td[@class='title']//a/text()'
一个
下面是如何一步一步地写上面一行代码
1.打开https://movie.douban.com/,网站,然后点击F12。
2.用鼠标点击图中的按钮。
用鼠标点击要抓取的数据,这里我们点击“隐形客”,如图。
看到红色大盒子里是什么,和我们最“重要”的代码有很多相似之处吗?
看看最后一行代码最“重要”的部分。
//td[@class="title"]//a/text()'
//td:这相当于指定了一个大目录;
[@ class="title"]:这相当于指定的小目录;
//a:这相当于最小的目录;
/text():这是从中提取的数据。
爬行动物的引入已经结束。看完应该试试手。
试试爬“快来了”
只需将最后一行代码更改为
result=tree . XPath('//Li[@ class=' title ']//a/text()')
如图,电影《快到了》就要被你爬下来了。
是不是觉得爬虫很简单,已经学会了?
实际上,爬行动物面临许多问题,例如:
1.页面规则不统一;
2.爬下的数据处理;
3.反爬虫机制。
类似的问题还有很多。想要深入成为大神,还是要一步一步来。5分钟不可能成为大神~ ~!
以上六行代码包括python请求包、html知识、XPATH等等。网上资料很多,这里就不介绍了。
08
1972-02
02
2022-09
16
2021-06
16
2021-06
16
2021-06
16
2021-06