18910140161

5分钟6行代码教你写python爬虫

顺晟科技

2021-06-16 10:45:11

273

节省时间,不废话,举个例子就好!输入以下代码(共6行)

导入请求

从lxml导入html

Url='https://movie.douban.com/' #需要抓取数据的Url

page=请求。会话()。获取(url)

tree=html.fromstring(page.text)

结果=树。XPath('//TD[@ class=' title ']//a/text()')#获取所需数据

让我们看看获得的数据

打印(结果)

['隐形客人',

斯隆女士,

《美女与野兽》,

Chek ',

拆分',

莎士比亚传记',

八月',

休斯顿,我们有麻烦了!

古城由一条线领导,

被操纵的城市']

爬虫结束了~ ~ ~有成就感!

以上代码抓取的是这一页,红框里的数据,这是本周豆瓣电影的口碑列表。

先简单介绍一下怎么写爬虫。

在爬行之前,我们首先简单明了地说明两点:

1.爬虫的网址;

2.要爬网的内容(数据)。

步,爬虫的网站,这个…用豆瓣来做吧。不知道为什么爬虫教程要用豆瓣操作!

第二部分是要抓取的内容(数据)。

这是上面6行代码的最后一行,可能是新手最难的地方。这部分代码是为了获取数据。

//td[@class='title']//a/text()'

一个

下面是如何一步一步地写上面一行代码

1.打开https://movie.douban.com/,网站,然后点击F12。

2.用鼠标点击图中的按钮。

用鼠标点击要抓取的数据,这里我们点击“隐形客”,如图。

看到红色大盒子里是什么,和我们最“重要”的代码有很多相似之处吗?

看看最后一行代码最“重要”的部分。

//td[@class="title"]//a/text()'

//td:这相当于指定了一个大目录;

[@ class="title"]:这相当于指定的小目录;

//a:这相当于最小的目录;

/text():这是从中提取的数据。

爬行动物的引入已经结束。看完应该试试手。

试试爬“快来了”

只需将最后一行代码更改为

result=tree . XPath('//Li[@ class=' title ']//a/text()')

如图,电影《快到了》就要被你爬下来了。

是不是觉得爬虫很简单,已经学会了?

实际上,爬行动物面临许多问题,例如:

1.页面规则不统一;

2.爬下的数据处理;

3.反爬虫机制。

类似的问题还有很多。想要深入成为大神,还是要一步一步来。5分钟不可能成为大神~ ~!

以上六行代码包括python请求包、html知识、XPATH等等。网上资料很多,这里就不介绍了。

我们已经准备好了,你呢?
2024我们与您携手共赢,为您的企业形象保驾护航