5分钟6行代码教你写python爬虫

顺晟科技

2021-06-16 10:45:11

273

节省时间，不废话，举个例子就好！输入以下代码(共6行)

导入请求

从lxml导入html

Url='https://movie.douban.com/' #需要抓取数据的Url

page=请求。会话()。获取(url)

tree=html.fromstring(page.text)

结果=树。XPath('//TD[@ class=' title ']//a/text()')#获取所需数据

让我们看看获得的数据

打印(结果)

['隐形客人'，

斯隆女士，

《美女与野兽》，

Chek '，

拆分'，

莎士比亚传记'，

八月'，

休斯顿，我们有麻烦了！

古城由一条线领导，

被操纵的城市']

爬虫结束了~ ~ ~有成就感！

以上代码抓取的是这一页，红框里的数据，这是本周豆瓣电影的口碑列表。

先简单介绍一下怎么写爬虫。

在爬行之前，我们首先简单明了地说明两点：

1.爬虫的网址；

2.要爬网的内容(数据)。

步，爬虫的网站，这个…用豆瓣来做吧。不知道为什么爬虫教程要用豆瓣操作！

第二部分是要抓取的内容(数据)。

这是上面6行代码的最后一行，可能是新手最难的地方。这部分代码是为了获取数据。

//td[@class='title']//a/text()'

一个

下面是如何一步一步地写上面一行代码

1.打开https://movie.douban.com/,网站，然后点击F12。

2.用鼠标点击图中的按钮。

用鼠标点击要抓取的数据，这里我们点击“隐形客”，如图。

看到红色大盒子里是什么，和我们最“重要”的代码有很多相似之处吗？

看看最后一行代码最“重要”的部分。

//td[@class="title"]//a/text()'

//td:这相当于指定了一个大目录；

[@ class="title"]:这相当于指定的小目录；

//a:这相当于最小的目录；

/text():这是从中提取的数据。

爬行动物的引入已经结束。看完应该试试手。

试试爬“快来了”

只需将最后一行代码更改为

result=tree . XPath('//Li[@ class=' title ']//a/text()')

如图，电影《快到了》就要被你爬下来了。

是不是觉得爬虫很简单，已经学会了？

实际上，爬行动物面临许多问题，例如：

1.页面规则不统一；

2.爬下的数据处理；

3.反爬虫机制。

类似的问题还有很多。想要深入成为大神，还是要一步一步来。5分钟不可能成为大神~ ~！

以上六行代码包括python请求包、html知识、XPATH等等。网上资料很多，这里就不介绍了。

上一篇：Python的装饰器和语法糖下一篇：以太坊智能合约编写实例

网站建设

开发小记

5分钟6行代码教你写python爬虫