冰凌汇编

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 50|回复: 0
收起左侧

[Python] Python爬虫:为什么你爬取不到网页数据

[复制链接]
HQ0731 发表于 2022-8-11 14:53:29
1. 最基础的爬虫

通常编写爬虫代码,使用如下三行代码就可以实现一个网页的基本访问了。

[Python] 纯文本查看 复制代码
from urllib import request
rsp = request.urlopen(url='某某网站')
print(rsp.read().decode('编码'))

或者

[Python] 纯文本查看 复制代码
import requests
rsp = requests.get(url='某某网站')
print(rsp.text)

但是,有的网站你使用上述方式访问时,有可能出现一下情况:

  • 直接报错;
  • 没有报错,但是给出相应的响应码,如403;
  • 没有报错,但是输出信息没有在浏览器上看到的那么多(这有可能是网页使用了动态加载的原因)。

2. 添加请求头的爬虫

上述讲到的三种情况,怎样解决呢?基本方式是添加一个请求头(请求头的字段通常只需添加user-agent字段即可,用来模拟浏览器访问;然而有的网站用Python爬虫来访问时,可能还要添加其他字段,最好是把这个网页所有请求头字段信息全部添加上;有的网页全部请求头字段信息全部添加上,然而也访问不到数据,这种情况小编也没有什么好的解决办法,不知道使用selenium模块直接操控浏览器是否可以,没有试过)。

1、如用urllib模块来访问bilibili网站时会报错,如下:

Python爬虫:为什么你爬取不到网页数据 - HQ0731_冰凌汇编


但是添加请求头之后,就可以正常访问了。

Python爬虫:为什么你爬取不到网页数据 - HQ0731_冰凌汇编


参考代码如下:

[Python] 纯文本查看 复制代码
from urllib import request
url = 'https://www.bilibili.com/'
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4507.400'
}
req = request.Request(url=url,headers=headers)
rsp = request.urlopen(req)
print(rsp.read().decode('utf-8'))

2、如用urllib模块来访问百度网站时会出现如下情况:

Python爬虫:为什么你爬取不到网页数据 - HQ0731_冰凌汇编


很显然,这个网页不可能就这么点代码标签,添加一个请求头之后,如下:

Python爬虫:为什么你爬取不到网页数据 - HQ0731_冰凌汇编


3. 动态网页加载的数据

提到动态网页,读者首先可以去看看小编的这篇文章:Python爬虫:什么是静态网页(数据),什么是动态网页(数据),小编学习过后端知识,大体知道为什么用上述方式访问不到相应的数据。why(大概是这样吧!也有可能讲的不对,希望读者指正[如果有错误的话],一般而言,我们用爬虫爬取得到的数据是当前网页已经完全加载的,然而动态网页使用了ajax技术,而执行者一段ajax代码好像是网页完全加载之后才执行的,因此你用爬虫爬取不到那部分数据。)

此时,你有两种解决方式:

  • 找到这个ajax的相关网页链接,访问这个链接,从而得到相关数据;
  • 直接使用selenium这个模块,操作浏览器访问。

如果读者使用第1种解决方式,有可能你访问的那个链接一些参数是加密的,这时你需要利用js断点(使用谷歌浏览器),找到那段加密参数加密之前的数据信息和相关的一些js加密函数,找到加密之前的数据信息的组合规则。关于js加密函数,如果简单的话,直接用Python模拟出加密效果即可;如果复杂的话,最好使用execjs或者其他Python模块下的一些方法去执行这些js加密函数。


4. 总结

有的读者也许会问,如果我ip封掉了,怎样爬取网页数据,其实,使用相关ip代理即可,读者可以去看看小编的爬虫专栏,里面有讲ip代理的相关文章。另外,还有一些高大上的反爬措施,小编并不是很了解,就不在这一一赘述了,如果未来小编真的了解到了,到时候再在本文章后加上吧!

冰凌汇编免责声明
以上内容均来自网友转发或原创,如存在侵权请发送到站方邮件9003554@qq.com处理。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|站点统计|Archiver|小黑屋|RSS|冰凌汇编 ( 滇ICP备2022002049号 滇公网安备 53032102000029号)|网站地图

GMT+8, 2022-10-6 21:58 , Processed in 0.126991 second(s), 8 queries , Redis On.

冰凌汇编 - 建立于2021年12月20日

Powered by Discuz! © 2001-2022 Comsenz Inc.

快速回复 返回顶部 返回列表