网易首页 > 网易号 > 正文 申请入驻

一个 Accept-Encoding 引发的 requests 爬虫乱码问题

0
分享至

作者 | 阿文

出品 | CSDN(ID:CSDNnews)

头图 | CSDN 下载自东方IC

最近在写一个内部的 RPA 项目,由于需要模拟请求一些网页的接口,拿到数据,但是发现通过 Python 的 requests 库 模拟请求 response 返回的数据是乱码的。使用 requests 无法通过 repsonse.json() 拿到 JSON 返回值,而浏览器返回以及 Postman 调试却是正常的

来看下请求信息,请求头是这样的

Accept: application/jsonAccept-Encoding: gzip, deflate, brAccept-Language: zh-CN,zh;q=0.9,en;q=0.8Authorization: Bearer XXXXCache-Control: no-cacheConnection: keep-aliveContent-Length: 21Content-Type: application/json;charset=UTF-8Cookie: XXXXDNT: 1Host: techs.qima-inc.comOrigin: https://XXXXPragma: no-cacheReferer: https://XXXXSec-Fetch-Dest: emptySec-Fetch-Mode: corsSec-Fetch-Site: same-originUser-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36

requests 去请求代码,由于希望模拟的更像一点,我直接把浏览器的请求信息全部拿过来了

headers = {'Accept': 'application/json','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8','Cache-Control': 'no-cache','Connection': 'keep-alive','Content-Type': 'application/json;charset=UTF-8','DNT': '1','Host': 'xxx','Origin': 'https://xxx','Pragma': 'no-cache','Referer': 'https://xxx','Sec-Fetch-Dest': 'empty','Sec-Fetch-Mode': 'cors','Authorization': "Bearer {}".format(self.request_session.cookies.get("TOKEN")),'Sec-Fetch-Site': 'same-origin','User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) ''AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'}
response = self.request_session.put(url, headers=headers, json=payload)if response.status_code != 200:return 1resp_json = response.json()

正常预期下 resp_json 会返回一段 json 格式的数据,而我却得到的是

json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

这说明无法解析json内容,我们将response 打印看看,如下所示,一堆乱码

|e;Q-,*,CD'Pl4J6E[bPHddF-)1jRX4~ApWmoD0

经过排查,发现是'Accept-Encoding' 的问题,我们直接把这个头去掉,发现可以正常返回数据了

{"code":0,"msg":null,"data":"[……}

这是为啥?事实上,在网页请求的时候,为了减少网页请求所消耗的带宽,提高数据传输的速度,通常会把数据进行压缩传输,这里就需要用到'Accept-Encoding',它的值'gzip, deflate, br',这里的值代表的意思是数据压缩采用的编码方式。通常我们还需要关注一个值,那就是响应头里面的'Content-Encoding'。

'Content-Encoding'是指服务端使用了哪种压缩方式传输数据给你,'Accept-Encoding'表示你发送请求时告诉服务器,我可以使用哪些编码解压缩你返回的数据。

服务端会根据你发送的'Accept-encoding'来决定用什么格式'Content-Encoding'压缩数据传输。

在 requests 中我们可以使用下面的方法打印该请求头

>>> response.request.headers["Accept-Encoding"]gzip, deflate, br

同时输出下服务端响应的压缩

>>> r.headers['Content-Encoding']'br'

发现服务端给我们返回的是通过 'br' 进行解码数据,但是很遗憾,'requets' 库支持 'gzip' 压缩和 'deflate' 压缩类型,但是不支持'br'。所以问题的点就出在了这里。

这里的 'br '是指 Brotli,它是 Google 推出的一款通用无损压缩算法,高压缩且性能快的编码方式,使用brotli取代[deflate](https://zh.wikipedia.org/wiki/DEFLATE)来对[文本文件](https://zh.wikipedia.org/wiki/文本文件)压缩通常可以增加20%的压缩密度,而压缩与解压缩速度则大致不变,项目地址见 https://github.com/google/brotli

所以我们发现了问题根源,解决方案有2种,一种是本地请求去掉 'br' 编码。另外一种就是本地获取到数据使用 'br'编码进行解码,下面重点说下第二种,其实也很简单:

1.首先,我们需要安装 Brotli

pip3 install Brotli

2.然后先获取到 'Content-Encoding' 判断是否是 'br' 编码,如果是,则进行解码

if response.headers["Content-Encoding"] == 'br':resp_json = brotli.decompress(response.content)

这样就可以完美的解决问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗安全部队放下武器加入抗议,哈梅内伊倒计时开始

伊朗安全部队放下武器加入抗议,哈梅内伊倒计时开始

移光幻影
2026-01-07 15:18:07
四川一对夫妻同时失业,刚贷款买房4个月:人算不如天算啊

四川一对夫妻同时失业,刚贷款买房4个月:人算不如天算啊

唐小糖说情感
2026-01-07 16:28:02
U23国足首战就是生死战!8年后再冲开门红,或12年首次连胜

U23国足首战就是生死战!8年后再冲开门红,或12年首次连胜

奥拜尔
2026-01-07 19:51:00
闫学晶风波不断升级!网友扒出其儿子考中戏新疆班,分数要低30分

闫学晶风波不断升级!网友扒出其儿子考中戏新疆班,分数要低30分

小徐讲八卦
2026-01-07 16:31:06
武汉大学女教授献血300次事件,违背常识是最大的恶

武汉大学女教授献血300次事件,违背常识是最大的恶

清书先生
2026-01-07 16:26:41
太棒了!苹果推出 iPhone 换电池半价活动

太棒了!苹果推出 iPhone 换电池半价活动

XCiOS俱乐部
2026-01-07 15:03:15
王石的坠落:政法委的乘龙快婿,到“独立女性”田朴珺的账本

王石的坠落:政法委的乘龙快婿,到“独立女性”田朴珺的账本

红色少女主播
2026-01-07 16:42:25
泽连斯基引发的链式反应:俄罗斯的盟友接连倒下

泽连斯基引发的链式反应:俄罗斯的盟友接连倒下

高博新视野
2026-01-07 18:42:18
电诈“教父”陈志遣返中国,美国扣押的12.7万枚比特币应移交中国

电诈“教父”陈志遣返中国,美国扣押的12.7万枚比特币应移交中国

星空区块链
2026-01-07 21:14:37
新华时评丨一场非法荒唐的“审判”

新华时评丨一场非法荒唐的“审判”

新华社
2026-01-07 22:03:04
河南一大爷实拍“素颜巴黎”照片火遍全网,埃菲尔铁塔被调侃像“电线塔

河南一大爷实拍“素颜巴黎”照片火遍全网,埃菲尔铁塔被调侃像“电线塔

大象新闻
2026-01-07 19:53:19
社媒自宣,巴西女足传奇玛塔和前女足球员劳伦斯已举办婚礼

社媒自宣,巴西女足传奇玛塔和前女足球员劳伦斯已举办婚礼

懂球帝
2026-01-07 18:00:20
女子新房装玫红色入户门贴花壁纸,网友直呼“全网独一无二”,当事人:装修花费近100万元,老公每次来都像游客一样

女子新房装玫红色入户门贴花壁纸,网友直呼“全网独一无二”,当事人:装修花费近100万元,老公每次来都像游客一样

极目新闻
2026-01-07 13:36:53
合口味深圳地铁广告引争议!企业致歉:涉事广告已调整更换

合口味深圳地铁广告引争议!企业致歉:涉事广告已调整更换

南方都市报
2026-01-07 16:34:20
“哥都礼共和国”宣布成立,并宣布脱离缅甸独立

“哥都礼共和国”宣布成立,并宣布脱离缅甸独立

曼谷陈大叔
2026-01-07 15:57:35
从斩首计划,到擒贼先擒王,美以似乎在重新改写现代战争的打法

从斩首计划,到擒贼先擒王,美以似乎在重新改写现代战争的打法

历史摆渡
2026-01-05 17:20:03
山东区划调整:日照并入临沂?官方回应

山东区划调整:日照并入临沂?官方回应

大象新闻
2026-01-07 11:57:03
0:4+0:11惨败!21岁陈熠多哈赛硬仗掉链子,冲冠遇考验

0:4+0:11惨败!21岁陈熠多哈赛硬仗掉链子,冲冠遇考验

阿晞体育
2026-01-07 12:23:07
寒风中,南京数十民工为何扒在桥栏上当街吃午饭?

寒风中,南京数十民工为何扒在桥栏上当街吃午饭?

扬子晚报
2026-01-07 12:13:02
2026刚开年,中国连续出重拳,台湾没事,日本也可以有事

2026刚开年,中国连续出重拳,台湾没事,日本也可以有事

强军路
2026-01-07 17:39:26
2026-01-08 05:20:49
CSDN incentive-icons
CSDN
成就一亿技术人
26242文章数 242210关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

头条要闻

美军扣押俄潜艇护航的油轮 俄罗斯外交部回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

房产
亲子
健康
教育
军事航空

房产要闻

最新!海口二手房,涨价房源突然猛增30%

亲子要闻

雀巢召回多国婴儿配方奶粉,涉及中国市场71个批次

这些新疗法,让化疗不再那么痛苦

教育要闻

在AI时代,教育有三个基本原理不会变

军事要闻

特朗普政府正在讨论获取格陵兰岛的方案 包括军事选项

无障碍浏览 进入关怀版