wang785994599的博客：Python使用content.encode(“utf-8“).dec _ 【IIS7站长之家】

爱站内页反链

爱站首页反链

神马是否收录

360网站安全检测

搜狗是否收录

360是否收录

百度是否收录

百度年收录

网站ICP备案批量查询

百度反链批量查询

搜狗PR批量查询

谷歌PR批量查询

神马权重批量查询

360移动权重批量查询

站长移动权重批量查询

爱站移动权重批量查询

360权重查询

站长PC权重批量查询

爱站PC权重批量查询

搜狗总收录批量查询

360日收录批量查询

360总收录批量查询

百度月收录批量查询

百度周收录批量查询

百度日收录批量查询

百度网站收录批量查询

获取网站描述

获取网站关键词

获取网站标题

神马总收录

百度预计流量

当前位置博文首页 > wang785994599的博客：Python使用content.encode(“utf-8“).dec

最大化缩小

wang785994599的博客：Python使用content.encode(“utf-8“).dec

作者：[db:作者] 时间：2021-09-06 18:54

当想要把一个字符串中的\u002F这样的字符串转成正常字符串时，如果字符串中存在中文字符，将导致中文被转成乱码。
例如：

content = "\\u002F哈哈"
content = content.encode("utf-8").decode("utf-8") 
==> \u002F哈哈  无法进行转码

如果使用.decode(“unicode-escape”)

content = "\\u002F哈哈"
content = content.encode("utf-8").decode("unicode-escape")
==> /?“??“?   中文被转码导致乱码

解决方法是逐段解码，只对\uxxxx这样的字符串进行unicode-escape解码，代码如下

import re
content = "\\u002F哈哈"
content = re.sub(r'(\\u[a-zA-Z0-9]{4})',lambda x:x.group(1).encode("utf-8").decode("unicode-escape"),content)
==> /哈哈

cs

上一篇：wang785994599的博客：scrapy如何在中间件修改请求url

下一篇：没有了

立即下载 - IIS7 站长工具包

最新 更多<<

推荐 更多<<