◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
微博评论中出现奇异字符,如何解决?
在使用 python 的 requests 库从微博抓取评论时,您可能会遭遇一段内容奇怪的字符串,其中包含类似 "u200e"、"u202e"、"u202c" 这样的字符。虽然打印这些字符串时看起来正常,但在进行索引或遍历时,它们仍会显示乱码。
原因剖析:
这些奇异字符实际上是方向格式控制符,如下所示:
当这些控制符混入评论文本时,会导致字符串的显示和解析出现混乱。
解决方案:
要修复这些字符串,需要移除 "u202e" 和 "u202c" 控制符,并反转控制符内字符的顺序。具体步骤如下:
示例代码:
import re reversedRE = re.compile(r'u202E(.*?)(?:u202C|$)', re.DOTALL) s = 'u202Ecbau202Cdefu202Eihgu202C' print(s) s = reversedRE.sub(lambda m: m[1][::-1], s) print(s) # abcdefghi
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。