python解析网页时的空格\xc2\xa0

问题

最近在用python抓取页面做内容解析时,遇到个问题, 需要将页面的一个用空白隔开的内容解析分成前后两部分,用 event.split(‘ ‘)这个方法,始终得不到想要的结果。从网页内容表面上看,是被空白分隔开来,但查看页面源码就可以看到,其实源码中的空白不一定是空格,有可能是& nbsp。如果是& nbsp时,当python以utf-8抓取下来后,空格已经变为\xc2\xa0,此时用split(‘ ‘)将有问题,甚至有些会报关于\xc2的错误。

解决文案

正确方法是用event.split(‘\xc2\xa0’),可以按空白分离出两个部分。
如果是想删除这个空白,也可以用replace(‘\xc2\xa0’, ‘ ‘)。

# python 

评论

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×