最近在处理爬虫数据的时候,发现用 replace(‘ ‘, ”)这个方法去空格无效,继续加.replace(‘\xa0’, ”)就可以去掉了。
也就是这样用就没问题了:html_str = html_str.replace(‘ ‘, ”).replace(‘\xa0’, ”)
\xa0 是不间断空白符
我们通常所用的空格是 \x20,是在标准 ASCII 可见字符 0x20~0x7e 范围内。
而 \xa0 属于 latin1(ISO/IEC_8859-1)中的扩展字符集字符,代表空白符 nbsp(non-breaking space)。
正文完