1.在爬取58同城数据时遇到了类似下述的列表数据格式:
a = ['\r\n \r\n ', '\r\n 餼齤齤齤 -\r\n 龒驋龤龤 ', '元/月\r\n ']
复制代码
观察可知,其中夹杂诸多的不需要的符号:\r\n以及空格!!!简单使用一些’’.join()方法,.strip()方法已经无法解决!!!
2.解决思路:分两步走!
第一步:使用.join()方法将列表元素连接为一个字符串!
a = ''.join(a)
with open('test.txt', 'w', encoding='utf-8') as f:
f.write(a)
复制代码
输出结果为:
第二步:使用正则表达式中的sub()函数替换第一步处理之后字符串中的换行符,制表符,空格为空!
c = re.sub('\s','',a)
print(c)
复制代码
\s 可以匹配空格、制表符、换页符等空白字符的其中任意一个!!!
输出结果:




近期评论