7月 03

在linux下用python读取其他操作系统编写的配置文件

  在windows、mac、linux下编写的配置文件会有头部或者换行有区别。为了分析方便简单做个记录,只为演示,代码并不完整,需要自己修改

def conf(conf_context):
    # 替换window或mac操作系统下的换行符
    import re
    _get_file = re.sub(r'(\r\n|\r|\n)', '\n', conf_context)
    # 将配置放在内存中
    import StringIO
    _tmp_file = StringIO.StringIO()
    # 将文件写入内存
    _tmp_file.write(_get_file)
    _tmp_file.seek(0)
    # 如果是在window下编辑的文件将,utf-8 BOM开始的头替换掉
    if _tmp_file.read(3).startswith('\xef\xbb\xbf'):
        _tmp_file.seek(3)
    else:
        _tmp_file.seek(0)
    # 导入配置
    import ConfigParser
    try:
        cf = ConfigParser.SafeConfigParser()
        cf.readfp(_tmp_file)
        config_list = cf.sections()
    except:
        _tmp_file.close()
        return "error"
    _tmp_file.close()
    return "ok"
4月 19

python开头不可见字符的处理

  今天要处理一个由程序生成的文本文件,但是开头总有乱码。通过查看文件使用utf-8编码。直接用二进制打印。

for i in open("file.txt","rb"):
    print i 

  得到的乱码是“\xef\xbb\xbf”,处理方法很简单,直接截掉就可以了。

#### \xef\xbb\xbf
if i[:3] == "\xEF\xBB\xBF" :
      i = i[3:]

  但是为什么会出现这个问题,到网上查了一下,是utf-8编码的BOM(Byte Order Mark)。UTF-8 BOM又叫UTF-8 签名,BOM对UFT-8没有用,主要为了支持UTF-16,UTF-32才加上。BOM就是方便编辑器识别。所以直接删掉也没有问题。

参考:
http://www.cnblogs.com/DDark/archive/2011/11/28/2266085.html