python读取中文txt文本

发布时间:2019-09-26 09:10:00编辑:auto阅读(2008)

    对于python2.7

    字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unicode编码成另一种编码。

    先用一些编辑器(如editplus )看一下你的txt文件保存的是utf-8,还是gb2312或其他的。当你读行时可以这样

    line = (file1.readline()).decode('utf-8').encode('gb2312')或

    line = (file1.readline()).decode('gb2312').encode('utf-8')

    注意:txt使用utf8编码的时候会默认在文件开头插入三个不可见字符。这个是windows用来判断txt编码是否为utf8的。所以如果你直接使用decode('utf-8')的话是得不到正确结果的。必须先判断前三个字符是否是windows插入的那三个。这个python已经定义了一个常量了,可以直接和这个常量比较,如果一样就删除前三个字符然后再decode。

    import codecs
     data = open("Test.txt").read()
     if data[:3] == codecs.BOM_UTF8: 
    	data = data[3:]
    	print data.decode("utf-8")

    延伸:

    因为decode的函数原型是decode([encoding], [errors='strict']),可以用第二个参数控制错误处理的策略,默认的参数就是strict,代表遇到非法字符时抛出异常;
    如果设置为ignore,则会忽略非法字符;
    如果设置为replace,则会用?取代非法字符;
    如果设置为xmlcharrefreplace,则使用XML的字符引用。


    对于Python3

    python3下比较简单,打开的时候指定encoding参数即可:open("txt.txt", encoding="gbk").read()。



关键字