python 提取网页 charset

发布时间:2019-09-22 07:59:02编辑:auto阅读(1968)

    经过十几万网页采集测试,有效率99.99%

    def pick_charset(html):
        """
        从文本中提取 meta charset
        :param html:
        :return:
        """
        charset = None
        m = re.compile('<meta .*(http-equiv="?Content-Type"?.*)?charset="?([a-zA-Z0-9_-]+)"?', re.I).search(html)
        if m and m.lastindex == 2:
            charset = m.group(2).lower()
        return charset
    

    注意引入 re,如果有更好的方法欢迎联系 coconets@163.com

关键字