python笔记:HTMLParser用法 1 获取文章的图片链接def getHtmlPics(strHtml): class parseLinks(HTMLParser.HTMLParser): def __init__(self): HTMLParser.HTMLParser.__init__(self) self.links = [] def handle_starttag(self, tag, attrs): if tag == 'img': for name, value in attrs: if name == 'src': self.links.append(value) lParser = parseLinks() lParser.feed(strHtml) return lParser.links2 移除html中特定的tagimport HTMLParserdef removeHtmlTag(htmlstr,allowTags): class parseLinks(HTMLParser.HTMLParser): def __init__(self): HTMLParser.HTMLParser.__init__(self) self.result = "" def handle_starttag(self, tag, attrs): if tag in allowTags: self.result += self.get_starttag_text() def handle_endtag(self, tag): if tag in allowTags: self.result += "</"+tag+">" def handle_data(self, data): self.result+= data lParser = parseLinks() lParser.feed(htmlstr) return lParser.result 来自 大脸猪 写于 2016-09-02 16:18 -- 更新于2020-10-19 13:06 -- 0 条评论