#pragma section-numbers off
[[TableOfContents]]
= 概要 =
HTMLを処理するライブラリ。Saxのようにイベントドリブンによる処理となる。
= 利用方法 =
{{{
#!python
file = file("/Users/sakito/python/htmlparse/sample.html")
import htmllib, formatter
class MyHTMLParser(htmllib.HTMLParser):
def start_html(self, attr):
"""start_{tag}"""
pass
def end_html(self):
"""end_{tag}"""
pass
def do_br(self, attr):
"""do_{tag}は
のような終了タグが必要ないタグに用いる."""
pass
def start_p(self, attr):
"""
tag""" print attr def handle_data(self, text): """This is called everytime we get to text data (ie. not tags) """ print "Get text: %s" % text if __name__ == '__main__': p = MyHTMLParser(formatter.AbstractFormatter(formatter.NullWriter())) p.feed(file.read()) p.close() #print file.read() }}} = 参考サイト = http://aspn.activestate.com/ASPN/Mail/Message/python-Tutor/1176140 ---- CategoryPython