概要
HTMLを処理するライブラリ。Saxのようにイベントドリブンによる処理となる。
利用方法
1 file = file("/Users/sakito/python/htmlparse/sample.html")
2
3 import htmllib, formatter
4
5 class MyHTMLParser(htmllib.HTMLParser):
6 def start_html(self, attr):
7 """start_{tag}"""
8 pass
9
10 def end_html(self):
11 """end_{tag}"""
12 pass
13
14 def do_br(self, attr):
15 """do_{tag}は<br>のような終了タグが必要ないタグに用いる."""
16 pass
17
18 def start_p(self, attr):
19 """<p> tag"""
20 print attr
21
22 def handle_data(self, text):
23 """This is called everytime we get to text data (ie. not tags) """
24 print "Get text: %s" % text
25
26
27 if __name__ == '__main__':
28 p = MyHTMLParser(formatter.AbstractFormatter(formatter.NullWriter()))
29 p.feed(file.read())
30 p.close()
31 #print file.read()
32
参考サイト
http://aspn.activestate.com/ASPN/Mail/Message/python-Tutor/1176140