紹介マニアMoinMoin

概要

HTMLを処理するライブラリ。Saxのようにイベントドリブンによる処理となる。

利用方法

   1 file = file("/Users/sakito/python/htmlparse/sample.html")
   2 
   3 import htmllib, formatter
   4 
   5 class MyHTMLParser(htmllib.HTMLParser):
   6     def start_html(self, attr):
   7         """start_{tag}"""
   8         pass
   9 
  10     def end_html(self):
  11         """end_{tag}"""
  12         pass
  13 
  14     def do_br(self, attr):
  15         """do_{tag}は<br>のような終了タグが必要ないタグに用いる."""
  16         pass
  17 
  18     def start_p(self, attr):
  19         """<p> tag"""
  20         print attr
  21 
  22     def handle_data(self, text):
  23         """This is called everytime we get to text data (ie. not tags) """
  24         print "Get text: %s" % text
  25 
  26 
  27 if __name__ == '__main__':
  28     p = MyHTMLParser(formatter.AbstractFormatter(formatter.NullWriter()))
  29     p.feed(file.read())
  30     p.close()
  31     #print file.read()
  32 

参考サイト

http://aspn.activestate.com/ASPN/Mail/Message/python-Tutor/1176140


CategoryPython

紹介マニアMoinMoin: PythonStandardLibrary/HTMLParser (last edited 2003-03-27 15:00:00 by )