]> granicus.if.org Git - python/commit
#1486713: Add a tolerant mode to HTMLParser.
authorR. David Murray <rdmurray@bitdance.com>
Fri, 3 Dec 2010 04:06:39 +0000 (04:06 +0000)
committerR. David Murray <rdmurray@bitdance.com>
Fri, 3 Dec 2010 04:06:39 +0000 (04:06 +0000)
commitb579dba1195df97f87ba868a5987f18fb7509bff
treed1ff2cf38f061ee0bba08459167e33daa7a4ad79
parent79cdb661f5a6cf8bba07aa50f4451f6c409bb067
#1486713: Add a tolerant mode to HTMLParser.

The motivation for adding this option is that the the functionality it
provides used to be provided by sgmllib in Python2, and was used by,
for example, BeautifulSoup.  Without this option, the Python3 version
of BeautifulSoup and the many programs that use it are crippled.

The original patch was by 'kxroberto'.  I modified it heavily but kept his
heuristics and test.  I also added additional heuristics to fix #975556,
#1046092, and part of #6191.  This patch should be completely backward
compatible:  the behavior with the default strict=True is unchanged.
Doc/library/html.parser.rst
Lib/html/parser.py
Lib/test/test_htmlparser.py
Misc/NEWS