HTMLパーサーの比較

HTMLパーサーは、ハイパーテキストマークアップ言語(HTML)を自動解析するソフトウェアです。主に2つの目的があります。

  • HTMLトラバーサル: プログラマーが「HTML文字列コード」に簡単にアクセスして変更できるインターフェースを提供します。標準的な例: DOMパーサー
  • HTML clean: 無効なHTMLを修正し、結果として得られるマークアップのレイアウトとインデントスタイルを改善します。標準的な例: HTML Tidy
パーサー ライセンス実装言語 最終日付* HTML解析[ 1 ]HTML5準拠の解析 クリーンな HTML** HTML を更新***
HTML 整理W3CライセンスANSI C2021年7月17日[ 2 ]はい[ 3 ]はい はい[ 3 ]はい
HTMLユニットApacheライセンス2.0 ジャワ2023年10月31日[ 4 ]はい ? いいえ いいえ
美しいスープMITライセンスパイソン2023年4月7日[ 5 ]はい はい ? いいえ
jsoupMITライセンスジャワ2025年8月25日[ 6 ]はい はい はい はい
パーサー ライセンス実装言語 最終日付* HTML解析 HTML5準拠の解析 クリーンな HTML** HTML を更新***
* 最新リリース(重要な変更)の日付。
** HTML コードをサニタイズ(標準互換の Web ページの生成、スパムの削減など) し、クリーンアップ(余分なプレゼンテーション タグの削除、XSS コードの削除など) します。
*** HTML4.X を XHTML または HTML5 に更新し、非推奨のタグ (例: CENTER) を有効なタグ (例: を含む DIV style="text-align:center;") に変換します。

参考文献