LaTeXML

LaTeXからXML/HTML/MathMLへのコンバータ
原作者ブルース・R・ミラー
初回リリース2004年5月10日 (2004年5月10日
安定版リリース
0.8.8 / 2024年2月29日 ( 2024-02-29 )
リポジトリ
書かれたパール
オペレーティング·システムUnixライクmacOSWindows
タイプドキュメントコンバータ
ライセンスパブリックドメイン
Webサイトdlmf .nist .gov /LaTeXML /

LaTeXMLは、 LaTeX文書をXMLHTMLEPUBJATSTEIに変換する無料のパブリックドメインソフトウェアパッケージです。[ 1 ] [ 2 ] [ 3 ]

ワークフロー

LaTeXMLの主な出力形式は、(La) TeXの文書モデルのXML表現です。ポストプロセッサは、これらのXML文書を他の構造化形式に変換できます。一般的な使用例では、数式を画像として含むHTML 、または数式をMathMLとして含むXHTMLHTML5EPUBが作成されます。他のLaTeX-XML変換プロセッサと比較して、LaTeXマークアップの意味構造を保持することに重点を置いています。そのため、 Math検索などのセマンティックサービスにとって優れた基盤となります。

変換時間は、単一の数式 (LaTeXML デーモン内) の場合は 30 ミリ秒から、書籍サイズのドキュメントの場合は数分までの範囲です。

歴史

LaTeXMLは、 NIST数学関数デジタルライブラリ(Digital Library of Mathematical Functions)の文脈から始まりました。このライブラリでは、LaTeX文書をWeb上で公開するための準備が必要でした。このシステムは10年以上にわたり活発に開発されており、プロジェクトの原著者であるブルース・ミラー氏を中心に、小規模ながらも熱心な開発者とユーザーのコミュニティを形成してきました。

現在リリースされているバージョンはLaTeXML 0.8.8です。2024年2月にリリースされ、公開リポジトリでの開発が現在も活発に行われています。

注目すべき使用法

LaTeXMLは、 arXivにある53万件の文書の90%(エラーなしは60%)をXMLに変換するために使用されました。[ 4 ]この継続的なカバレッジ向上の取り組みの結果、LaTeXMLは幅広いLaTeXパッケージをサポートしています。ACL 2014会議では、提出された論文をXMLに変換するためにLaTeXMLが使用されました。[ 5 ]これは、ACLアンソロジー論文をさらなる分析のために高品質のセマンティックマークアップに変換しようとする既存の作業に続くものです。[ 6 ] 2013年2月以来、LaTeXMLは、ピアプロデュースの数学ウェブサイトであるPlanetMath のウェブページをレンダリングするために使用されています。 2015年7月以来、 Authoreaでは、高度なLaTeXサポートのためにLaTeXMLを採用しました。[ 7 ] 2018年には、欧州宇宙機関のGaiaプロジェクトの2回目のデータリリース[ 8 ]がLaTeXMLを介して実現されました。

2022年2月、arXivはLaTeXMLをベースとした実験的なサービスを発表し、178万件の文書をHTML5で提供しました。[ 9 ] LaTeXML開発者は、arXivの74%の文書の変換に成功し、97%の記事が「少なくとも部分的に閲覧可能」になったと主張しました。2024年初頭現在、この実験はarXivのメイン記事ページに昇格されています。[ 10 ] [ 11 ]

実装

LaTeXMLの中核は、TeXの構文解析・消化アルゴリズムをPerlで再実装したものでカスタマイズ可能なXMLエミッターと組み合わせたものです。LaTeXマークアップの意味構造を保持するため、LaTeXMLは高水準マクロ定義を備えたすべてのLaTeXパッケージに対するXMLバインディングを必要とします。LaTeXMLディストリビューションは現在、 AMSTeX、Babel [ 12 ] 、 PGF/TikZ (試験的なサポートのみ)など、 200を超える一般的なLaTeXパッケージに対するXMLバインディングを提供しています。

LaTeXML 変換は 2 つの段階で構成されます。

  • 最初のものはLaTeXを解析し、それをLaTeXに近いXML文書型に変換し、
  • 2 番目 (後処理) では、XML を標準化された構造化出力形式の 1 つに変換します。

LaTeXML 0.8 では、複数の変換と Web サービスへの簡単な埋め込みを可能にするデーモン機能が追加されました。

LaTeXML 0.8.7 は、MathML 4 の新機能である数学構文用の「 MathML Core」マークアップ言語 を発行した最初のバージョンでした。

参照

参考文献

  1. ^ 「GeckoベースのEPUBリーダーとLaTeXML」 。 2014年8月22日時点のオリジナルよりアーカイブ2020年2月21日閲覧。
  2. ^ 「LaTeX を XML に変換するためのツール」
  3. ^ 「Free Techno Blog: LaTeXML」2015年5月11日時点のオリジナルよりアーカイブ2014年2月11日閲覧。
  4. ^ Stamerjohanns, Heinrich; Kohlhase, Michael; Ginev, Deyan; David, Catalin; Miller, Bruce (2010).大規模な科学出版物のXMLへの変換(PDF) .コンピュータサイエンスにおける数学. 第3巻第3号. Birkhäuser. pp.  299– 307.
  5. ^ 「ACL 2014 出版物 - XML 形式の論文」
  6. ^ Schäfer, Ulrich; Read, Jonathon; Oepen, Stephan (2012).論理的な文書構造を持つACLアンソロジーコーパスの構築に向けて:ACL 2012寄稿タスクの概要(PDF) . ACL-2012 50年間の発見の再発見に関する特別ワークショップ. pp.  88– 97.
  7. ^ 「Authoreaニュースレター - 2015年7月: AuthoreaのLaTeX、テンプレート、エボラ情報」Authorea . 2018年8月18日閲覧
  8. ^ 「Gaia Data Release 2 ドキュメントリリース 1.1」 . gea.esac.esa.int . 2018年8月18日閲覧
  9. ^ 「arXivの記事をレスポンシブウェブページとして」arXiv . 2022年2月23日閲覧
  10. ^ 「アクセシビリティアップデート:arXivは現在、HTML形式で論文を提供しています」 arXiv . 2024年1月3日閲覧
  11. ^ 「NISTツールにより、数学を多用する研究論文のオンライン閲覧が容易になる」2024年1月3日閲覧。
  12. ^ 「LaTeXML: Babel によるローカリゼーション」