テキストエンコーディングイニシアチブ

テキストエンコーディング・イニシアティブTEI)は、デジタル人文学という学術分野におけるテキスト中心の実践コミュニティであり、1980年代から継続的に活動しています。現在、このコミュニティはメーリングリスト、会議、カンファレンスシリーズを運営し、TEI技術標準ジャーナル[ 1 ] 、 Wiki 、GitHubリポジトリ、ツールチェーン管理しています。

TEIガイドライン

TEIガイドラインは、 XMLフォーマットの一種を総合的に定義するものであり、実践コミュニティの決定的な成果物です。このフォーマットは、他のよく知られたオープンテキストフォーマット( HTMLOpenDocumentなど)とは異なり、主に表現ではなく意味に重点を置いています。つまり、すべてのタグと属性の意味と解釈が規定されています。約500種類のテキスト構成要素と概念(単語[ 2 ] 、文[ 3 ] 、文字[ 4 ] 、グリフ[ 5 ] 、人称[ 6 ] など)が存在します。それぞれが1つ以上の学術分野に基づいており、例が示されています。

技術的な詳細

この標準規格は、詳細な例と解説を含む詳細なテキスト記述と、タグごとの定義の2つの部分に分かれています。タグごとの定義から、ほとんどの最新フォーマット(DTDRELAX NGXML Schema (W3C))のスキーマが自動的に生成されます。ガイドラインの作成と特定のプロジェクトへの適用を支援するツールも多数用意されています。

基礎となるUnicodeによって課せられた制限を回避するために、いくつかの特別なタグが使用されています。グリフは、Unicodeに含める資格のない文字の表現を可能にし、 [ 2 ]選択は、要求される厳格な線形性を克服できるようにします。[ 7 ]

このフォーマットのユーザーのほとんどは、タグの全範囲を使用するのではなく、ガイドラインで定義されているプロジェクト固有のタグと属性のサブセットを使用してカスタマイズを行います。TEIは、この目的のためにODDと呼ばれる高度なカスタマイズメカニズムを定義しています。ODD仕様は、各TEIタグの文書化と説明に加えて、そのコンテンツモデルやその他の使用上の制約を規定します。これらは、schematronを使用して表現できます。

TEI Liteは、こうしたカスタマイズの一例です。テキスト交換のためのXMLベースのファイル形式を定義しており、TEIガイドライン全文で利用可能な広範な要素セットから、管理しやすい形で選択できます。

TEIはXMLベースのフォーマットであるため、重複するマークアップや非階層構造を直接扱うことはできません。ガイドラインでは、この種のデータを表現するための様々なオプションが提案されています。[ 8 ]

TEIガイドラインの本文には豊富な例が掲載されています。また、TEI Wikiにはサンプルページがあり、[ 9 ]、 TEIの基盤となる実世界のプロジェクトの例が紹介されています。

散文タグ

TEIでは、テキストを任意の粒度、あるいは複数の粒度の組み合わせで構文的にマークアップすることができます。例えば、この段落(p)は文(s)と節(cl)にマークアップされています。[ 10 ]

<s> <cl> 1664 年 9 月初旬頃、 私と近所の人たちは、普通の会話の中 で、 ペストが再びオランダに戻ってきたという話を耳にしました。</cl> </cl> </cl> <cl> 1663年オランダ特にアムステルダムとロッテルダムでペストが猛威を振るって いたからです。</cl> <cl>ペストオランダ持ち込まれた のは、イタリアからだという人もいれば、トルコ艦隊が持ち帰った品物に紛れてレバントから持ち込まれたという人もいました。</cl> </cl> <cl>カナダから持ち込まれたという 人いれキプロスから持ち込まれたという人もい ました。</cl> </s> <s>どこからたかは問題ではありませんでした。</cl> </cl> <cl>皆、ペスト再びオランダにやってきたことに同意しました。</cl> </cl> </s>

TEIには詩をマークアップするためのタグがあります。この例(TEIガイドラインのフランス語訳より)はソネットを示しています。[ 11 ]

<div type= "sonnet" > <lg type= "quatrain" > <l>熱狂的な人々と芸術家たち</l> <l>愛と芸術、芸術の世界、</l> <l>ピュイサンとドゥー、オルゲイユドラメゾンの交流、</l> <l>クイ・コム・ユー・ソントフリルーエコムユーセダンテール。</l> </lg> < lg type = " quatrain " > <l>科学とボリュームの世界</l> <l>沈黙と恐怖恐怖;​​ </l> <l> L'Érèbe les eût pris pour ses coursiers funèbres、</l> <l> S'ils pouvaient au servage incliner leur fierté. </l> </lg> <lg type= "tercet" > <l>貴族のような態度を示します</l> <l>偉大なスフィンクスは孤独を愛するものです。</l> <l>フィンのないものは存在しません。</l> </lg> <lg type= "tercet" > <l>魔法のような遊びを手綱でとります。</l> <l>区画の中でセーブルのヒレを見つけます。</l> <l>曖昧のない、プルネルの神秘を感じます。</l> </lg> </div>

選択タグ

choiceタグは、複数の方法でエンコードまたはタグ付けされる可能性のあるテキスト部分を表すために使用されます。以下の例では、標準規格の1つに基づいて、choiceタグが2回使用されています。1回は元の数字と修正された数字を示し、もう1回は元のスペルと正規化されたスペルを示しています。[ 12 ]

<p xml:id= "p23" >最後に、上記のすべてを遵守することを厳粛に誓い、当該男山は 、以下の日当を受け取るものとする我々の臣民の<choice> <sic> 1724 </sic> <corr> 1728 </corr> </choice>を支えるのに十分な 肉飲み物、私たちの王族への 自由アクセス、および私たちの <choice> <orig>好意</orig> <reg>好意</reg> </choice>の他のマーク。 

奇数

One Document Does it all(ODD)はXMLスキーマのための文芸プログラミング言語です。[ 13 ] [ 14 ] [ 15 ] [ 16 ]

ODDドキュメントは、文芸プログラミングスタイルにおいて、Text Encoding InitiativeのDocumentation Elementsモジュールを用いて、人間が読めるドキュメントと機械が読めるモデルを組み合わせます。ツールは、ローカライズおよび国際化されたHTMLEPUB、またはPDF形式の人間が読める出力と、DTDW3C XMLスキーマRelax NG Compact Syntax、またはRelax NG XML Syntax形式の機械が読める出力を生成します。

Romaウェブアプリケーション[ 17 ]はODD形式に基づいて構築されており、多くのXML検証ツールやサービスで使用されているDTD、W3C XMLスキーマ、Relax NG Compact Syntax、またはRelax NG XML Syntax形式のスキーマを生成することができます。

ODDは、Text Encoding InitiativeがTEI技術標準のために内部的に使用するフォーマットです。[ 18 ] ODDファイルは一般的にカスタマイズされたXMLフォーマットと完全なTEIモデルとの差異を記述しますが、ODDはTEIとは全く異なるXMLフォーマットを記述するためにも使用できます。その一例がW3Cの国際化タグセットで、これはODDフォーマットを使用してスキーマを生成し、語彙を文書化しています。[ 19 ] [ 20 ]

TEIカスタマイズ

TEI カスタマイズは、特定の分野または特定のコミュニティで使用するために TEI XML 仕様を特殊化したものです。

  • EpiDoc(碑文文書)
  • チャーターズ・エンコーディング・イニシアチブ[ 21 ]
  • 中世北欧文書アーカイブ(メノタ)[ 22 ]

TEIにおけるカスタマイズは、前述のODDメカニズムを通じて行われます。実際、P5バージョン以降、TEIガイドラインのいわゆる「TEI準拠」の使用はすべて、TEI ODDファイルに文書化されたTEIカスタマイズに基づいています。ユーザーが検証に既製の生成済みスキーマのいずれかを選択する場合でも、それらは無料で入手できるカスタマイズファイルから作成されています。

プロジェクト

このフォーマットは世界中の多くのプロジェクトで使用されています。実質的にすべてのプロジェクトは、1つ以上の大学と連携しています。TEIを使用してテキストをエンコードする有名なプロジェクトには、以下のものがあります。

TEIプロジェクト
プロジェクト URL 対象者
英国国立コーパスhttp://www.natcorp.ox.ac.uk現在の英語使用状況の1億語のスナップショット
オックスフォード・テキスト・アーカイブhttps://ota.bodleian.ox.ac.uk/repository/xmlui/25言語の 1GB以上の言語データと電子テキスト
ペルセウスプロジェクトhttps://www.perseus.tufts.edu/ギリシャ語ラテン語のテキスト
エピドックhttps://sourceforge.net/p/epidoc/wiki/Home/碑文学パピルス学
女性作家プロジェクトhttps://wwp.northeastern.edu/近代初期の女性作家マーガレット・キャベンディッシュエリザ・ヘイウッドなど)
ニュージーランド電子テキストセンターhttp://www.nzetc.org/ニュージーランド太平洋諸島のテキスト
SWORDプロジェクトhttps://www.crosswire.org/sword/聖書ソフトウェア、辞書、キリスト教文献
フリーディクテーション https://freedict.org/バイリンガル辞書
テキスト作成パートナーシップhttps://textcreationpartnership.org/初期のイギリスとアメリカの書籍
ケルトhttps://celt.ucc.ie/publishd.html古代および中世のアイルランドの写本
ISTEXhttps://www.istex.fr/科学出版物のアーカイブ
タクシー https://cab.geschkult.fu-berlin.de/アヴェスター語 によるゾロアスター教の儀式アヴェスターの版

歴史

TEIが設立される以前、人文科学の研究者たちは、それぞれの学術目標に沿った方法で電子テキストをエンコードするための共通標準を持っていませんでした(Hockey 1993, p. 41)。1987年、人文科学、言語学、コンピューティングの分野を代表する研究者グループがヴァッサー大学に集まり、「ポキプシー原則」として知られる一連のガイドラインを策定しました。このガイドラインは、最初のTEI標準である「P1」の開発の指針となりました。[ 23 ] [ 24 ]

参考文献

  1. ^ 「Journal of the Text Encoding Initiative」 . Open Edition Journals . 2022年6月29日閲覧
  2. ^ a b「TEI要素w(単語)」 . tei-c.org .
  3. ^ 「TEI要素s(s-ユニット)」 . tei-c.org .
  4. ^ 「TEI要素c(文字)」 . tei-c.org .
  5. ^ 「TEI要素g(文字またはグリフ)」 . tei-c.org .
  6. ^ 「TEI要素 person(人)」 . tei-c.org .
  7. ^ 「要素の選択www.tei-c.org
  8. ^ 「20 非階層構造 - TEI P5: — 電子テキストエンコーディングおよび交換のガイドライン」 tei-c.org 20192019年3月19日閲覧
  9. ^ 「TEIテキストのサンプル」 . wiki.tei-c.org . 2011年. 2012年4月17日閲覧
  10. ^ 「17のシンプルな分析メカニズム - TEI P5: — 電子テキストのエンコードと交換のためのガイドライン」 tei-c.org 20122012年4月15日閲覧
  11. ^ “TEI element lg (groupe de vers)” . tei-c.org . 2012年. 2012年6月6日時点のオリジナルよりアーカイブ2012年4月15日閲覧。
  12. ^ 「TEI要素の選択」 tei-c.org 2012年. 2012年4月15日閲覧
  13. ^ Bauman, Syd; Flanders, Julia (2004). ODDカスタマイズ. Extreme Markup Languages 2004. 2012年3月29日時点のオリジナルよりアーカイブ2012年4月15日閲覧。
  14. ^ Burnard, Lou; Rahtz, Sebastian (2004). RelaxNG with Son of ODD . Extreme Markup Languages 2004. 2012年3月29日時点のオリジナルよりアーカイブ2012年4月15日閲覧。
  15. ^ Reiss, Kevin M. (2007). Literate Documentation for XML (PDF) . Digital Humanities 2007. Urbana-Champaign, Illinois. 2016年3月3日時点のオリジナル(PDF)からアーカイブ。 2012年4月15日閲覧
  16. ^バーナード、ルー、ラーツ、セバスチャン(2013年6月)。「テキストエンコーディング・イニシアティブのための完全なスキーマ定義言語」 XML London 2013 14: 152– 161. doi : 10.14337/XMLLondon13.Rahtz01(2025年7月12日現在非アクティブ)。ISBN 978-0-9926471-0-0{{cite journal}}: CS1 maint: DOIは2025年7月時点で非アクティブです(リンク
  17. ^ Roma ウェブアプリケーション
  18. ^バーナード、ルー、バウマン、シド、編 (2007). 「TEI P5: 電子テキストエンコーディングおよび交換のためのガイドライン」シャーロッツビル、バージニア州、米国: TEIコンソーシアム.
  19. ^ Lieske, Christian; Sasaki, Felix 編 (2007年4月3日). 「国際化タグセット (ITS) バージョン1.0」 . ワールド・ワイド・ウェブ・コンソーシアム. §1.5 本仕様の開発.
  20. ^ Savourel, Yves; Kosek, Jirka; Ishida, Richard 編 (2008). 「XML国際化のベストプラクティス」 . W3Cワーキンググループ. 5.2 ITSとTEI.
  21. ^ “憲章符号化イニシアチブ - ルートヴィヒ・マクシミリアン大学ミュンヘン” . www.cei.lmu.de
  22. ^ 「中世北欧テキストアーカイブ(Menota)www.menota.org
  23. ^ Ahronheim, JR (1998). 「記述メタデータ:新たな標準」. Journal of Academic Librarianship . 24 (5): 395– 403. doi : 10.1016/S0099-1333(98)90079-9 .
  24. ^ Cantara, L. (2005). 「テキストエンコーディングの取り組み:パート1」. OCLC Systems & Services . 21 (1): 36– 39. doi : 10.1108/10650750510578136 .
  25. ^ 「コンピュータと人文科学協会 |」 . ach.org .
  26. ^「歴史的背景」、 TEI P5「電子テキストエンコーディングおよび交換のガイドライン」のセクション iv.2
  27. ^ 「ヴァッサー計画会議閉会声明」tei-c.org 2009年2012年4月15日閲覧
  28. ^ 「TEIガイドライン」 。 2010年6月18日閲覧
  29. ^ "2" . XMLの基礎. 2011年7月9日時点のオリジナルよりアーカイブ2011年7月9日閲覧。
  30. ^ 「拡張マークアップ言語(XML)1.0(第5版)」w3.org
  31. ^ 「P5バージョン2.0.1リリースノート」 . tei-c.org . 2012年. 2012年4月15日閲覧
  32. ^ 「TEI: テキストエンコーディングイニシアチブ」