
テキストエンコーディング・イニシアティブ(TEI)は、デジタル人文学という学術分野におけるテキスト中心の実践コミュニティであり、1980年代から継続的に活動しています。現在、このコミュニティはメーリングリスト、会議、カンファレンスシリーズを運営し、TEI技術標準、ジャーナル、[ 1 ] 、 Wiki 、GitHubリポジトリ、ツールチェーンを管理しています。
TEIガイドラインは、 XMLフォーマットの一種を総合的に定義するものであり、実践コミュニティの決定的な成果物です。このフォーマットは、他のよく知られたオープンテキストフォーマット( HTMLやOpenDocumentなど)とは異なり、主に表現ではなく意味に重点を置いています。つまり、すべてのタグと属性の意味と解釈が規定されています。約500種類のテキスト構成要素と概念(単語、[ 2 ] 、文、[ 3 ] 、文字、[ 4 ] 、グリフ、[ 5 ] 、人称、[ 6 ] など)が存在します。それぞれが1つ以上の学術分野に基づいており、例が示されています。
この標準規格は、詳細な例と解説を含む詳細なテキスト記述と、タグごとの定義の2つの部分に分かれています。タグごとの定義から、ほとんどの最新フォーマット(DTD、RELAX NG、XML Schema (W3C))のスキーマが自動的に生成されます。ガイドラインの作成と特定のプロジェクトへの適用を支援するツールも多数用意されています。
基礎となるUnicodeによって課せられた制限を回避するために、いくつかの特別なタグが使用されています。グリフは、Unicodeに含める資格のない文字の表現を可能にし、 [ 2 ]選択は、要求される厳格な線形性を克服できるようにします。[ 7 ]
このフォーマットのユーザーのほとんどは、タグの全範囲を使用するのではなく、ガイドラインで定義されているプロジェクト固有のタグと属性のサブセットを使用してカスタマイズを行います。TEIは、この目的のためにODDと呼ばれる高度なカスタマイズメカニズムを定義しています。ODD仕様は、各TEIタグの文書化と説明に加えて、そのコンテンツモデルやその他の使用上の制約を規定します。これらは、schematronを使用して表現できます。
TEI Liteは、こうしたカスタマイズの一例です。テキスト交換のためのXMLベースのファイル形式を定義しており、TEIガイドライン全文で利用可能な広範な要素セットから、管理しやすい形で選択できます。
TEIはXMLベースのフォーマットであるため、重複するマークアップや非階層構造を直接扱うことはできません。ガイドラインでは、この種のデータを表現するための様々なオプションが提案されています。[ 8 ]
TEIガイドラインの本文には豊富な例が掲載されています。また、TEI Wikiにはサンプルページがあり、[ 9 ]、 TEIの基盤となる実世界のプロジェクトの例が紹介されています。
TEIでは、テキストを任意の粒度、あるいは複数の粒度の組み合わせで構文的にマークアップすることができます。例えば、この段落(p)は文(s)と節(cl)にマークアップされています。[ 10 ]
<s> <cl> 1664 年 9 月初旬頃、 私と近所の人たちは、普通の会話の中 で、 ペストが再びオランダに戻ってきたという話を耳にしました。</cl> </cl> </cl> <cl> 1663年にはオランダ、特にアムステルダムとロッテルダムでペストが猛威を振るって いたからです。</cl> <cl>ペストがオランダに持ち込まれた のは、イタリアからだという人もいれば、トルコ艦隊が持ち帰った品物に紛れてレバントから持ち込まれたという人もいました。</cl> </cl> <cl>カナダから持ち込まれたという 人もいれば、キプロスから持ち込まれたという人もい ました。</cl> </s> <s>どこから来たかは問題ではありませんでした。</cl> </cl> <cl>皆、ペストが再びオランダにやってきたことに同意しました。</cl> </cl> </s>TEIには詩をマークアップするためのタグがあります。この例(TEIガイドラインのフランス語訳より)はソネットを示しています。[ 11 ]
<div type= "sonnet" > <lg type= "quatrain" > <l>熱狂的な人々と芸術家たち</l> <l>愛と芸術、芸術の世界、</l> <l>ピュイサンとドゥー、オルゲイユドラメゾンの交流、</l> <l>クイ・コム・ユー・ソントフリルーエコムユーセダンテール。</l> </lg> < lg type = " quatrain " > <l>科学とボリュームの世界</l> <l>沈黙と恐怖の恐怖; </l> <l> L'Érèbe les eût pris pour ses coursiers funèbres、</l> <l> S'ils pouvaient au servage incliner leur fierté. </l> </lg> <lg type= "tercet" > <l>貴族のような態度を示します</l> <l>偉大なスフィンクスは孤独を愛するものです。</l> <l>フィンのないものは存在しません。</l> </lg> <lg type= "tercet" > <l>魔法のような遊びを手綱でとります。</l> <l>区画の中で、セーブルのヒレを見つけます。</l> <l>曖昧さのない、プルネルの神秘を感じます。</l> </lg> </div>choiceタグは、複数の方法でエンコードまたはタグ付けされる可能性のあるテキスト部分を表すために使用されます。以下の例では、標準規格の1つに基づいて、choiceタグが2回使用されています。1回は元の数字と修正された数字を示し、もう1回は元のスペルと正規化されたスペルを示しています。[ 12 ]
<p xml:id= "p23" >最後に、上記のすべてを遵守することを厳粛に誓い、当該男山は 、以下の日当を受け取るものとする。我々の臣民の<choice> <sic> 1724 </sic> <corr> 1728 </corr> </choice>を支えるのに十分な 肉と飲み物、私たちの王族への 自由なアクセス、および私たちの <choice> <orig>好意</orig> <reg>好意</reg> </choice>の他のマーク。 One Document Does it all(ODD)はXMLスキーマのための文芸プログラミング言語です。[ 13 ] [ 14 ] [ 15 ] [ 16 ]
ODDドキュメントは、文芸プログラミングスタイルにおいて、Text Encoding InitiativeのDocumentation Elementsモジュールを用いて、人間が読めるドキュメントと機械が読めるモデルを組み合わせます。ツールは、ローカライズおよび国際化されたHTML、EPUB、またはPDF形式の人間が読める出力と、DTD、W3C XMLスキーマ、Relax NG Compact Syntax、またはRelax NG XML Syntax形式の機械が読める出力を生成します。
Romaウェブアプリケーション[ 17 ]はODD形式に基づいて構築されており、多くのXML検証ツールやサービスで使用されているDTD、W3C XMLスキーマ、Relax NG Compact Syntax、またはRelax NG XML Syntax形式のスキーマを生成することができます。
ODDは、Text Encoding InitiativeがTEI技術標準のために内部的に使用するフォーマットです。[ 18 ] ODDファイルは一般的にカスタマイズされたXMLフォーマットと完全なTEIモデルとの差異を記述しますが、ODDはTEIとは全く異なるXMLフォーマットを記述するためにも使用できます。その一例がW3Cの国際化タグセットで、これはODDフォーマットを使用してスキーマを生成し、語彙を文書化しています。[ 19 ] [ 20 ]
TEI カスタマイズは、特定の分野または特定のコミュニティで使用するために TEI XML 仕様を特殊化したものです。
TEIにおけるカスタマイズは、前述のODDメカニズムを通じて行われます。実際、P5バージョン以降、TEIガイドラインのいわゆる「TEI準拠」の使用はすべて、TEI ODDファイルに文書化されたTEIカスタマイズに基づいています。ユーザーが検証に既製の生成済みスキーマのいずれかを選択する場合でも、それらは無料で入手できるカスタマイズファイルから作成されています。
このフォーマットは世界中の多くのプロジェクトで使用されています。実質的にすべてのプロジェクトは、1つ以上の大学と連携しています。TEIを使用してテキストをエンコードする有名なプロジェクトには、以下のものがあります。
| プロジェクト | URL | 対象者 |
|---|---|---|
| 英国国立コーパス | http://www.natcorp.ox.ac.uk | 現在の英語使用状況の1億語のスナップショット |
| オックスフォード・テキスト・アーカイブ | https://ota.bodleian.ox.ac.uk/repository/xmlui/ | 25言語の 1GB以上の言語データと電子テキスト |
| ペルセウスプロジェクト | https://www.perseus.tufts.edu/ | ギリシャ語とラテン語のテキスト |
| エピドック | https://sourceforge.net/p/epidoc/wiki/Home/ | 碑文学とパピルス学 |
| 女性作家プロジェクト | https://wwp.northeastern.edu/ | 近代初期の女性作家(マーガレット・キャベンディッシュ、エリザ・ヘイウッドなど) |
| ニュージーランド電子テキストセンター | http://www.nzetc.org/ | ニュージーランドと太平洋諸島のテキスト |
| SWORDプロジェクト | https://www.crosswire.org/sword/ | 聖書ソフトウェア、辞書、キリスト教文献 |
| フリーディクテーション | https://freedict.org/ | バイリンガル辞書 |
| テキスト作成パートナーシップ | https://textcreationpartnership.org/ | 初期のイギリスとアメリカの書籍 |
| ケルト | https://celt.ucc.ie/publishd.html | 古代および中世のアイルランドの写本 |
| ISTEX | https://www.istex.fr/ | 科学出版物のアーカイブ |
| タクシー | https://cab.geschkult.fu-berlin.de/ | アヴェスター語 によるゾロアスター教の儀式アヴェスターの版 |
TEIが設立される以前、人文科学の研究者たちは、それぞれの学術目標に沿った方法で電子テキストをエンコードするための共通標準を持っていませんでした(Hockey 1993, p. 41)。1987年、人文科学、言語学、コンピューティングの分野を代表する研究者グループがヴァッサー大学に集まり、「ポキプシー原則」として知られる一連のガイドラインを策定しました。このガイドラインは、最初のTEI標準である「P1」の開発の指針となりました。[ 23 ] [ 24 ]
xml:langのおよび属性(以前はTEI名前空間の属性でした)との統合、ローカルポインタ属性のハッシュ(HTMLで使用される)への正規化、ptrタグとxptrタグの統合などが含まれています。これらの変更と多くの新機能の追加により、P5はより標準化され、W3Cが推進する現在のXMLプラクティスや他のXML派生言語で使用されているものに近づきました。TEI P5のメンテナンス版と機能更新版は、2007年以降、少なくとも年に2回リリースされています。xml:id{{cite journal}}: CS1 maint: DOIは2025年7月時点で非アクティブです(リンク)