| DjVu | |
|---|---|
| ファイル名拡張子 | .djvu、.djv |
| インターネットメディアの種類 | image/vnd.djvu、image/x-djvu |
| 魔法の数字 | AT&T |
| 開発者 | AT&Tラボ– 研究 |
| 初回リリース | 1998 (1998年) |
| 最新リリース | バージョン26 [ 1 ] 2005年4月 (2005-04) |
| フォーマットの種類 | 画像ファイル形式 |
| 含まれるもの | 交換ファイル形式 |
| オープンフォーマット? | はい |
DjVu [ a ]は、主にスキャンされた文書、特にテキスト、線画、インデックス付きカラー画像、写真などが混在する文書を保存するために設計されたコンピュータファイル形式です。テキストと背景/画像の画像レイヤー分離、プログレッシブロード、算術符号化、そしてモノクロ画像に対する非可逆圧縮などの技術を採用しています。これにより、高品質で読みやすい画像を最小限の容量で保存し、 Web上で公開することが可能になります。
DjVuは、ほとんどのスキャン文書でPDFよりも小さなファイルサイズを実現できると宣伝されてきました。 [ 3 ] DjVuの開発者によると、カラーの雑誌のページは40~70kB、白黒の技術論文は15~40kB、古文書は約100kBに圧縮され、満足のいくJPEG画像では通常500kB必要です。[ 4 ] PDFと同様に、DjVuにはOCRテキストレイヤーを含めることができ、コピー&ペーストやテキスト検索の操作が簡単に行えます。
DjVu技術は、1996年から2001年にかけて、ニュージャージー州レッドバンク のAT&T研究所でヤン・ルカン、レオン・ボット、パトリック・ハフナー、ポール・G・ハワード、パトリス・シマール、ヨシュア・ベンジオによって開発されました。[ 5 ]
2008年にPDFが標準化される以前は、[ 6 ] [ 7 ]、 DjVuはオープンファイル形式であるため、当時のPDFの 独自仕様とは対照的に優れていると考えられていました。高い圧縮率(したがってファイルサイズが小さい)と、大量のテキストをDjVu形式に変換する容易さも、2004年当時、DjVuがPDFよりも優れている理由の一つでした。独立技術者のブリュースター・カーレは、 2004年のIT Conversationsでの講演で、DjVuファイルへのアクセスを容易にすることの利点について論じました。[ 8 ] [ 9 ]
オープンソースパッケージDjVuLibreの一部として配布されているDjVuライブラリは、DjVu形式のリファレンス実装となっています。DjVuLibreは、2002年からDjVuのオリジナルの開発者によって保守・更新されています。 [ 10 ]
DjVu ファイル形式の仕様は、何度か改訂されており、最新のものは 2005 年のものです。
| バージョン | 発売日 | 注記 | |
|---|---|---|---|
| サポート対象外:1~19 | 1996–1999 | LizardTechへのフォーマットの販売に先立つ AT&T ラボによる開発バージョン。 | |
| サポート対象外:バージョン20 [ 1 ] | 1999年4月 | DjVu バージョン 3。DjVu は単一ページ形式から複数ページ形式に変更されました。 | |
| サポート対象:バージョン21 [ 1 ] | 1999年9月 | 間接的な保存形式が変更されました。検索可能なテキストレイヤーが追加されました。 | |
| サポート対象:バージョン22 [ 1 ] | 2001年4月 | ページの向き、カラー JB2 | |
| サポート対象外:バージョン23 [ 1 ] | 2002年7月 | CIDチャンク | |
| サポート対象外:バージョン24 [ 1 ] | 2003年2月 | LTAnnoチャンク | |
| サポート対象:バージョン25 [ 1 ] | 2003年5月 | NAVMチャンク。DjVuブックマーク(アウトライン)のサポートが追加されました。バージョン23および24で行われた変更は廃止されました。 | |
| 最新バージョン:バージョン26 [ 1 ] | 2005年4月 | テキスト/行注釈 | |
伝説: サポートされていません サポートされている 最新バージョン プレビュー版 将来のバージョン | |||
DjVu形式の主な用途は、印刷文書に匹敵する品質の文書を電子的に配信することです。このニッチな用途はPDFの主な用途でもあるため、この2つの形式が競合関係になることは必然でした。しかし、高解像度文書の配信という課題に対する2つの形式へのアプローチは大きく異なることに注意する必要があります。PDFは主にグラフィックとテキストをベクターデータとしてエンコードしますが、DjVuは主にそれらをピクスマップ画像としてエンコードします。つまり、PDFでは文書のレンダリングの負担が読者に課せられるのに対し、DjVuではその負担が作成者に課せられるのです。
DjVu の開発期間とかなり重なる数年間、フリー オペレーティング システム用の PDF ビューアは存在しませんでした。特に問題となっていたのは、PDF で小さなファイル サイズと高解像度を組み合わせるために不可欠なベクトル化フォントのレンダリングでした。DjVu の表示はより単純な問題であり、フリー ソフトウェアで解決できるため、フリーソフトウェア運動では文書の配布に PDF ではなく DjVu を採用すべきだという提案がありました。DjVu を作成するためのレンダリングは、原理的にはデバイス固有のプリンタ ドライバのレンダリングとほとんど変わらず、DjVu は最後の手段として紙媒体のスキャンから生成できます。しかし、 2000 年にFreeType 2.0 が主要なベクトル化フォント形式のレンダリングを提供するようになると、DjVu 特有の利点は薄れ始めました。
2000年代には、ワールドワイドウェブの成長とブロードバンドの普及に伴って、DjVuは、 Greenstone [ 11 ]やインターネットアーカイブ[ 12 ]などのソフトウェアとの統合、高度なオンラインブラウジング、書籍スキャンやその他の画像の多いドキュメントと同等の品質でファイルサイズを小さくするブラウザープラグイン[ 13 ]、埋め込み[ 14 ]とOCRからの全文検索[ 15 ]のサポートのおかげで、デジタルライブラリで選択肢としてよく採用されました。[ 16 ]サムネイルプレビューなどの一部の機能は、 後にインターネットアーカイブのBookReader [ 17 ]に統合され、2015年頃に主要なブラウザーがNPAPIとDjVuプラグインのサポートを停止したため、 DjVuブラウジングは廃止されました。[ 18 ]
DjVuファイル形式はInterchange File Format( IFF)に基づいており、階層的に構成されたチャンクで構成されています。IFF構造の先頭には4バイトのAT&Tマジックナンバーが付きます。その後ろには、単一ページ文書の場合は 、複数ページ文書の場合は というFORM二次識別子を持つ単一のチャンクが続きます。DJVUDJVM
いわゆるバンドル ドキュメントの場合、すべてのチャンクは 1 つのファイルに含めることができます。また、ページごとに 1 つのファイルと共有チャンクを含むいくつかのファイルなど、複数のファイルに含めることもできます。
| チャンク識別子 | 含まれるもの | 説明 |
|---|---|---|
| フォーム:DJVU | フォーム:DJVM | 1ページを表します。ドキュメントのルートに存在し、1ページのドキュメントとなるか、DIRMチャンクから参照されます。 |
| フォーム:DJVM | 該当なし | 複数ページの文書を記述します。文書のルートチャンクです。 |
| フォーム:DJVI | フォーム:DJVM | 複数のページで共有されるデータが含まれます。 |
| フォーム:THUM | フォーム:DJVM | サムネイルが含まれます。 |
| 情報 | フォーム:DJVU | 最初のチャンクである必要があります。ページの幅、高さ、フォーマットバージョン、解像度、ガンマ、回転を記述します。 |
| DIRM | フォーム:DJVM | 最初のチャンクである必要があります。他のFORMチャンクを参照します。これらのチャンクは、チャンク内でこのチャンクに続くか、外部ファイルに格納されます。これらの種類のドキュメントは、それぞれバンドルまたは間接FORM:DJVMと呼ばれます。 |
| NAVM | フォーム:DJVM | 存在する場合、DIRMチャンクの直後に記述する必要があります。BZZ圧縮されたドキュメントのアウトラインが含まれます。 |
| ANTa、ANTz | FORM:DJVI または FORM:DJVU | 注釈。 |
| TXTa、TXTz | フォーム:DJVU | Unicode テキストとレイアウト情報。 |
| 含む | フォーム:DJVU | 含まれるチャンクの ID FORM::DJVI。 |
| Sjbz | フォーム:DJVU | マスクを保存するために使用される BZZ 圧縮された JB2 ビットデータ。 |
| Djbz | FORM:DJVI または FORM:DJVU | 共有シェイプテーブル。 |
| WMRM | ? | 透かしを削除するために必要な JB2 データ。 |
| フォーム:DJVU | 内容が不明な古いチャンク。 |
DjVu は 1 つの画像を多数の異なる画像に分割し、それらを別々に圧縮します。DjVu ファイルを作成するには、最初の画像を背景画像、前景画像、マスク画像の 3 つの画像に分割します。背景画像と前景画像は通常、低解像度のカラー画像 (例: 100 dpi) です。マスク画像は高解像度の 2 値画像 (例: 300 dpi) で、通常はテキストが格納される場所です。背景画像と前景画像は、 IW44 というウェーブレット ベースの圧縮アルゴリズムを使用して圧縮されます。[ 4 ]マスク画像は JB2 ( JBIG2に類似) という方式を使用して圧縮されます。JB2 エンコード方式は、特定のフォント、スタイル、サイズで特定の文字が複数回出現するなど、ページ上のほぼ同一の形状を識別します。この方式では、各一意の形状のビットマップを別々に圧縮し、次に各形状がページ上で表示される場所をエンコードします。したがって、特定のフォント内の文字「e」を複数回圧縮する代わりに、文字「e」を 1 回圧縮し (圧縮されたビット イメージとして)、ページ上で文字「e」が出現するすべての場所を記録します。
オプションとして、これらの図形をUTF-8コードにマッピング(手動で、またはテキスト認識システムを使用して)し、DjVuファイルに保存することもできます。このマッピングが存在する場合、テキストを選択してコピーすることが可能です。
JB2(DjVuBitonalとも呼ばれる)はJBIG2のバリエーションであり、同じ原理で動作するため、[ 19 ]両方の圧縮方式は非可逆圧縮を行う際に同じ問題を抱えています。2013年には、ゼロックスのコピー機とスキャナーが、例えば6を8に置き換えるなど、似たような数字を置き換えていたことが明らかになりました。[ 20 ] DjVu文書では、セリフが滲んだnがauに、内部に斑点のあるoがeに変わるなど、文字の置き換えが行われていることが実際に確認されています。[ 21 ]非可逆圧縮が行われたかどうかはファイルに保存されません。[ 1 ]そのため、DjView表示アプリケーションは、非可逆圧縮されたファイルを開いたときや、情報ダイアログボックスやメタデータダイアログボックスでも、グリフの置き換えが行われた可能性があることをユーザーに警告できません。[ 22 ]
DjVuは特許を取得したオープンファイル形式です。[ 3 ]ファイル形式の仕様とリファレンスライブラリのソースコードが公開されています。[ 3 ]オリジナルの作者は、GNU General Public Licenseと特許許諾の下で、 「DjVuLibre」というオープンソース実装を配布しています。 [ 23 ]エンコードソフトウェアの商用開発の権利は、長年にわたり、AT&T Corporation、LizardTech、[ 24 ] Celartem [ 25 ]、ePapyrus Solutions KK(旧Cuminas [ 26 ] 、 ePapyrus Solutions, Inc.に加わる前は[ 27 ])など、さまざまな企業に譲渡されてきました。[ 28 ]特許の有効期限は通常約20年です。
セラルテムはリザードテックとエクステンシスを買収した。[ 29 ] [ 30 ] [ 25 ] [ 31 ] [ 32 ]
無料の作成ツール、マニピュレーター、コンバーター、Webブラウザプラグイン、デスクトップビューアが利用可能です。[ 2 ]
2002年、インターネットアーカイブは、スキャンされたパブリックドメイン書籍をオンラインで提供するミリオンブックプロジェクト(TIFFとPDFに加えて)のファイル形式としてDjVuファイル形式を選択しました。 [ 33 ] 2016年2月、インターネットアーカイブは、DjVu形式の利用の減少や、 Javaアプレットベースのビューアの維持の困難さなどの理由から、新規アップロードにDjVuを使用しないことを発表しました。[ 18 ]
ウィキペディアなどが利用するメディアリポジトリであるウィキメディアコモンズは、条件付きでPDFとDjVuのメディアファイルの使用を許可している。[ 34 ]
any2djvuは、 Léon BottouとYann LeCunが管理し、ニューヨーク大学Courant Institute of Mathematical SciencesがホストするAny2DjVuサーバーを介して、.ps、.ps、.gz、 .pdfを.djvu(DjVuファイル)に変換します。ハードウェアはCaminova, Inc.から寄贈されています。[ 35 ] [ 36 ]
Jakub Wilkのpdf2djvuは、PDFファイルからGNU/Linux OS [ 37 ] (アーカイブ)、[ 38 ] Ubuntu、Cygwin (孤立)用のDjVuファイルを作成します。[ 39 ] [ 40 ]
Linuxディストリビューションでは、WindowsやmacOSよりも ダウンロード可能なDjVuビューアの選択肢が豊富です。また、この形式はプロプライエタリなスキャンソフトウェアでサポートされていることはほとんどありません。
DjVuは、Linux( Okular、Evince、Zathura)、Windows(OkularおよびSumatraPDF)、Android(Document Viewer、[ 41 ] FBReader、EBookDroid、[ 42 ] PocketBook)上の多数のマルチフォーマットドキュメントビューアおよび電子書籍リーダーソフトウェアでサポートされています。
DjVu.js Viewerは、 DjVuファイルを表示するためのプログラムライブラリ、ウェブアプリケーション、Firefox [ 43 ]およびGoogle Chrome [ 44 ]用のブラウザ拡張機能を開発するプロジェクトです。 [ 45 ]
PDFをDjVuに変換する
向けドキュメントビューア。