Windows-1252

Windows-1252
MIME / IANAウィンドウズ1252 [ 1 ]
エイリアスcp1252(コードページ1252)
言語すべてISO/IEC 8859-1でサポートされており、さらにフランス語[ a ]とフィンランド語、英語合字形式も完全にサポートされています。たとえば、デンマーク語(まれな例外的な文字を除く)、アイルランド語、イタリア語、ノルウェー語、ポルトガル語、スペイン語、スウェーデン語、ドイツ語 (大文字の[ b ]がない)、アイスランド語、フェロー語、ルクセンブルク語、アルバニア語、エストニア語、スワヒリ語、ツワナ語、カタロニア語、バスク語、オック語、ロトカ語、トキポナ語、ロジバン語、ロマンシュ語、オランダ語 (IJ/ij 文字はIJ / ijまたはÿに置き換えられる)、スロベニア語 ( č文字はçに置き換えられる) などです。一部の言語では標準の引用符がありません (ドイツ語の「引用符」など)。
作成者マイクロソフト
標準WHATWGエンコーディング標準
分類拡張ASCIIWindows-125x
拡張ISO 8859-1(C1コントロールを除く)
変換/エンコードISO 8859-15
後継者ユニコードUTF-8UTF-16

Windows-1252またはCP-1252Windowsコードページ1252)は、アメリカ大陸、西ヨーロッパオセアニア、アフリカ大部分でMicrosoft Windowsのデフォルト(「ANSIコードページ」として)で使用されているレガシーシングルバイト文字エンコーディング[ 2]です。[ 3 ]

当初はISO 8859-1と同じでしたが、 Windows 2.0以降、 0x80 から 0x9F ( 16 進数) の範囲に文字が追加され、 ISO 8859-1 から派生し始めました(ISO 規格ではこの範囲をC1 制御コード用に予約しています)。追加された文字には、中引用符とISO 8859-15のすべての印刷可能文字が含まれます。

これは世界で最も多く使われているシングルバイト文字エンコーディングです。現在ほぼ全てのウェブサイトはマルチバイト文字エンコーディングUTF-8 を使用していますが、2025年12月現在、ウェブサイトの0.9% [ 4 ]がISO 8859-1を宣言しており、これは全ての最新ブラウザで Windows-1252 として扱われます ( HTML5標準[ 5 ]で要求されている通り)。さらに 0.3% が Windows-1252 を直接宣言しており[ 4 ] [ 6 ]、合計で 1.2% です。一部の国や言語では世界平均よりも高い使用率が見られ、2025 年のブラジルのウェブサイト使用状況では 2.3% [ 7 ]、ドイツでは 2.3% [ 8 ] [ 9 ]となっています(これらは ISO-8859-1 と CP-1252 の宣言の合計です)。

名前

これは、Windows ではコード ページ番号 1252 と、IANA承認の名前「windows-1252」で認識されます。

歴史的に、Windowsでは「ANSIコードページ」という語句はDOS以外のエンコード方式を指すために使用されていました。これらのエンコード方式のほとんどはISO-8859-1などのANSI規格に準拠することが意図されていました。Windows-1252はMicrosoft Windowsの用語でANSIと名付けられた最初のコードページであり、当時最も普及していましたが、コードページがANSI規格になったことはありません。Microsoftは、「Windowsコードページを表すためにANSIという用語が使われてきたのは歴史的な経緯によるものですが、現在でもWindowsコミュニティでは誤った呼称として根強く残っています」と説明しています。[ 10 ]

LaTeXは、パラメータansinew(最近ではcp1252 )を指定したinputenc.styを使用することでWindows-1252を入力できます。[ 11 ] [ 12 ]

IBMはWindows-1252にコードページ1252(CCSID 1252およびユーロ記号拡張CCSID 5348)を使用しています。 [ 13 ] [ 14 ] [ 15 ]

これはOracleデータベースでは「WE8MSWIN1252」と呼ばれます。[ 16 ]

歴史

  • コードページの最初のバージョンは、Microsoft Windows 1.0で使用されました。これは ISO-8859-1 標準に準拠していました(コードポイント 0xD7 と 0xF7 は当時の標準には含まれていなかったため、未定義のままでした)。
  • コードページの2番目のバージョンは、Microsoft Windows 2.0で導入されました。このバージョンでは、コードポイント0xD7、0xF7、0x91、0x92が定義されています。
  • コードページの第3バージョンは、Microsoft Windows 3.1で導入されました。このバージョンでは、ユーロ記号キャロン付きZ文字のペアを除く、最終バージョンで使用されるすべてのコードポイントが定義されました。
  • 最終バージョン (以下に表示) は、 Microsoft Windows 98で導入されました。

1990年代から、HTMLを生成できる多くのMicrosoft製品にはWindows-1252専用文字が含まれていたが、エンコードはISO-8859-1、ASCII、または未宣言としてマークされていた。Windows-1252専用の文字は、Windows以外のオペレーティングシステムでは正しくレンダリングされなかった(多くの場合、疑問符として表示された)。[ 17 ] [ 18 ]特に、タイポグラファーの引用符(US-ASCIIの標準的な直線のアポストロフィ引用符の曲線型)は、直線のアポストロフィと引用符を曲線型に自動的に変換できるスマート引用符機能のおかげで、 Microsoft WordなどのWindowsアプリケーションで生成されるファイルでよく使用されていた。 [ 19 ]これを修正するために、2000年までにほとんどのWebブラウザーと電子メールクライアントは、文字セットISO-8859-1とUS-ASCIIをWindows-1252として処理した。この動作は、現在HTML5仕様で必須となっている。[ 5 ] HTMLで宣言されていない文字セットもWindows-1252とみなされます。[ 20 ] [ 21 ]

Windows NTはUnicodeをサポートし、プログラムでの使用を推奨していましたが、 Shift-JISなどの他のマルチバイト文字エンコーディングが既にサポートされているにもかかわらず、UCS-2 / UTF-16という16ビットコード単位のみを提供していました。多くのアプリケーションが8ビット文字列の使用を好んだため、WindowsではWindows-1252が依然として最も人気のあるエンコーディングでした。Windows 10以降はUTF-8がサポートされているため、この状況は徐々に変化しています。

コードページレイアウト

以下の表はWindows-1252を示しています。ISO -8859-1との相違点については、文字の下にUnicodeコードポイント番号が表示されています。これは、Unicode.orgによるWindows-1252の「最適な」マッピングに基づいています。ツールチップは通常、文字のすぐ右をポイントした場合にのみ表示され、Unicodeコードポイント名と10進数のAltコードが表示されます。

Windows-1252(CP1252)[ 22 ] [ 23 ] [ 24 ] [ 25 ] [ 26 ]
0 1 2 3 4 5 6 7 8 9 B C D E F
0_ ヌルSOHSTXETX終了時刻ENQ確認ベルBSHTLFVTFFCRそれでSI
1_ DLEDC1DC2DC3DC4ナクシンETBできるEMサブESCFSGSRS私たち
2_  SP !#$%'*+-/
3_ 0123456789:;<>?
4_ @BCDEFGHJKLM
5_ P質問RSTあなたVWXはいZ[\]^_
6_ `1つのbcdefグラムhjlメートルno
7_ pqrstあなたv×yz{|}削除
8_ 20AC201Aƒ 0192201E202620202021ˆ 02C62030Š 01602039Œ 0152Ž 017D
9_ ' 2018' 2019201C201D20222013201402DC2122š 0161203Aœ 0153ž 017EŸ 0178
あ_ NBSP¡¢£¤¥¦§¨©ª¬シャイ®¯
B_ °±²³´µ·¸¹º»¼1/2¾¿
C_ ÂÃÄオーÆÇÈÊË
D_ ÐÑÒÓÔÕオーרÙÚÛÜÝÞß
E_ àáâãäåæçèéêë
F_ ðñòóôõö÷øùúûüýþÿ

  MicrosoftとUnicodeコンソーシアムのウェブサイトの情報によると、位置81、8D、8F、90、9Dは未使用ですが、Windows APIはこれらを対応するC1制御コードMultiByteToWideCharにマッピングします。「最適な」マッピングにもこの動作が記載されています。[ 22 ]

OS/2拡張機能

OS /2オペレーティングシステムは、コードページ1004CCSID 1004)または「Windows拡張」と呼ばれるエンコードをサポートしています。 [ 27 ] [ 28 ]これは、特定のC0制御文字が分音記号文字に置き換えられることを除いて、コードページ1252とほぼ一致します。

コードページ1004(異なる行のみ)[ 29 ] [ 30 ] [ 31 ] [ 32 ]
0 1 2 3 4 5 6 7 8 9 B C D E F
0_ ヌルSOHSTXETXˉ 02C9˘ 02D8˙ 02D9ベル˚ 02DAHT˝ 02DD˛ 02DBˇ 02C7CRそれでSI

MS-DOS 拡張機能(まれ)

あまり使用されないものの、有用なグラフィックス拡張コードページ1252があります。このコードページは、MSDOS EditやCodeviewなどのアプリケーションで使用されるボックス描画を可能にする0x00から0x1fまでのコードを備えています。このコードページを使用していたアプリケーションの1つに、1995年中期から後半にかけてのIntel Corporationのインストール/リカバリディスクイメージユーティリティがあります。これらのプログラムは、P6ユーザーテストプログラムマシン(米国の例[ 33 ])用に開発されました。当時はEMEA地域(ヨーロッパ、中東、アフリカ)でのみ使用されていました。その後、これらのプログラムはコードページ850を使用するように変更されました。

グラフィックス拡張コードページ 1252
0 1 2 3 4 5 6 7 8 9 B C D E F
0_
1_

参照

注記

  1. ^特定の種類の句読点の間隔を空けるときに、通常のノーブレークスペースよりも優先される狭いノーブレークスペースを除きます
  2. ^大文字のẞは2017年まで正式に採用されなかった

参考文献

  1. ^文字セットインターネット割り当て番号機関(IANA)、2018年12月12日
  2. ^ "Encoding. Living Standard" . WHATWG . 2024年6月13日. § 9. レガシーシングルバイトエンコーディング. 2024年6月28日閲覧
  3. ^ Karl-Bridge-Microsoft (2021年10月26日). 「コードページ - Win32 アプリ」 . learn.microsoft.com . 2024年10月9日閲覧。
  4. ^ a b 「ウェブサイトの文字エンコーディングの使用統計の歴史的傾向、2025年12月」。w3techs.com 。 2025年12月17日閲覧
  5. ^ a b「Encoding」 . WHATWG . 2015年1月27日. 5.2項「名前とラベル」. 2015年2月4日時点のオリジナルよりアーカイブ。 2015年2月4日閲覧
  6. ^ 「よくある質問」 . w3techs.com .
  7. ^ 「ブラジルの文字エンコーディングを使用するウェブサイトにおける文字エンコーディングの分布」 W3Techs 2025年7月9日閲覧
  8. ^ 「 . deを使用するウェブサイトにおける文字エンコーディングの分布」W3Techs 2025年7月9日閲覧
  9. ^ 「ドイツ語を使用するウェブサイトにおける文字エンコーディングの分布」W3Techs2024年4月4日時点のオリジナルよりアーカイブ2025年4月16日閲覧
  10. ^ Wissink, Cathy (2002年4月5日). 「UnicodeとWindows XP」(PDF) . Microsoft . p. 1. 2015年2月4日時点のオリジナル(PDF)からのアーカイブ。 2015年2月4日閲覧
  11. ^ 「LaTeXニュース 第28号」(PDF; 379 KB) . LaTeXプロジェクト. 2018年4月. 2024年7月27日閲覧
  12. ^ 「Inputenc – 異なる入力エンコーディングを受け入れる」 . LaTeXプロジェクト. 2024年2月8日. 2024年7月27日閲覧
  13. ^ 「コードページ1252情報文書」 IBM、1997年9月30日。 2016年3月3日時点のオリジナルよりアーカイブ。
  14. ^ 「CCSID 1252 情報文書」 IBM。 2016年3月26日時点のオリジナルよりアーカイブ。
  15. ^ 「CCSID 5348情報文書」 IBM。 2014年11月29日時点のオリジナルよりアーカイブ。
  16. ^ 「データベースクライアントインストールガイド」 . Oracle . 2021年2月14日閲覧
  17. ^ Texin, Tex. 「Windows-1252、ISO-8859-1、ISO-8859-15での文字の比較I18nQA.com
  18. ^ van Emden, Eva (2011年1月28日). 「HTMLでタイポグラファーの引用符を作成する方法」 . vancouvereditor.com . 2024年1月7日閲覧。HTMLファイルに適切な文字エンコーディングを指定せずにタイポグラファーの引用符を使用すると、閲覧者の中には、意図した美しい波型引用符ではなく、疑問符、四角形、その他の奇妙な記号が表示されることがあります。
  19. ^ 「Wordのスマート引用符」 . Microsoft サポート. Microsoft . 2024年1月7日閲覧
  20. ^ 「NetWare Web Search: 文字セットエンコーディングについて」 . Novell ドキュメント. Novell.ドキュメントに CHARSET エンコーディング値が含まれていない場合、HTML ドキュメントのデフォルトのエンコーディングは ISO-8859-1(Latin1 とも呼ばれます)です。プレーンテキストドキュメントのデフォルトのエンコーディングは US-ASCII です。
  21. ^ Chrome で確認された動作です。一部のブラウザでは UTF-8 になる場合があります。
  22. ^ a b「Windows-1252のUnicodeマッピングと「ベストフィット」" . Unicode . 2015年2月4日時点のオリジナルよりアーカイブ。2015年2月4日閲覧。
  23. ^コードページ 01252 (PDF)、IBM、1998年、2023年10月27日時点のオリジナルよりアーカイブ(PDF)
  24. ^コードページ (CPGID) 01252 (txt)、IBM、1998年、2023年4月8日時点のオリジナルよりアーカイブ
  25. ^国際Unicodeコンポーネント(ICU)、ibm-1252_P100-2000.ucm、2002年12月3日
  26. ^国際Unicodeコンポーネント(ICU)、ibm-5348_P100-1997.ucm、2002年12月3日
  27. ^ 「コードページ1004情報文書」 。2015年6月25日時点のオリジナルよりアーカイブ
  28. ^ 「CCSID 1004情報文書」 。2016年3月26日時点のオリジナルよりアーカイブ
  29. ^ 「コードページ01004」(PDF) . IBM . 2015年7月8日時点のオリジナルよりアーカイブ(PDF) 。(Windows-1252 の Windows 3.1 バージョンに基づくバージョン)
  30. ^コードページ CPGID 01004 (pdf) (PDF)、IBM
  31. ^コードページ CPGID 01004 (txt)、IBM
  32. ^ Borgendale, Ken (2001). 「コードページ 1004 - Windows Extended」 . OS/2 コードページ番号別. 2018年5月13日時点のオリジナルよりアーカイブ。 2018年5月13日閲覧(Windows の現在のバージョン 1252 に基づくバージョン)
  33. ^ Storaasli, Olaf (1996). 「NASA​​方程式ソルバーの計算力学アプリケーションにおけるパフォーマンス」(PDF) . NASA方程式ソルバーの計算力学アプリケーションにおけるパフォーマンス. NASA. doi : 10.2514/6.1996-1505 . S2CID 15711051.オリジナル(PDF)から2019年5月3日にアーカイブ。