写真の集合

ビデオコーディングにおいて、ピクチャのグループGOP構造)は、イントラフレームインターフレームの配置順序を指定します。GOPは、符号化されたビデオストリーム内の連続するピクチャの集合です。各符号化ビデオストリームは連続するGOPで構成され、そこから表示可能なフレームが生成されます。圧縮されたビデオストリームで新しいGOPに遭遇すると、デコーダーは次のフレームをデコードするために前のフレームを必要とせず、ビデオを高速にシークできるようになります。

要素

GOP には次の画像タイプを含めることができます。

  • Iフレーム(イントラ符号化された画像。一部の情報源では、常にキーフレームであると誤って説明されているが[ 1 ]、必ずしもIフレームから開始して次のフレームをきれいにデコードできるとは限らない[ 2 ])。これは、他のすべての画像とは独立して符号化された画像であり、各Iフレームは単独で完全にデコードできる。各GOPは(デコード順に)このタイプのフレームから始まる。
    • IDRフレーム(Instantaneous Decoder Refresh):後続のPフレームまたはBフレームがこのIフレームより過去に遡る参照を持たないことを示すマークが付いたIフレーム。これらのIDRフレームを使用することで、GOP外のフレームを参照できないクローズドGOPが形成される。[ 3 ] IDRは、クリーンランダムアクセスフレーム(リカバリポイント)、CLAと共に真のキーフレームとなる。
  • Pフレーム(予測符号化画像)は、以前にデコードされた画像との動き補償差分情報を含みます。MPEG -1H.262 / MPEG-2H.263などの古い設計では、各Pフレームは1つの画像のみを参照でき、その画像は表示順序とデコード順序の両方でPフレームより前でなければならず、参照はIフレームまたはPフレームでなければなりません。これらの制約は、新しい規格であるH.264/MPEG-4 AVCおよびHEVCには適用されません。
  • B フレーム(双予測符号化画像) – 以前にデコードされた画像に対する動き補償された差分情報が含まれます。MPEG-1 や H.262/MPEG-2 などの古い設計では、各 B フレームは表示順で B フレームの前と後ろのフレームの 2 つのフレームのみを参照でき、参照されるすべての画像は I フレームまたは P フレームである必要があります。これらの制約は、新しい標準であるH.264/MPEG-4 AVCおよびHEVCには適用されません。コーデックによっては単方向の B フレームが使用されることがあります。これは、将来のフレームのデータを使用しないものの、他のフレームがそれに依存しない P フレームです。B フレームの基本的な特性は、他のフレームの正しいデコードに影響を与えずに B フレームを削除できることです。
  • Dフレーム(DC直接符号化ピクチャ)は、フレームの高速アクセス表現として使用され、損失耐性や早送りを可能にします。DフレームはMPEG-1ビデオでのみ使用されます。

IフレームはGOPの開始を示します。その後に複数のPフレームとBフレームが続きます。古い設計では、許容される順序付けと参照構造は比較的制限されていました。[ 4 ]

Iフレームには完全な画像が含まれており、再構成に追加情報は必要ありません。通常、エンコーダは各Iフレームを「クリーンなランダムアクセスポイント」とするGOP構造を採用しています。これにより、デコードはIフレームからクリーンに開始され、GOP構造内のエラーは正しいIフレームを処理した後に修正されます。

H.264/MPEG-4 AVCおよびHEVCに見られる新しい設計では、エンコーダの参照構造に関する柔軟性が大幅に向上しています。以前の設計で使用されていたのと同じ参照構造を使用することも、より多くの画像を参照として使用したり、表示順序に対する符号化順序のより柔軟な順序付けを使用したりできます。また、他の (B または P) フレームを符号化する際に、B フレームを参照として使用することもできます。この柔軟性の向上により圧縮効率が向上しますが、一部のデータが失われたり破損したりすると、エラーが伝播する可能性があります。新しい設計で使用される一般的な構造の 1 つは、B フレームの階層構造の使用です。階層型 B フレームは非常に優れた圧縮効率を実現できるだけでなく、階層構造によってデータ破損問題の影響を受ける画像の数が厳密に制限されるため、エラーの伝播も制限できます。[ 5 ]

一般的に、ビデオストリームに含まれるIフレームの数が多いほど、編集可能性が高まります。ただし、Iフレームの数が増えると、ビデオのコーディングに必要なビットレートが大幅に増加します。

構造

GOP構造は、例えばM =3、N =12のように、2つの数字で表現されることが多い。最初の数字は、2つのアンカーフレーム(IまたはP)間の距離、つまり「ミニGOP」の長さを表す。[ 6 ] 2番目の数字は、2つのフルイメージ(Iフレーム)間の距離、つまりGOPのサイズを表す。[ 7 ] Mパラメータの代わりに、連続する2つのアンカーフレーム間のBフレームの最大数を使用することもできる。これはffmpeg で使用されている手法である。[ 8 ]

例:

  • M =3、N =12の場合、GOP構造はIBBPBBPBBPBBです。連続する2つのアンカーフレームの間には2つのBフレームがあります。
  • シーケンスIBBBBPBBBBPBBBBの場合、GOPサイズN =15、アンカー距離M =5です。連続する2つのアンカーフレームの間には4つのBフレームがあります。

GOP構造はエンコード中も固定されている必要はありません。シーンチェンジ時にNを変化させてIフレームを挿入することはよく知られた手法です。[ 9 ]新しい手法では、ビデオの動きの量に応じてMを変化させることもあります。 [ 10 ]

追加の概念

H.264以降の設計では、非常に柔軟な参照構造が認められており、あるGOP内のBフレームは、特にIフレームよりも前であっても、別のGOP内のフレームを参照することができるため、Iフレームは非IDR(キーフレームではない)となる。[ 2 ]このような外部参照フレームを含むGOPは「オープンGOP」と呼ばれる。その逆は自己完結型GOPで、「クローズドGOP」と呼ばれる。[ 6 ] プレゼンテーション順序において、GOPはBフレームで始まることはできるが、Bフレームで終わることはできない。オープンGOPはBフレームで始まり、Iフレームで始まると最後にPフレームを追加する必要があるため、より効率的である(GOPはBフレームで終わることはできない)。[ 11 ]

参照

参考文献

  1. ^ 「キーフレーム、インターフレーム、ビデオ圧縮」。2021年4月13日。
  2. ^ a b「H.264 Open-GOP(DVB MPEG-TS)によるフレームの破損?」 Avidemuxフォーラム. 2024年7月1日. 2024年7月1日閲覧
  3. ^ McCarrel, Jarrod (2022年5月4日). 「「グループ・オブ・ピクチャ」とは何か、そしてなぜ重要なのか?」 Venera Technologies . 2024年6月22日閲覧
  4. ^ "Bフレーム" . users.cs.cf.ac.uk . 2025年9月23日閲覧。
  5. ^ 「階層的BフレームまたはBピラミッド - ビデオ圧縮www.ramugedia.com
  6. ^ a b Vijayanagar, Krishna Rao (2020年12月17日). 「Closed GOP and Open GOP - Simplified Explaination - OTTVerse」 . ottverse.com .
  7. ^ 「Compressor 4 ユーザーマニュアル」
  8. ^ "FFmpeg Codecs Documentation" . ffmpeg.org . bf integer (encoding,video) 非 B フレーム間の B フレームの最大数を設定します。
  9. ^ Jeehong Lee、Ilhong Shin、Hyunwook Park (2006年10月). 「H.264における可変GOP長に対する適応型イントラフレーム割り当てとビットレート推定」 IEEE Transactions on Circuits and Systems for Video Technology 16 ( 10): 1271– 1279. doi : 10.1109/TCSVT.2006.881856 .
  10. ^ "Docs/Appendix-Adaptive-Prediction-Structure.md · master · Alliance for Open Media / SVT-AV1 · GitLab" . GitLab . 2023年8月23日.
  11. ^ 「MPEGとH.264圧縮」(PDF) . 2024年7月2日閲覧