| ミュージックビデオの開発 |
|---|
オーディオとビデオの同期(AV同期、リップシンクとも呼ばれる、またはリップシンクエラー、リップフラップとも呼ばれる)とは、作成、ポストプロダクション(ミキシング)、送信、受信、再生処理中のオーディオ(音)とビデオ(画像)の相対的なタイミングを指します。AV同期は、テレビ、ビデオ会議、映画などで重要な役割を果たします。
業界用語では、リップシンクエラーは、音声がビデオとの完全な同期から外れている時間として表現され、正の数値は音声がビデオより進んでいることを示し、負の数値は音声がビデオより遅れていることを示します。[ 1 ]この用語と数値リップシンクエラーの標準化は、さまざまな専門論文、[ 2 ] ITU-R BT.1359-1などの標準、および以下のその他の参考文献からもわかるように、プロの放送業界で利用されています。
デジタルまたはアナログのオーディオ ビデオ ストリームやビデオ ファイルには、通常、インターリーブされたビデオとオーディオのデータの形式、またはデータの 明示的な相対タイムスタンプによる何らかの同期メカニズムが含まれています。
.jpg/440px-Audio-to-video_synchronisation_(55040442462).jpg)
AV 同期エラーは、さまざまな理由により、さまざまなステージにわたって蓄積される可能性があります。
作成中に、ビデオカメラとマイクの画像とサウンド間の異なる信号処理遅延が原因で、内部的に AV 同期エラーが発生することがあります。AV 同期遅延は通常は固定です。マイクが音源から遠く離れている場合、音速が光速よりはるかに遅いため、オーディオが同期しなくなり、外部 AV 同期エラーが発生する可能性があります。音源がマイクから 340 メートル離れている場合、音は光よりも約 1 秒遅れて到達します。AV 同期遅延は距離が長くなるにつれて大きくなります。ビデオクリップのミキシング中は通常、オーディオまたはビデオのいずれかを遅延させて同期させる必要があります。AV 同期遅延は静的ですが、個々のクリップによって変わる可能性があります。ビデオ編集エフェクトによってビデオが遅延し、オーディオが遅れることがあります。
送信(放送)、受信、再生においてもAV同期エラーが発生する可能性があります。内蔵マイクまたはライン入力を備えたビデオカメラでは、音声と映像のパスの遅延量が必ずしも一定とは限りません。半導体ビデオカメラ(電荷結合素子(CCD)やCMOSイメージセンサーなど)は、映像信号を1フレーム以上遅延させる可能性があります。テレビシステムには、音声および映像信号処理回路が存在します。これらの回路は、遅延が大きく(場合によっては一定ではない)、遅延を伴います。フレームシンクロナイザー、デジタルビデオエフェクトプロセッサ、ビデオノイズリダクション、フォーマットコンバータ、圧縮システムなどは、広く使用されている信号処理要素であり、これらが重大な映像遅延の一因となる可能性があります。
ビデオモニターのフォーマット変換やインターレース解除処理といった処理回路により、1フレーム以上のビデオ遅延が発生することがあります。スピーカーやライン出力を内蔵したビデオモニターでは、音声と映像の遅延が均等にならない場合があります。一部のビデオモニターには、エラー修正を支援するために、ユーザーが調整可能なオーディオ遅延が内蔵されています。
RTPなどの一部の伝送プロトコルでは、メディアストリームの同期に帯域外方式が求められます。一部のRTPシステムでは、各メディアストリームは独立したクロックレートとストリームごとにランダム化された開始値を用いて、独自のタイムスタンプを持ちます。ストリームを同期させるには、各ストリームごとにRTCP送信レポート(SR)が必要になる場合があります。 [ 3 ]
デジタルまたはアナログAVシステムのストリームに同期方法やメカニズムがない場合、ストリームの同期がずれることがあります。映画の場合、このようなタイミングエラーは、フィルムのスプロケット穴が破れているためにフィルムが映写機のスプロケットを飛び越えてしまうことで最もよく発生します。映写技師がフィルムを映写機に正しく通さなかった 場合にも、エラーが発生することがあります。
デジタルテレビ業界では、テレビ番組制作、テレビ放送、およびLCD、DLP、プラズマ ディスプレイなどのピクセル化されたテレビ ディスプレイで大量のビデオ信号処理が使用されるため、同期エラーが重大な問題になっています。ピクセル化されたディスプレイは、入力ビデオ信号の解像度をピクセル化されたディスプレイのネイティブ解像度に変換するために複雑なビデオ信号処理を使用します。たとえば、標準解像度のビデオを高解像度ディスプレイに表示するためです。同期の問題は、テレビ番組のビデオ部分で大量のビデオ処理が実行される場合によく発生します。テレビの分野で重大なビデオ遅延が発生する一般的な原因には、ビデオ シンクロナイザとビデオ圧縮エンコーダおよびデコーダがあります。特に問題のあるエンコーダとデコーダは、デジタルテレビの放送や、民生用および業務用の録画再生デバイスへのテレビ番組の保存 に利用されるMPEG圧縮システムで使用されています。
テレビ放送では、リップシンク誤差が100ミリ秒(数ビデオフレーム)以上変動することは珍しくありません。AV同期は通常、オーディオ同期装置によって補正・維持されます。テレビ業界の標準化団体は、オーディオとビデオのタイミング誤差の許容範囲を定め、許容可能なタイミングを維持するための推奨手法を策定しています。[ 4 ] [ 1 ] EBU勧告R37「テレビ信号の音声と映像の相対的なタイミング」では、エンドツーエンドのオーディオ/ビデオ同期は+40ミリ秒~-60ミリ秒(それぞれオーディオはビデオの前、ビデオは後)以内、各段階は+5ミリ秒~-15ミリ秒以内であるべきであると規定されています。[ 5 ]
その結果、通常、撮影またはテレビ放映される登場人物の口の動きが会話と一致しなくなり、リップフラップまたはリップシンクエラーと呼ばれる。結果として生じる音声と映像の同期エラーは視聴者を煩わせ、番組を楽しめなくなったり、番組の効果を低下させたり、視聴者が話者に対して否定的な印象を持ったりする原因となる可能性がある。[ 6 ]効果の低下は、特に商品コマーシャルや選挙候補者にとって懸念される。高度テレビジョンシステム委員会などのテレビ業界の標準化団体は、音声と映像の同期エラーに関する標準規格の策定に取り組んでいる。[ 4 ]
これらの煩わしさから、AV同期エラーはテレビ局、ネットワーク、広告主、番組制作会社など、テレビ番組制作業界にとって懸念事項となっています。しかしながら、音声よりも映像の遅延が大きくなる高精細フラットパネルディスプレイ技術(LCD、DLP、プラズマ)の登場により、この問題は視聴者の家庭にも波及し、テレビ番組制作業界だけでは制御できなくなっています。現在、消費者向け製品メーカーは、テレビ、サウンドバー、A/Vレシーバーの映像遅延の変化を補正するための音声遅延調整機能を提供しており、[ 7 ]、リップシンクエラー補正専用のデジタル音声遅延装置を製造している企業もいくつかあります。
テレビジョンアプリケーションの場合、先進テレビジョンシステム委員会は、音声が映像より最大で先行することを推奨しています。15 ミリ秒、音声は映像より45ミリ秒以上遅れてはならない。[ 4 ]しかし、ITUは専門家の視聴者を対象に厳格に管理されたテストを実施し、検出の閾値は45ミリ秒から125ミリ秒の遅れであると結論付けた。[ 1 ] 映画の場合、許容されるリップシンクはどちらの方向でも22ミリ秒以下とされている。[ 5 ] [ 8 ]
全米家電協会は、デジタルテレビ受信機がA/V同期をどのように実装すべきかについての一連の勧告を発表している。[ 9 ]
2015年に発行されたSMPTE規格ST2064 [ 10 ]は、デジタルテレビにおけるリップシンクエラーを低減または除去する技術を提供しています。この規格は、テレビ番組から取得された音声および映像のフィンガープリントを活用します。このフィンガープリントは復元され、蓄積されたリップシンクエラーを修正するために使用できます。テレビ番組のフィンガープリントが生成され、必要な技術が組み込まれている場合、視聴者のテレビはリップシンクエラーを継続的に測定し、修正することができます。[ 11 ] [ 12 ]
プレゼンテーションタイムスタンプ(PTS)は、 MPEGトランスポートストリームに埋め込まれ、各オーディオおよびビデオセグメントの表示タイミングを正確に通知し、AV同期エラーを回避するために使用されます。しかし、これらのタイムスタンプは、ビデオのフレーム同期、フォーマット変換、および前処理の後に追加されることが多く、これらの処理によって発生するリップシンクエラーは、タイムスタンプの追加と使用によって修正されません。[ 13 ] [ 14 ] [ 15 ] [ 16 ]
リアルタイムトランスポートプロトコルは、任意のタイムライン上の発信タイムスタンプを用いてメディアの時刻を計時する。ネットワークタイムプロトコルや高精度時間プロトコルによって配信され、メディアに関連付けられたセッション記述プロトコル[ 17 ]に記述されているリアルタイムクロックは、メディアの同期に使用できる。その後、複数の受信者間の同期にはサーバーを使用することができる。[ 18 ]
適切なA/V同期の制限が確立されており、映画の場合の許容範囲は
+/- 22ms
です。ATSCによると、ビデオの場合の許容範囲は最大15msのリードタイムと約45msのラグタイムです。