ビデオコンテンツ分析

ビデオコンテンツ分析またはビデオコンテンツ分析( VCA ) は、ビデオ分析またはビデオ分析( VA )とも呼ばれ、ビデオを自動的に分析して時間的および空間的なイベントを検出および判断する機能です。

^{この技術的能力は、エンターテイメント、 [ 1 ]}ビデオ検索とビデオ閲覧、^{[ 2 ]}ヘルスケア、小売、自動車、輸送、ホームオートメーション、炎と煙の検知、安全性、セキュリティなど、幅広い分野で使用されています。^{[ 3 ]}アルゴリズムは、汎用マシン上のソフトウェアとして、または専用のビデオ処理ユニットのハードウェアとして実装できます。

VCAには様々な機能を実装できます。ビデオモーション検出は、固定された背景シーンに対して動きを検出する比較的シンプルな機能の一つです。より高度な機能としては、ビデオトラッキング^{[ 4 ]}やエゴモーション推定^{[ 5 ]などがあります。}

VCAがマシン内で生成する内部表現に基づいて、ビデオ要約、^{[ 6 ]} 、識別、行動分析、またはその他の状況認識などの他の機能を構築することができます。

VCA は良質の入力ビデオに依存するため、ビデオノイズ除去、画像安定化、アンシャープマスキング、超解像度などのビデオ拡張機能テクノロジと組み合わせて使用されることがよくあります。

機能

いくつかの記事では、ビデオ分析アプリケーションの開発に関係するモジュールの概要を説明しています。^{[ 7 ]}^{[ 8 ]}これは既知の機能のリストと簡単な説明です。

関数	説明
ダイナミックマスキング	たとえばプライバシー上の懸念から、信号自体に基づいてビデオ信号の一部をブロックすること。
炎と煙の検知	インテリジェントなビデオ監視技術を搭載したIPカメラは、内蔵DSPチップにより、15～20秒、あるいはそれ以下で炎や煙を検知できます。このチップは、撮影したビデオを分析し、炎や煙の色彩、明滅率、形状、パターン、移動方向などの特性を特定するアルゴリズムを処理します。
自己運動推定	エゴモーション推定は、カメラの出力信号を分析してカメラの位置を決定するために使用されます。
動き検出	モーション検出は、観察されたシーン内に関連するモーションの存在を判断するために使用されます。
形状認識	形状認識は、入力ビデオ内の円や四角形などの形状を認識するために使用されます。この機能は、通常、物体検出などの高度な機能で使用されます。
物体検出	物体検出は、人や車など、特定の種類の物体またはエンティティの存在を判断するために使用されます。他の例としては、火災や煙の検出などがあります。
認識	顔認識と自動ナンバープレート認識は、人物や車を認識し、識別するために使用されます。
スタイル検出	スタイル検出は、テレビ放送などのビデオ信号が制作されている現場で使用されます。スタイル検出は、制作プロセスのスタイルを検出します。^{[ 9 ]}
改ざん検出	改ざん検出は、カメラまたは出力信号が改ざんされているかどうかを判断するために使用されます。
ビデオトラッキング	ビデオトラッキングは、ビデオ信号内の人物または物体の位置を、外部参照グリッドを基準にして特定するために使用されます。
ビデオエラーレベル分析	無料ソフトウェアを用いたビデオシーンコンテンツの改ざん解析。ビデオエラーレベル解析（VELA）
オブジェクトの共セグメンテーション	1つまたは複数の関連するビデオシーケンス内のターゲットの共同オブジェクト検出、分類、およびセグメンテーション

商用アプリケーション

VCAは比較的新しい技術で、2000年代半ばには多くの企業がVCAを強化した製品をリリースしました。^{[ 10 ]}^{[ 11 ]}^{[ 12 ]}応用分野は多岐にわたりますが、VCAソリューションごとに実績は大きく異なります。動き検出、人数カウント、銃器検出などの機能は市販製品として入手可能で、かなりの実績があると考えられています（例えば、dsprobotics Flowstoneなどのフリーウェアでも動きや色の分析が可能です）。COVID -19パンデミックへの対応として、多くのソフトウェアメーカーがマスク検出やソーシャルディスタンスの追跡といった新しい公衆衛生分析機能を導入しています。^{[ 13 ]}^{[ 14 ]}^{[ 15 ]}

多くの分野で、VCAはCCTVシステムに実装されており、カメラ（エッジ）に分散して実装される場合もあれば、専用の処理システムに集中して実装される場合もあります。ビデオ分析（Video Analytics）とスマートCCTV（Smart CCTV）は、セキュリティ分野におけるVCAの商用用語です。英国では、BSIAがセキュリティ分野におけるVCAの導入ガイドを作成しています。^{[ 16 ]}ビデオ分析に加えて、それを補完するものとして、音声分析も利用できます。^{[ 17 ]}

ビデオ管理ソフトウェアメーカーは、利用可能なビデオ分析モジュールの範囲を絶えず拡大しています。新しい容疑者追跡技術により、対象者のすべての動き、つまり、どこから来たのか、いつ、どこへ、どのように移動したのかを簡単に追跡できます。特定の監視システムでは、インデックス技術により、特定の時間帯または特定の期間内にカメラの視野内にいた、類似した特徴を持つ人物を見つけることができます。通常、システムは類似した特徴を持つ多数の異なる人物を検出し、それらをスナップショットの形式で提示します。オペレーターは、追跡する必要がある画像と対象をクリックするだけで済みます。約1分で、特定の人物のすべての動きを追跡し、動きを段階的に記録したビデオを作成することもできます。

Kinectは Xbox 360ゲームコンソールのアドオン周辺機器であり、ユーザー入力の一部にVCAを使用しています。^{[ 18 ]}

小売業界では、VCAは店舗内の買い物客を追跡するために使用されています。^{[ 19 ]}この方法により、店舗のヒートマップを取得でき、店舗設計やマーケティングの最適化に役立ちます。その他の用途としては、商品を見ている際の滞在時間や、商品の取り忘れ／置き忘れの検出などがあります。

商用環境におけるVCAの品質を判断することは困難です。ユースケース、実装、システム構成、コンピューティングプラットフォームなど、多くの変数に依存します。商用環境における品質を客観的に把握するための一般的な方法としては、独立したベンチマーク^{[ 20 ]}や指定されたテスト場所の利用などが挙げられます。

VCA は、ロンドンのO2 アリーナやロンドンアイなどで群衆管理の目的で使用されてきました。

法執行機関

警察と法医学者は、犯罪捜査を行う際にCCTV映像を分析します。警察は、 Kinesenseなどの映像コンテンツ解析ソフトウェアを用いて映像内の重要な出来事を検索し、容疑者を特定します。調査によると、事件の最大75%にCCTVが関与しています。警察は、長時間の映像から重要な出来事を検索するために、映像コンテンツ解析ソフトウェアを使用しています。^{[ 21 ]}^{[ 22 ]}

学術研究

動画コンテンツ分析はコンピュータービジョンのサブセットであり、ひいては人工知能のサブセットです。2つの主要な学術ベンチマークイニシアチブは、i-LIDSビデオ映像の一部を使用するTRECVID ^{[ 23 ]}とPETSベンチマークデータです。 ^{[ 24 ]これらは、追跡、放置荷物の検出、仮想フェンシングなどの機能に重点を置いています。UCF101}^[²⁵^]などのベンチマークビデオデータセットは、畳み込みニューラルネットワークと長短期記憶に時間的および空間的な視覚的注意を組み込んだ行動認識研究を可能にします。動画分析ソフトウェアは、身体装着型カメラやダッシュボードカメラの映像と組み合わせて、公開用に映像を編集したり、動画内の出来事や人物を識別したりすることも容易にしています。^[²⁶^]

EUは、組み込みシステム上のビデオコンテンツ分析を警察や交通安全データベースと統合するためのP-REACT ^[²⁷^]と呼ばれるFP7プロジェクトに資金を提供しています。 ^[²⁸^]

人工知能

ビデオ監視用の人工知能は、ビデオ監視カメラからの音声と画像を分析するコンピュータソフトウェアプログラムを活用し、人物、車両、物体、イベントを認識します。セキュリティ請負業者向けプログラムは、カメラの視野内の立ち入り禁止区域（フェンスで囲まれた区域、駐車場など。ただし、駐車場外の歩道や公道は除く）を定義し、カメラ監視の対象となる物件の時間帯（営業時間終了後など）をプログラムするソフトウェアです。人工知能（AI）は、その時間帯にそのエリアへの立ち入りを禁止する「ルール」に違反する侵入者を検知すると、アラートを送信します。

参照

参考文献

^ KINECT Archived September 12, 2010, at the Wayback Machine 、 Xbox 360コンソールのアドオン周辺機器
^ Dimitrova, Nevenka他「ビデオコンテンツ分析および検索のアプリケーション」IEEEマルチメディア9.3（2002）：42-55。
^英国安全保障におけるVCA利用増加 Archived 2014-03-16 at the Wayback Machine、BSIAレポート
^ Cavaliere, Danilo, Vincenzo Loia, Sabrina Senatore. 「 UAVビデオコンテンツ分析のためのオントロジー設計パターンに向けて」IEEE Access 7 (2019): 105342-105353.
^ Cavaliere, Danilo; Loia, Vincenzo; Saggese, Alessia; Senatore, Sabrina; Vento, Mario (2019-08-15). 「UAVベースの適切なビデオコンテンツ分析のための人間のようなシーンイベント記述」 . Knowledge-Based Systems . 178 : 163–175 . doi : 10.1016/j.knosys.2019.04.026 . ISSN 0950-7051 . S2CID 155625544 .
^ Ma, Yu-Fei, et al. 「ビデオ要約のためのユーザーアテンションモデル」第10回ACM国際マルチメディア会議議事録。2002年。
^ Nik Gagvani、ビデオ分析入門
^チェン・ペン、ビデオ分析
^スタイル検出 Archived 2016-03-03 at the Wayback Machine、Cees GM Snoek et al.、スタイル分析によるテレビニュースモノローグの検出、ICME'04
^ Kwet, Michael (2020年1月27日). 「スマートカメラネットワークの台頭と、なぜ禁止すべきか」 . The Intercept . 2020年10月19日閲覧。
^ 「Aimetis」、Wikipedia、2020年1月28日、 2020年10月19日閲覧
^ 「インフォグラフィック：ビデオ監視の歴史」 IFSEC Global | セキュリティと火災に関するニュースとリソース2013年12月12日2020年10月19日閲覧。
^ 「COVID-19によりマスク検出が必須のビデオ分析に - asmag.com」 www.asmag.com 2020年10月6日閲覧。
^ルーベレン、ピーター・ファン・デ. 「セキュリティを超えた機能性: オープンプラットフォームカメラの出現」。www.securityinformed.com 。2020年10月6日に取得。
^ 「StackPath」 . www.securityinfowatch.com . 2020年7月9日. 2020年10月6日閲覧。
^英国産業VCAガイド Archived 2018-05-17 at the Wayback Machine、262 ビデオコンテンツ分析入門産業ガイド
^ CCTV業界に音声分析を提供する英国を拠点とするスタートアップ
^ 「Project Natal 101」 . Microsoft. 2009年6月1日. 2012年1月21日時点のオリジナルよりアーカイブ。2009年6月2日閲覧。
^ 「ヒートマップインテリジェントモジュール」。 2017年7月30日時点のオリジナルよりアーカイブ。2016年7月13日閲覧。
^ i-Lids 、英国内務省によるベンチマークイニシアチブ
^ 「ノースゲート、警察に改良型CCTV分析システムを提供」。 2016年3月4日時点のオリジナルよりアーカイブ。2015年12月29日閲覧。
^ 「ノースゲート、ダブリンのテクノロジー企業キネセンスと提携し、警察のビデオ分析を支援」 Risk Manager Online . 2014年5月26日閲覧。
^ TRECVID 、 NISTによる学術ベンチマークイニシアチブ
^ PETSベンチマークデータアーカイブ2006-09-24 at the Wayback Machine 、リーディング大学による追跡および監視（PETS）のパフォーマンス評価
^ Center, UCF (2013-10-17). 「UCF101 – 行動認識データセット」 . CRCV . 2018年9月12日閲覧。
^ 「警察のボディカメラはあなたを記録する以上のものを提供する | Fast Company | ビジネスの未来」 Fast Company 2017年3月3日. 2017年3月8日閲覧。
^ P-REACTプロジェクトウェブサイト
^ 「Kinesense、軽犯罪対策FP7プロジェクト「P-REACT」を発表」 2014年4月7日。 2014年5月27日閲覧。

[KINECT-1] KINECT Archived September 12, 2010, at the Wayback Machine 、 Xbox 360コンソールのアドオン周辺機器

[2] Dimitrova, Nevenka他「ビデオコンテンツ分析および検索のアプリケーション」IEEEマルチメディア9.3（2002）：42-55。

[VCA_in_Security-3] 英国安全保障におけるVCA利用増加 Archived 2014-03-16 at the Wayback Machine、BSIAレポート

[4] Cavaliere, Danilo, Vincenzo Loia, Sabrina Senatore. 「 UAVビデオコンテンツ分析のためのオントロジー設計パターンに向けて」IEEE Access 7 (2019): 105342-105353.

[5] Cavaliere, Danilo; Loia, Vincenzo; Saggese, Alessia; Senatore, Sabrina; Vento, Mario (2019-08-15). 「UAVベースの適切なビデオコンテンツ分析のための人間のようなシーンイベント記述」 . Knowledge-Based Systems . 178 : 163–175 . doi : 10.1016/j.knosys.2019.04.026 . ISSN 0950-7051 . S2CID 155625544 .

[6] Ma, Yu-Fei, et al. 「ビデオ要約のためのユーザーアテンションモデル」第10回ACM国際マルチメディア会議議事録。2002年。

[Nik_Gagvani-7] Nik Gagvani、ビデオ分析入門

[Cheng_Peng-8] チェン・ペン、ビデオ分析

[Style_detection-9] スタイル検出 Archived 2016-03-03 at the Wayback Machine、Cees GM Snoek et al.、スタイル分析によるテレビニュースモノローグの検出、ICME'04

[10] Kwet, Michael (2020年1月27日). 「スマートカメラネットワークの台頭と、なぜ禁止すべきか」 . The Intercept . 2020年10月19日閲覧。

[11] 「Aimetis」、Wikipedia、2020年1月28日、 2020年10月19日閲覧

[12] 「インフォグラフィック：ビデオ監視の歴史」 IFSEC Global | セキュリティと火災に関するニュースとリソース2013年12月12日2020年10月19日閲覧。

[13] 「COVID-19によりマスク検出が必須のビデオ分析に - asmag.com」 www.asmag.com 2020年10月6日閲覧。

[14] ルーベレン、ピーター・ファン・デ. 「セキュリティを超えた機能性: オープンプラットフォームカメラの出現」。www.securityinformed.com 。2020年10月6日に取得。

[15] 「StackPath」 . www.securityinfowatch.com . 2020年7月9日. 2020年10月6日閲覧。

[BSIA-16] 英国産業VCAガイド Archived 2018-05-17 at the Wayback Machine、262 ビデオコンテンツ分析入門産業ガイド

[audioanalytics-17] CCTV業界に音声分析を提供する英国を拠点とするスタートアップ

[Natal_101-18] 「Project Natal 101」 . Microsoft. 2009年6月1日. 2012年1月21日時点のオリジナルよりアーカイブ。2009年6月2日閲覧。

[19] 「ヒートマップインテリジェントモジュール」。 2017年7月30日時点のオリジナルよりアーカイブ。2016年7月13日閲覧。

[i-Lids-20] -Lids 、英国内務省によるベンチマークイニシアチブ

[21] 「ノースゲート、警察に改良型CCTV分析システムを提供」。 2016年3月4日時点のオリジナルよりアーカイブ。2015年12月29日閲覧。

[22] 「ノースゲート、ダブリンのテクノロジー企業キネセンスと提携し、警察のビデオ分析を支援」 Risk Manager Online . 2014年5月26日閲覧。

[TRECVID-23] TRECVID 、 NISTによる学術ベンチマークイニシアチブ

[PETS_Benchmark_Data-24] PETSベンチマークデータアーカイブ2006-09-24 at the Wayback Machine 、リーディング大学による追跡および監視（PETS）のパフォーマンス評価

[Center_2013-25] Center, UCF (2013-10-17). 「UCF101 – 行動認識データセット」 . CRCV . 2018年9月12日閲覧。

[26] 「警察のボディカメラはあなたを記録する以上のものを提供する | Fast Company | ビジネスの未来」 Fast Company 2017年3月3日. 2017年3月8日閲覧。

[P-REACT-27] P-REACTプロジェクトウェブサイト

[28] 「Kinesense、軽犯罪対策FP7プロジェクト「P-REACT」を発表」 2014年4月7日。 2014年5月27日閲覧。

この技術的能力は、エンターテイメント、 [ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]などがあります。

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]これらは、追跡、放置荷物の検出、仮想フェンシングなどの機能に重点を置いています。UCF101

[

[

[

[