顔認識グランドチャレンジ

顔認識グランドチャレンジ(FRGC )は、顔認識技術の推進と発展を目的として、2004年5月から2006年3月まで実施されました。[ 1 ] 2005年に作成されたFRGC v2データベースは、3D顔認識の発展に大きな影響を与えました。[ 2 ]その後も多くの顔データベースが作成されていますが、2022年現在もFRGC v2は「3D顔認識アルゴリズムを評価するための標準的な参照データベース」として引き続き使用されています。[ 2 ]

概要

顔認識グランドチャレンジ(FRGC)は、米国政府における既存の顔認識技術の推進と発展を目的としたプロジェクトでした。このプロジェクトは2004年5月から2006年3月まで実施され、企業、学術機関、研究機関の顔認識研究者および開発者を対象としていました。FRGCは、新たな顔認識技術とプロトタイプシステムを開発し、性能を大幅に向上させました。

FRGCは、段階的に難易度が上がるチャレンジ問題で構成されており、各チャレンジ問題には顔画像のデータセットと定義された一連の実験が含まれていました。これらのチャレンジ問題は、顔認識技術の向上における障害の一つであるデータ不足を克服するために設計されました。

顔認識アルゴリズムの改善には、主に3つの領域があります。高解像度画像、3次元(3D)顔認識、そして新しい前処理技術です。現在の顔認識システムは、比較的小さく静的な顔画像を扱うように設計されています。FRGCでは、目の中心間のピクセル間隔が平均250ピクセルの顔画像が高解像度画像として使用されます。これは、現在の顔画像の40~60ピクセルよりも大幅に高い値です。FRGCは、高解像度画像に含まれる追加情報を活用する新しいアルゴリズムの開発を促進することを目指しています。

3次元顔認識アルゴリズムは、人物の顔の3次元形状に基づいて顔を識別します。照明や姿勢の変化の影響を受ける既存の顔認識システムとは異なり、3次元顔認識は顔の形状が影響を受けないため、これらの条件下でもパフォーマンスを向上させる可能性があります。

近年、コンピュータグラフィックスとコンピュータビジョンの進歩により、顔画像における照明や姿勢の変化をモデル化することが可能になりました。これらの進歩により、顔認識システムで処理する前に照明や姿勢の変化を自動的に補正できる新しいアルゴリズムが開発されました。FRGCの前処理の側面は、これらの新しい前処理アルゴリズムが認識性能に与える影響を測定することを目的としています。

顔認識グランドチャレンジの構造

FRGC は、研究者が FRGC のパフォーマンス目標を達成できるように設計されたチャレンジ問題を中心に構成されています。

顔認識コミュニティにおいて、FRGCには3つの新しい側面があります。まず、FRGCのデータ規模は注目に値します。FRGCデータセットは5万件の記録で構成されています。次に、FRGCの複雑さが際立っています。静止画像に重点を置いた従来の顔認識データセットとは異なり、FRGCは以下の3つのモードを網羅しています。

  1. 高解像度の静止画像
  2. 3D画像
  3. 人物の複数の画像

3つ目の新しい側面はインフラストラクチャです。FRGCのインフラストラクチャは、生体認証実験環境(BEE)によって提供されます。XMLベースのフレームワークであるBEEは、計算実験を記述し、文書化します。これにより、実験の記述、配布、生データ記録、分析、結果の提示、そして共通フォーマットによる文書化が可能になります。顔認識や生体認証における課題を計算実験環境がサポートするのは、これが初めてです。

FRGCデータセット

FRGCデータ配信は3つの部分で構成されています。最初の部分はFRGCデータセットです。2番目の部分はFRGC BEEです。BEE配信には、6つの実験の実行とスコアリングに必要なすべてのデータセットが含まれています。3番目の部分は、実験1から4のベースラインアルゴリズムで構成されています。3つのコンポーネントすべてを使用することで、生画像の処理から受信者操作特性(ROC)の生成まで、実験1から4を実行できます。

FRGC データは、トレーニング パーティションと検証パーティションに分かれた 50,000 件の記録で構成されています。トレーニング パーティションはアルゴリズムのトレーニング用で、検証パーティションは実験室環境でのアプローチ パフォーマンスを評価します。検証パーティションには、4,003 件の被験者セッションのデータが含まれます。被験者セッションは、生体認証データ収集中に撮影された人物のすべての画像を表し、4 つの制御された静止画像、2 つの制御されていない静止画像、および 1 つの 3D 画像が含まれます。制御された画像はスタジオ設定で撮影されたもので、2 つの照明条件での正面の顔画像と 2 つの表情 (笑顔と無表情) を示しています。制御されていない画像は、廊下、アトリウム、屋外などさまざまな照明条件で撮影されました。制御されていない画像の各セットには、笑顔と無表情の 2 つの表情が含まれています。3D 画像は制御された照明条件下で撮影されたもので、範囲画像とテクスチャ画像の両方が含まれています。3D 画像は、Minolta Vivid 900/910 シリーズ センサーを使用して取得されました。

FRGC分布は6つの実験で構成されています。実験1では、ギャラリーは人物の静止画像1枚で構成され、各プローブは1枚の静止画像で構成されます。実験1は対照実験として機能します。実験2では、人物の静止画像を複数使用した場合のパフォーマンスへの影響を調査します。実験2では、各生体サンプルは、被験者セッションで撮影された人物の静止画像4枚で構成されます。例えば、ギャラリーは各人物の4枚の画像で構成され、すべて同じ被験者セッションで撮影されます。同様に、プローブは人物の4枚の画像で構成されます。

実験3は3D顔認識の性能を測定します。実験3では、ギャラリーとプローブセットの両方に人物の3D画像を使用します。実験4では、制御されていない画像を用いて認識性能を評価します。実験4では、ギャラリーには制御された静止画像が1枚含まれ、プローブセットには制御されていない静止画像が1枚含まれます。

実験5と6では、3D画像と2D画像を比較します。どちらの実験でも、ギャラリーは3D画像で構成されています。実験5では、プローブセットは1枚の制御された静止画像で構成されています。実験6では、プローブセットは1枚の制御されていない静止画像で構成されています。

スポンサー

参考文献

  1. ^ 「顔認識グランドチャレンジ(FRGC)」アメリカ国立標準技術研究所。2024年6月13日閲覧。
  2. ^ a bジン、ヤピン;陸雪泉。ガオ、シャン(2023 年 12 月)「3D顔認識:2022年に向けた総合調査」コンピュテーショナルビジュアルメディア9 (4): 657–685土井: 10.1007/s41095-022-0317-1

パブリックドメイン この記事には、米国国立標準技術研究所(NIST)の「顔認識グランドチャレンジ」のパブリックドメイン資料が組み込まれています