アメリカ合衆国下院 の投票パターンに古典的多次元尺度法を適用した例。青い点は民主党下院議員1名、赤い点は共和党下院議員1名を表しています。多次元尺度構成法 (MDS )は、データセット内の個々のケースの 類似 度を視覚化する手段です。MDSは、データセット内の各オブジェクト間の距離を、抽象的な直交座標空間 にマッピングされた点の配置に変換するために使用されます。[ 1 ] n {\textstyle n} n {\textstyle n}
より技術的には、MDSとは、情報可視化 、特に距離行列 に含まれる情報を表示するために用いられる一連の関連する順序付け 手法を指します。これは非線形次元削減 の一種です。
集合内の各オブジェクト間の距離を表す距離行列と、選択された次元数N が与えられた場合、MDSアルゴリズムは 、各オブジェクトをN 次元空間(低次元 表現)に配置し、オブジェクト間の距離が可能な限り維持されるようにします。N = 1、2、3の場合、結果の点は散布図上に視覚化でき ます 。[ 2 ]
MDSへの中核的な理論的貢献は、マギル大学 のジェームズ・O・ラムゼイ によってなされ、彼は機能データ解析 の創始者ともみなされている。[ 3 ]
種類 MDS アルゴリズムは、入力行列の意味に応じて、 次の分類に分類されます。
古典的な多次元尺度法 これは主座標分析 (PCoA)、トルガーソン・スケーリング、またはトルガーソン・ガワー・スケーリングとも呼ばれます。これは、アイテムのペア間の非類似度を表す入力行列を受け取り、歪み と呼ばれる損失関数を 最小化する座標行列を出力します。歪みは次の ように与えられます 。 [ 2 ] ここで、 はN 次元空間のベクトル、はとの間のスカラー積、 は、以下のアルゴリズムのステップ2で定義される行列の要素であり、距離から計算されます。 歪み D ( × 1 、 × 2 、 。 。 。 、 × n ) = ( ∑ 私 、 j ( b 私 j − × 私 T × j ) 2 ∑ 私 、 j b 私 j 2 ) 1 / 2 、 {\displaystyle {\text{ひずみ}}_{D}(x_{1},x_{2},...,x_{n})={\Biggl (}{\frac {\sum _{i,j}{\bigl (}b_{ij}-x_{i}^{T}x_{j}{\bigr )}^{2}}{\sum _{i,j}b_{ij}^{2}}}{\Biggr )}^{1/2},} × 私 {\displaystyle x_{i}} × 私 T × j {\displaystyle x_{i}^{T}x_{j}} × 私 {\displaystyle x_{i}} × j {\displaystyle x_{j}} b 私 j {\displaystyle b_{ij}} B {\displaystyle B}
古典的なMDSアルゴリズムの手順: 古典的なMDSは、座標行列が から固有値分解 によって導出できることを利用している。また、行列は近接行列から二重中心化を用いて計算できる。 [ 4 ] X {\displaystyle X} B = X X ′ {\textstyle B=XX'} B {\textstyle B} D {\textstyle D} 二乗近接行列を設定するD ( 2 ) = [ d i j 2 ] {\textstyle D^{(2)}=[d_{ij}^{2}]} 二重センタリングを適用します。センタリング行列 を使用します。ここで、 はオブジェクトの数、は単位行列、はすべて 1 の行列です。B = − 1 2 C D ( 2 ) C {\textstyle B=-{\frac {1}{2}}CD^{(2)}C} C = I − 1 n J n {\textstyle C=I-{\frac {1}{n}}J_{n}} n {\textstyle n} I {\textstyle I} n × n {\textstyle n\times n} J n {\textstyle J_{n}} n × n {\textstyle n\times n} (出力に必要な次元数)の最大固有値 と対応する固有ベクトル を決定します。m {\textstyle m} λ 1 , λ 2 , . . . , λ m {\textstyle \lambda _{1},\lambda _{2},...,\lambda _{m}} e 1 , e 2 , . . . , e m {\textstyle e_{1},e_{2},...,e_{m}} B {\textstyle B} m {\textstyle m} ここで、は固有ベクトルの行列であり、 はの固有値の対角行列 です。X = E m Λ m 1 / 2 {\textstyle X=E_{m}\Lambda _{m}^{1/2}} E m {\textstyle E_{m}} m {\textstyle m} Λ m {\textstyle \Lambda _{m}} m {\textstyle m} B {\textstyle B} 古典的なMDSは距離を計量的に想定しているため、直接的な非類似度評価には適用できません。
計量多次元尺度法(mMDS) これは古典的なMDSのスーパーセットであり、最適化手順を様々な損失関数と、距離が既知の入力行列(重みなど)に一般化します。この文脈で有用な損失関数はストレスと呼ばれ、 ストレス・マジョライゼーション と呼ばれる手順を用いて最小化されることがよくあります。メトリックMDSは、「ストレス」と呼ばれるコスト関数(残差平方和)を最小化します。
Stress D ( x 1 , x 2 , . . . , x n ) = ∑ i ≠ j = 1 , . . . , n ( d i j − ‖ x i − x j ‖ ) 2 . {\displaystyle {\text{Stress}}_{D}(x_{1},x_{2},...,x_{n})={\sqrt {\sum _{i\neq j=1,...,n}{\bigl (}d_{ij}-\|x_{i}-x_{j}\|{\bigr )}^{2}}}.}
メトリックスケーリングでは、距離に対してユーザーが制御できる指数:と を用いたべき乗変換が用いられます。従来のスケーリングでは、非メトリックスケーリングは、等位回帰を用いて非パラメトリックに非類似度の変換を推定することで定義されます。 p {\textstyle p} d i j p {\textstyle d_{ij}^{p}} − d i j 2 p {\textstyle -d_{ij}^{2p}} p = 1. {\textstyle p=1.}
非計量多次元尺度法(NMDS)メトリック MDS とは対照的に、非メトリック MDS は、アイテム間マトリックスの相違点とアイテム間のユークリッド距離の間の 非パラメトリックな 単調関係と、低次元空間における各アイテムの位置の両方を検出します。
点 間の相違度を とします。埋め込まれた点 間のユークリッド距離を とします。 d i j {\displaystyle d_{ij}} i , j {\displaystyle i,j} d ^ i j = ‖ x i − x j ‖ {\displaystyle {\hat {d}}_{ij}=\|x_{i}-x_{j}\|} x i , x j {\displaystyle x_{i},x_{j}}
ここで、埋め込まれた点の各選択と単調増加関数に対して、「応力」関数を定義します。 x i {\displaystyle x_{i}} f {\displaystyle f}
S ( x 1 , . . . , x n ; f ) = ∑ i < j ( f ( d i j ) − d ^ i j ) 2 ∑ i < j d ^ i j 2 . {\displaystyle S(x_{1},...,x_{n};f)={\sqrt {\frac {\sum _{i<j}{\bigl (}f(d_{ij})-{\hat {d}}_{ij}{\bigr )}^{2}}{\sum _{i<j}{\hat {d}}_{ij}^{2}}}}.}
分母の という因子は、「崩壊」を防ぐために必要です。代わりに と定義すると、 と設定することで は自明に最小化され、すべての点が同じ点に収束します。 ∑ i < j d ^ i j 2 {\displaystyle \sum _{i<j}{\hat {d}}_{ij}^{2}} S = ∑ i < j ( f ( d i j ) − d ^ i j ) 2 {\displaystyle S={\sqrt {\sum _{i<j}{\bigl (}f(d_{ij})-{\hat {d}}_{ij})^{2}}}} f = 0 {\displaystyle f=0}
このコスト関数にはいくつかのバリエーションがあります。MDSプログラムは、MDSソリューションを得るためにストレスを自動的に最小化します。
非計量MDSアルゴリズムの中核は、2つの最適化プロセスです。まず、近傍点の最適な単調変換を見つけ出す必要があります。次に、配置内の点を最適に配置し、それらの距離がスケーリングされた近傍点に可能な限り一致するようにする必要があります。
NMDSは2つの目的を同時に最適化する必要があります。これは通常、反復的に実行されます。
たとえば正規分布からサンプリングするなどして、ランダムに初期化します。x i {\displaystyle x_{i}} 停止基準に達するまで実行する(例:) S < ϵ {\displaystyle S<\epsilon } 等温回帰 によってを解きます。f = arg min f S ( x 1 , . . . , x n ; f ) {\displaystyle f=\arg \min _{f}S(x_{1},...,x_{n};f)} 勾配降下法またはその他の方法で解きます。x 1 , . . . , x n = arg min x 1 , . . . , x n S ( x 1 , . . . , x n ; f ) {\displaystyle x_{1},...,x_{n}=\arg \min _{x_{1},...,x_{n}}S(x_{1},...,x_{n};f)} 戻ってx i {\displaystyle x_{i}} f {\displaystyle f} Louis Guttman の最小空間分析 (SSA) は、非メトリック MDS 手順の例です。
一般化多次元尺度法(GMD)計量多次元尺度法の拡張であり、対象空間は任意の滑らかな非ユークリッド空間である。類似度が面上の距離であり、対象空間が別の面である場合、GMDSは、ある面から別の面への歪み最小の埋め込みを求めることを可能にする。[ 5 ]
超多次元尺度法(SMDS)MDSの拡張版であるスーパーMDSは、距離と角度の両方の情報を組み込むことで、音源位置推定精度を向上させます。距離測定のみを使用する従来のMDSとは異なり、スーパーMDSは距離と到来角(AOA)の両方のデータを代数的に(反復処理なしで)処理することで、より高い精度を実現します。[ 6 ]
この方法は以下のステップで進行します。
縮小エッジグラムカーネルを構築する: 次元空間のソースネットワークにおいて、エッジベクトルを と定義する。非類似度は で与えられる。これらを完全カーネル にまとめ、独立ベクトル 、を用いて縮小カーネルを形成する。N {\displaystyle N} η {\displaystyle \eta } v i = x m − x n {\displaystyle v_{i}=x_{m}-x_{n}} k i , j = ⟨ v i , v j ⟩ {\displaystyle k_{i,j}=\langle v_{i},v_{j}\rangle } K = V V T {\displaystyle K=VV^{T}} N − 1 {\displaystyle N-1} K ¯ = [ V ] ( N − 1 ) × η [ V ] ( N − 1 ) × η T {\displaystyle {\bar {K}}=[V]_{(N-1)\times \eta }\ [V]_{(N-1)\times \eta }^{T}} 固有分解: の固有分解を計算します。K ¯ {\displaystyle {\bar {K}}} エッジベクトルの推定: エッジベクトルを次のように復元します。V ^ = ( U M × η Λ η × η ⊙ 1 2 ) T {\displaystyle {\hat {V}}={\Bigl (}U_{M\times \eta }\,\Lambda _{\eta \times \eta }^{\odot {\frac {1}{2}}}{\Bigr )}^{T}} プロクルステスのアライメント: プロクルステスの変換を介して 取得、V ^ {\displaystyle {\hat {V}}} V {\displaystyle V} 座標の計算: 次の線形方程式を解いて座標の推定値を計算する。( 1 | 0 1 × N − 1 [ C ] N − 1 × N ) ⋅ ( x 1 [ X ] N − 1 × η ) = ( x 1 [ V ] N − 1 × η ) , {\displaystyle {\begin{pmatrix}1\vline \mathbf {0} _{1\times N-1}\\\hline \mathbf {[C]} _{N-1\times N}\end{pmatrix}}\cdot {\begin{pmatrix}\mathbf {x} _{1}\\\hline [\mathbf {X} ]_{N-1\times \eta }\end{pmatrix}}={\begin{pmatrix}\mathbf {x} _{1}\\\hline [\mathbf {V} ]_{N-1\times \eta }\end{pmatrix}},} この簡潔なアプローチにより、複数のアンカーの必要性が減り、角度の制約を活用してローカリゼーションの精度が向上します。
詳細 分析対象となるデータは、距離関数 が定義されたオブジェクト(色、顔、株価など)の集合であり、 M {\displaystyle M}
d i , j := {\displaystyle d_{i,j}:=} -番目と-番目のオブジェクト間の距離。i {\displaystyle i} j {\displaystyle j} これらの距離は非類似度行列 の要素である
D := ( d 1 , 1 d 1 , 2 ⋯ d 1 , M d 2 , 1 d 2 , 2 ⋯ d 2 , M ⋮ ⋮ ⋮ d M , 1 d M , 2 ⋯ d M , M ) . {\displaystyle D:={\begin{pmatrix}d_{1,1}&d_{1,2}&\cdots &d_{1,M}\\d_{2,1}&d_{2,2}&\cdots &d_{2,M}\\\vdots &\vdots &&\vdots \\d_{M,1}&d_{M,2}&\cdots &d_{M,M}\end{pmatrix}}.} MDSの目標は、与えられた場合 に 、D {\displaystyle D} M {\displaystyle M} x 1 , … , x M ∈ R N {\displaystyle x_{1},\ldots ,x_{M}\in \mathbb {R} ^{N}}
‖ x i − x j ‖ ≈ d i , j {\displaystyle \|x_{i}-x_{j}\|\approx d_{i,j}} すべてのために、i , j ∈ 1 , … , M {\displaystyle i,j\in {1,\dots ,M}} ここで、 はベクトルノルム です。古典的なMDSでは、このノルムはユークリッド距離 ですが、より広い意味では、メトリック または任意の距離関数である可能性があります。[ 7 ] 例えば、数値記述子とカテゴリ記述子を含む混合型データを扱う場合、ガワー距離 が一般的な代替手段です。 ‖ ⋅ ‖ {\displaystyle \|\cdot \|}
言い換えれば、MDSは、距離が保存されるように、オブジェクトから への写像を見つけようとします。次元を2または3に選択した場合、ベクトルをプロットすることで、オブジェクト間の類似性を視覚化できます。ベクトルは一意ではないことに注意してください。ユークリッド距離では、ベクトルを任意に移動、回転、反転させることができます。これらの変換はペアワイズ距離を変化させないためです。 M {\displaystyle M} R N {\displaystyle \mathbb {R} ^{N}} N {\displaystyle N} x i {\displaystyle x_{i}} M {\displaystyle M} x i {\displaystyle x_{i}} ‖ x i − x j ‖ {\displaystyle \|x_{i}-x_{j}\|}
(注: 記号は実数 の集合 を示し、表記はのコピーの直積を表します。これは実数体上の 次元ベクトル空間です。) R {\displaystyle \mathbb {R} } R N {\displaystyle \mathbb {R} ^{N}} N {\displaystyle N} R {\displaystyle \mathbb {R} } N {\displaystyle N}
ベクトルを決定するには様々なアプローチがあります。通常、MDSは最適化問題 として定式化されます。ここで、 は何らかのコスト関数の最小値として求められます。例えば、 x i {\displaystyle x_{i}} ( x 1 , … , x M ) {\displaystyle (x_{1},\ldots ,x_{M})}
a r g m i n x 1 , … , x M ∑ i < j ( ‖ x i − x j ‖ − d i , j ) 2 . {\displaystyle {\underset {x_{1},\ldots ,x_{M}}{\mathrm {argmin} }}\sum _{i<j}(\|x_{i}-x_{j}\|-d_{i,j})^{2}.\,} その後、数値最適化手法によって解が求められる。特定のコスト関数を選択した場合、最小化関数は行列固有値分解 を用いて解析的に表現できる。[ 2 ]
手順 MDS 研究を実施するには、いくつかのステップがあります。
問題の定式化 – どのような変数を比較したいですか?いくつの変数を比較したいですか?この研究の目的は何ですか?入力データの取得 - たとえば、回答者は一連の質問を受けます。各製品ペアについて、類似性を評価するように求められます (通常、非常に類似から非常に非類似までの 7 段階のリッカート尺度 を使用)。たとえば、最初の質問は Coke/Pepsi に関するもので、次の質問は Coke/Hires ルートビア、その次は Pepsi/Dr Pepper、その次は Dr Pepper/Hires ルートビア、というように続きます。質問の数はブランド数の関数であり、次のように計算できます。Qは 質問数、N はブランド数です。このアプローチは、「知覚データ : 直接アプローチ」と呼ばれます。他の 2 つのアプローチがあります。1 つは「知覚データ : 導出アプローチ」で、これは製品を意味差分 スケールで評価される属性に分解します。もう 1 つは「選好データ アプローチ」で、回答者に類似性ではなく選好を尋ねます。Q = N ( N − 1 ) / 2 {\displaystyle Q=N(N-1)/2} MDS統計プログラムの実行 – この手順を実行するためのソフトウェアは、多くの統計ソフトウェアパッケージで提供されています。多くの場合、計量的MDS(間隔尺度または比率尺度データを扱う)と非計量的MDS [ 8 ] (順序尺度データを扱う)のどちらかを選択できます。次元数の決定 – 研究者は、コンピュータに作成させる次元数を決定する必要があります。MDS解の解釈可能性はしばしば重要であり、低次元の解は通常、解釈と視覚化が容易になります。しかし、次元の選択は、アンダーフィッティングとオーバーフィッティングのバランスをとる問題でもあります。低次元の解は、非類似度データの重要な次元を除外することで、アンダーフィッティングになる可能性があります。高次元の解は、非類似度測定におけるノイズにオーバーフィッティングする可能性があります。したがって、 AIC 、BIC 、ベイズ係数 、クロスバリデーション などのモデル選択ツールは、アンダーフィッティングとオーバーフィッティングのバランスをとる次元数を選択するのに役立ちます。結果のマッピングと次元の定義 – 統計プログラム(または関連モジュール)は結果をマッピングします。マップは各製品を(通常は2次元空間で)プロットします。製品間の近接性は、使用されたアプローチに応じて、それらの製品の類似性または好まれ度を示します。ただし、埋め込みの次元がシステムの動作の次元と実際にどのように対応するかは必ずしも明らかではありません。ここでは、対応関係について主観的な判断を下すことができます(知覚マッピングを 参照)。結果の信頼性と妥当性を検証する –決定係数(R2) を計算し、尺度化されたデータの分散のうち、MDS法で説明できる割合を決定します。決定係数が0.6であれば、許容可能な最小値とみなされます。決定係数が0.8であれば、計量尺度では良好とみなされ、0.9であれば、非計量尺度では良好とみなされます。その他の検定としては、クラスカルのストレス、分割データ検定、データ安定性検定(あるブランドを除外する検定など)、再検定信頼性などが挙げられます。結果を包括的に報告する – マッピングに加えて、少なくとも距離尺度(例:ソレンソン指数 、ジャカード指数 )と信頼性(例:ストレス値)を示す必要があります。また、使用したプログラムによって定義されることが多いアルゴリズム(例:クラスカル、マザー)も示すことが強く推奨されます(アルゴリズムレポートの代わりになる場合もあります)。開始設定を指定した場合やランダムに選択した場合は、実行回数、次元評価、モンテカルロ法の 結果、反復回数、安定性評価、各軸の比例分散(r-square)も示してください。
実装
参照
参考文献 ^ Mead, A (1992). 「多次元尺度法の発展に関するレビュー」. Journal of the Royal Statistical Society. Series D (The Statistician) . 41 (1): 27– 39. doi : 10.2307/2348634 . JSTOR 2348634. 要旨.多次元尺度法は、心理物理学および官能分析において現在一般的な統計ツールとなっています。これらの手法の発展は、Torgerson(計量尺度法)、ShepardとKruskal(非計量尺度法)による最初の研究から、個体差尺度法、そしてRamsayが提唱した最尤法に至るまで、図表化されています。 ^ a b c Borg, I.; Groenen, P. (2005). 現代多次元尺度法:理論と応用 (第2版). ニューヨーク: Springer-Verlag. pp. 207– 212. ISBN 978-0-387-94845-4 。^ Genest, Christian; Nešlehová, Johanna G.; Ramsay, James O. (2014). 「A Conversation with James O. Ramsay」 . International Statistical Review / Revue Internationale de Statistique . 82 (2): 161– 183. JSTOR 43299752. 2021年 6月30日 閲覧 。 ^ ウィッケルマイヤー、フロリアン. 「MDS入門」サウンドクオリティ研究ユニット、オールボー大学、デンマーク (2003): 46 ^ Bronstein AM, Bronstein MM, Kimmel R (2006年1月). 「一般化多次元尺度法:等長不変な部分表面マッチングのための枠組み」 . Proc. Natl. Acad. Sci. USA . 103 (5): 1168–72 . Bibcode : 2006PNAS..103.1168B . doi : 10.1073 /pnas.0508601103 . PMC 1360551. PMID 16432211 . ^ de Abreu, GTF; Destino, G. (2007). Super MDS: 距離と角度情報による発信源位置特定 . 2007 IEEE Wireless Communications and Networking Conference. 香港, 中国. pp. 4430– 4434. doi : 10.1109/WCNC.2007.807 . ^ Kruskal, JB , Wish, M. (1978), Multidimensional Scaling , Sage University Paper series on Quantitative Application in the Social Sciences, 07-011. Beverly Hills and London: Sage Publications.^ Kruskal, JB (1964). 「非計量仮説への適合度の最適化による多次元尺度構成法」 Psychometrika . 29 (1): 1– 27. doi : 10.1007/BF02289565 . S2CID 48165675 . ^ Leeuw, Jan de; Mair, Patrick (2009). 「Majorizationを用いた多次元尺度法:RにおけるSMACOF」 . Journal of Statistical Software . 31 (3). doi : 10.18637/jss.v031.i03 . ISSN 1548-7660 .
参考文献