動的意思決定(DDM)は、意思決定者の過去の行動または意思決定者の制御外のイベントにより時間の経過とともに変化する環境で行われる相互依存的な意思決定です。 [ 1 ] [ 2 ]この意味で、動的意思決定は、単純で従来の1回限りの意思決定とは異なり、通常より複雑でリアルタイムで行われ、時間の経過とともにより良い意思決定につながる経験の種類を含む、人々が経験を使用して特定の複雑なシステムを制御できる範囲を観察することを伴います。[ 3 ]
動的意思決定研究では、現実世界の状況を実験室で再現したコンピュータシミュレーションが用いられます。これらのコンピュータシミュレーションは「マイクロワールド」とも呼ばれ[ 4 ]、人々が複雑なシステムを制御し、後の意思決定が以前の意思決定の影響を受けるような状況をシミュレートした現実世界における人々の行動を調査するために用いられます[ 5 ] 。DDM 研究は、以下の点で過去のより古典的な意思決定研究と区別されます。
また、DDM を調査するためのツールとしてマイクロワールドを使用すると、 DDM 研究者に実験制御が提供されるだけでなく、非常に古い古典的な意思決定研究とは異なり、DDM 分野が現代的なものになります。
動的な意思決定状況の例としては、気候変動の管理、工場の生産と在庫、航空管制、消防、自動車の運転、戦場における軍事指揮統制などが挙げられます。DDMの研究は、意思決定者が特定のシステムを制御するために経験をどの程度活用しているか、意思決定における経験の獲得と活用の根底にある要因、そして動的なタスクにおいてより良い意思決定につながる経験の種類を調査することに重点を置いています。
動的意思決定環境の主な特徴は、ダイナミクス、複雑性、不透明性、そして動的複雑性です。環境のダイナミクスとは、システムの状態が以前の状態に依存していることを指します。システムのダイナミクスは、正のフィードバック(自己増幅ループ)または負のフィードバック(自己修正ループ)によって駆動される可能性があり、その例としては、それぞれ貯蓄銀行口座への利息の発生や、食事による空腹感の緩和などが挙げられます。
複雑性とは、システム内で相互作用または相互接続された要素の数を指し、システムの挙動を予測することが困難になる場合があります。しかし、システム構成要素は、システム内の構成要素の数、構成要素間の関係の数、そしてそれらの関係の性質によって変化するため、複雑性の定義には依然として問題が残る可能性があります。複雑性は、意思決定者の能力によって決まる場合もあります。
不透明度は、動的システムのいくつかの側面が物理的に見えないことを指し、システムのコンポーネントに関する知識を獲得する意思決定者の能力に依存する場合もあります。
動的複雑性とは、意思決定者がシステムから受け取るフィードバックを用いてシステムを制御する能力を指します。DiehlとSterman [ 6 ]はさらに動的複雑性を3つの要素に分類しています。システムに存在する不透明性は、意図しない副作用を引き起こす可能性があります。システムの構成要素間に非線形関係が存在する可能性があり、実行されたアクションとその結果の間にフィードバック遅延が生じる可能性があります。システムの動的複雑性は、最終的に意思決定者によるシステムの理解と制御を困難にする可能性があります。
マイクロワールドとは、動的意思決定を研究するために設計された制御された実験で使用される複雑なシミュレーションです。動的意思決定の研究は主に実験室で行われ、コンピュータシミュレーションのマイクロワールドツール(例:意思決定ゲーム、DMゲーム)が用いられます。マイクロワールドは、合成タスク環境、高忠実度シミュレーション、インタラクティブ学習環境、仮想環境、スケールドワールドなど、様々な名称で知られています。マイクロワールドは、現実世界の状況を実験室で再現するものであり、実験制御を維持しながら時間と空間を圧縮することで、DDM研究者が意思決定を研究するのに役立ちます。
DMGames は、それが表す現実世界の問題の最も重要な要素を圧縮し、人間の行動を収集するための重要なツールです。DMGames は、認知能力、フィードバックの種類、フィードバックのタイミング、意思決定時に使用する戦略、 DDM タスク実行中の知識獲得など、さまざまな要因の調査に役立っています。ただし、DMGames は現実世界のシステムの重要な要素を表現することを目指していますが、さまざまな点で現実世界のタスクとは異なります。現実のタスクではリスクがより高くなる可能性があり、意思決定者の専門知識は、DDM タスクのように数分、数時間、数日ではなく、何年もかけて獲得されていることがよくあります。このように、DDM は多くの点で自然主義的意思決定(NDM) とは異なります。
DDMタスクでは、最適なパフォーマンスが判明したり既知であったとしても、人々はその最適なレベルを下回るパフォーマンスを示すことが示されています。例えば、森林火災シミュレーションゲームでは、参加者は頻繁に本部が焼け落ちるのを許しました。[ 7 ]同様のDDM研究では、緊急治療室の医師役の参加者は、実際には診断につながらない検査結果を待ち続けている間に患者が死ぬのを許しました。[ 8 ] [ 9 ] DDMにおける経験からの意思決定に関する興味深い洞察は、学習の大部分は暗黙的であり、繰り返し試行することでパフォーマンスが向上したにもかかわらず、人々はそのための戦略を言葉で表現できないということです。[ 10 ]
学習はDDM研究の不可欠な部分です。DDMにおける主要な研究活動の一つは、マイクロワールドシミュレーションツールを用いて、人間が特定のシミュレーションシステムを制御することをどの程度学習できるかを調査し、DDMタスクにおける学習を説明する可能性のある要因を調査することです。
学習理論の 1 つは、特定のタスクに関連した戦略またはアクション ルールの使用に依存しています。これらのルールは、特定のルールまたは戦略が適用される条件を指定します。これらのルールは、状況 S を認識した場合はアクション/戦略 A を実行するという形式です。たとえば、Anzai [ 11 ] は、特定のゲート セットを船が通過するように操縦する DDM タスクを実行する一連の生成ルールまたは戦略を実装しました。Anzai の戦略は、人間の参加者によるタスクのパフォーマンスをかなりうまく模倣しました。同様に、Lovett と Anderson [ 12 ]は、Lurchins の水差し問題と同型である棒作りタスクで、人々が if – then タイプの生成ルールまたは戦略をどのように使用するかを示しました。[ 13 ] [ 14 ]棒作りタスクの目標は、構築する 3 つの長さの棒が与えられたときに、特定の希望する長さの棒を作成することです (それぞれの長さの棒は無制限にあります)。この問題を解くには、基本的に 2 つの戦略を使用します。アンダーシュート戦略とは、短い棒を目標の棒まで伸ばしていく戦略です。オーバーシュート戦略とは、目標よりも長い棒を取り出し、短い棒と同じ長さの棒を目標の長さまで切り落としていく戦略です。ラヴェットとアンダーソンは、特定の問題に対して1つの戦略のみが機能するように調整し、被験者に2つの戦略のうちの1つが大多数の問題で機能する問題を出題しました(そして、彼女はより効果的な戦略を被験者間でバランス調整しました)。
他の研究者の中には、DDMタスクにおける学習はコネクショニスト理論、あるいはコネクショニズムによって説明できると示唆する者もいる。コネクショニスト理論とは、ユニット間の接続の強さや重み付けが過去の経験に依存する理論である。つまり、あるユニットの出力は、接続の強さによって重み付けされた前のユニットの出力に依存する。例えば、Gibsonら[ 15 ]は、コネクショニストニューラルネットワーク機械学習モデルが、BerryとBroadbentのSugar Production Factoryタスクにおける 人間の行動をうまく説明できることを示している。
事例ベース学習理論(IBLT)は、クレオティルデ・ゴンザレス、クリスチャン・レビエール、ハビエル・レルヒによって開発された、人間が動的タスクでどのように意思決定を行うかに関する理論です。[ 3 ]この理論は、クレオティルデ・ゴンザレスとヴァルン・ダットによって、サンプリングと反復選択と呼ばれる動的タスクの2つの異なるパラダイムに拡張されました。 [ 16 ]ゴンザレスとダット[ 16 ]は、これらの動的タスクにおいて、IBLTが人間の行動を最もよく説明し、他の多くの競合モデルやアプローチよりも優れたパフォーマンスを発揮することを示しました。IBLTによると、個人は蓄積された経験に依存し、記憶に保存されている同様の状況に対する過去の解決策を検索することで意思決定を行います。そのため、意思決定の精度は徐々に、そして同様の状況との相互作用を通じてのみ向上します。
IBLTは、特定のインスタンスや経験、あるいは例が記憶に保存されていると仮定している。[ 17 ]これらのインスタンスは、状況、決定、効用(またはSDU)を含む3つの異なる部分によって定義される非常に具体的な構造を持っている。
インスタンスの事前定義された構造に加えて、IBLTは、認識、判断、選択、実行、フィードバックの5つの段階からなる、グローバルで高レベルの意思決定プロセスに依存しています。[ 16 ]人々は特定の環境の状況に直面したとき、記憶から類似のインスタンスを呼び出して意思決定を行う可能性があります。非定型的な状況(過去に遭遇したどの状況とも類似していない状況)では、記憶からの検索は不可能であり、人々は意思決定を行うためにヒューリスティック(記憶に依存しない)を使用する必要があります。定型的でインスタンスを検索できる状況では、類似インスタンスの有用性の評価は、必要性レベルを超えるまで行われます。[ 16 ]
必要性は通常、意思決定者の「願望レベル」によって決定されます。これは、サイモンとマーチの満足度戦略に似ています。しかし、必要性レベルは、時間的制約などの外部環境要因によって決定される場合もあります(医療分野において、緊急治療室で医師が時間的に厳しい状況にある患者を治療する場合など)。必要性レベルを超えると、最も効用の高い事例に関する意思決定が行われます。意思決定の結果は、受け取った時点で、最初に意思決定に使用された事例の効用を更新するために用いられます(期待値から経験値へ)。この一般的な意思決定プロセスは、経験に基づいて意思決定が行われるあらゆる動的な意思決定状況に当てはまると想定されています。
IBLTの計算表現は、認知の一般理論であるACT-Rによって提案された複数の学習メカニズムに依存しています。現在、IBLTには人間の行動を正確に再現・説明する多くの意思決定タスクが実装されています。[ 18 ] [ 19 ]
フィードバック介入はDDMタスクのパフォーマンスに有益であることがわかっていますが、結果フィードバックは単純で、認知能力が低く、繰り返し練習されるタスクに効果があることが示されています。 [ 20 ]例えば、IBLTは、DDMの状況では、結果フィードバックのみからの学習は遅く、一般的に効果がないことを示しています。[ 21 ]
DDMタスクにおけるフィードバック遅延の存在と参加者によるその誤認は、DDMタスクにおける最適なパフォーマンスの低下につながります。[ 22 ]このようなフィードバックの遅延は、意思決定者の行動と動的システムからの結果の間に遅延があるため、タスクのシステムダイナミクスを支配する関係性を人々が理解することを困難にします。
フィードバック遅延の影響のよく知られた例として、ビール流通ゲーム(またはビールゲーム)が挙げられます。このゲームには、役割による発注から注文されたビールケースの受領までの間に時間遅延が組み込まれています。役割のビールが不足した場合(つまり、顧客の現在のビールケース需要を満たせない場合)、ケースごとに1ドルの罰金が科されます。このため、人々は将来の予期せぬ需要を満たすためにビールを過剰に在庫する可能性があります。結果は、長期的には安定した均衡を予測する経済理論に反し、人々が過剰に発注することを示しています。これは、発注から在庫の受領までの時間遅延により、人々は新しい注文が入ってくると在庫が不足すると考え、反応してより多くの注文を行うためです。在庫が積み上がり、注文が入ってくると認識すると、人々は将来の注文を大幅に削減します。その結果、ビール業界は過剰発注と不足発注の振動パターン、つまりコストのかかる好況と不況のサイクルを経験することになります。
フィードバック遅延の影響に関する同様の例は、過去にNEWFIREと呼ばれる消防ゲームの消防士の間で報告されており、タスクの複雑さと消防士の行動と結果の間のフィードバック遅延のために、参加者は頻繁に本部が焼失するのを許していました。
DDM における証拠の増加は、ストック、流入、流出を含む単純な動的システムの基本的な構成要素の一部を理解する上で、成人にも大きな問題があることを示しています。多くの成人は、流入が流出を上回る(または下回る)とストック(または蓄積)が増加(または減少)するという、力学の基本原則を解釈できないことが示されています。ストックフロー失敗(SF 失敗)と呼ばれるこの問題は、単純なタスクであっても、参加者が十分に意欲的で、慣れた状況で、情報表示が簡素化されている場合にも、依然として発生することが示されています。ストックがフローのように動作するという考えは、一般的ですが誤ったヒューリスティック(「相関ヒューリスティック」と呼ばれる)であり、非線形システムを判断する際によく使用されます。[ 23 ]相関ヒューリスティックや比例推論の使用は、さまざまな領域で広く行われており、学童と教育を受けた成人の両方において頑健な問題であることがわかっています(Cronin et al. 2009; Larrick & Soll, 2008; De Bock 2002; Greer, 1993; Van Dooren et al., 2005; Van Dooren et al., 2006; Verschaffel et al., 1994)。
DDM課題における個人の成績には大きなばらつきがあり、これはDDM課題に取り組む個人のスキルや認知能力の差に起因すると考えられる。個人差は存在し、DDM課題においてもしばしば見られるが、これらの差が認知能力の差に起因するのかどうかについては議論がある。いくつかの研究では、知能検査で測定される認知能力とDDM課題の成績との間に関連性を示す証拠は見つかっていない。しかし、その後の研究では、この関連性の欠如はDDM課題における信頼できる成績評価尺度が存在しないことが原因であると主張している。[ 24 ] [ 25 ]
他の研究では、作業負荷と認知能力の間に関連があることが示唆されている。[ 26 ]低能力参加者は一般的に高能力参加者よりも優れた成績を収めることが判明した。作業負荷が厳しい条件下では、低能力参加者はトレーニングでもテストでも成績の向上が見られない。低能力参加者は、特により速い試行や時間的プレッシャーが求められる課題において、より多くのヒューリスティックスを用いることがエビデンスから示されており、これはトレーニングとテストの両方の条件で見られる。[ 27 ]
実験室のミクロ世界のツールを用いて意思決定を調査するDDMに関連して、近年のDDM研究では現実世界における意思決定に焦点を当てる傾向が強まっています。これは実験室での研究を軽視するものではなく、DDMの基盤となる研究の幅広い概念を明らかにしています。現実世界におけるDDMにおいては、人々は目標設定、計画、知覚および注意のプロセス、予測、理解のプロセス、そしてフィードバックへの対応など、様々なプロセスにより関心を寄せています。これらのプロセスの研究は、DDM研究を状況認識と専門知識へと近づけます。
例えば、DDMの研究では、10年以上の経験や専門知識(運転経験年数で)を持つ運転手は、3年未満の経験を持つ運転手よりも危険への対応が速いことが示されている。[ 28 ]また、経験豊富なため、そのような運転手はそれほど経験の浅い運転手よりも危険の手がかりをより効果的かつ効率的に探す傾向がある。[ 29 ]このような行動を説明する方法は、DDMタスクでの状況認識により、熟練した人にとっては特定の行動が自動的に行われるという前提に基づいています。この点で、経験豊富な運転手にとっては危険につながる可能性のある環境内の手がかりを探すことは自動的なプロセスである可能性があるのに対し、初心者の運転手の状況認識が不足していると、そのような手がかりを意識的に非自動的に見つけようとする努力をすることになり、危険にまったく気付かなくなることで危険に遭遇しやすくなる可能性があります。この行動は、パイロットや小隊長についても文書化されています。[ 30 ]仮想現実戦闘シミュレーターにおける初心者小隊長と経験豊富な小隊長の考察では、経験が多いほど知覚能力と理解能力が高くなることが示されています。つまり、様々なDDMタスクの経験は、意思決定者の状況認識力を高め、知覚能力と理解能力を高めるのです。
関連分野