断続的な障害

間欠性故障は単に「間欠的」[要出典](または逸話的に「インターフェイリング」[要出典])とも呼ばれ、通常は不規則な間隔で、他の時間帯には正常に動作するデバイスまたはシステムにおいて発生する故障です。間欠性故障は、コンピュータソフトウェアを含むあらゆる技術分野に共通しています。間欠性故障は、複数の要因(その一部は事実上ランダムである可能性があり、同時に発生する)によって引き起こされます。システムやメカニズムが複雑であればあるほど、間欠性故障が発生する可能性は高くなります。

間欠的障害は、その複雑な動作パターンのため、容易に再現できません。これらの障害は常に発生するわけではなく、予測不可能な方法で消滅するため、「ソフト」障害と呼ばれることもあります。対照的に、「ハード」障害は、一定期間にわたって(または瞬間的に)発生する恒久的な障害です。これらの障害には、特定の障害部位(障害の発生場所)、モード(障害の発現方法)、およびメカニズムがあり、障害が発生したシステムの予測不可能な回復方法はありません。間欠的障害は容易に再現できないため、恒久的な障害よりも、障害解析の実施、根本原因の解明、または障害部位の特定が困難です。[1]

断続的な故障は、電子製品やシステムにおいて、故障が見つからなかった(NFF)状態を引き起こす原因となることがあります。NFFとは、製品の使用中に故障(不具合)が発生した、または発生したと報告されたことを意味します。製品の分析やテストが行​​われましたが、「故障または不具合」は発見されませんでした。NFF現象の一般的な例として、コンピューターが「ハングアップ」することがあります。明らかに「故障」が発生しています。しかし、コンピューターを再起動すると、多くの場合、再び動作します。NFFと断続的な故障の影響は甚大になる可能性があります。その特性上、メーカーは時間とコストをかけて根本原因を特定するよりも、原因を推測してしまうことがあります。例えば、あるハードドライブサプライヤーは、NFFは故障ではないと主張し、すべてのNFF製品を現場に返品することを許可しました。その後、これらの製品の返品率が大幅に高いことが判明し、NFF状態は実際には製品の断続的な故障によるものであることが示唆されました。その結果、メンテナンスコストの増加、機器の可用性の低下、顧客の不便の増加、顧客からの信頼の低下、企業の評判の失墜、場合によっては潜在的な安全上の危険が生じました。[2]

物理システムにおける事実上ランダムな原因の簡単な例としては、回路の配線またはコンポーネントにおける境界線上の電気的接続が挙げられます。この場合、(原因 1、特定して修正する必要がある原因)2 本の導体が、(原因 2 、特定する必要がない)温度、振動、方向、電圧などの小さな変化を条件に接触する可能性があります(これは、「障害」ではなく「断続的な接続」と説明されることがあります)。コンピュータ ソフトウェアでは、プログラムが(原因 1)初期値がゼロである必要がある変数の初期化に失敗することがあります。プログラムが開始前にメモリがほぼ常にクリアされている状況でプログラムを実行すると、(原因 2)変数が格納されているメモリが事前にゼロでない場合という まれな状況でプログラムが誤動作します。

断続的な障害は、個々の要因だけでは問題を引き起こさないため、特定と修復(「トラブルシューティング」)が非常に困難であることが知られています。そのため、実際に故障が発生している間にのみ要因を特定できます。問題を特定して解決できるのは、通常のオペレータであることはほとんどありません。故障のタイミングは予測不可能であり、デバイスまたはシステムのダウンタイムとエンジニアの時間の両方にコストがかかるため、許容できない問題や危険を引き起こさない限り、故障は頻繁でない限り、単に許容されることがよくあります。たとえば、生命維持装置などの重要な機器における断続的な障害は、患者の死亡につながる可能性があり、航空分野では飛行の中止や場合によっては墜落につながる可能性があります。

トラブルシューティングのテクニック

断続的な障害を解決するためのいくつかの手法は次のとおりです。

  • 障害が明らかになるまでの十分な時間にわたって、関連するパラメータを自動的に記録しておくと役立ちます。障害発生時のパラメータ値から原因を特定し、適切な是正措置を講じることができます。
  • 障害が発生している間に動作環境を変えて、障害が一時的に解消されるか、あるいは変化するかを確認します。例えば、部品を軽く叩いたり、冷凍スプレーで冷却したり、加熱したりします。キャビネットを叩くと、障害が一時的に解消される場合もあります。
  • 同一または類似の機器で解決された類似の障害のデータベースを保持する[3]
  • 故障箇所の特定を試みることなく、予防的な変更を行う。例えば、リップル電流にさらされる電解コンデンサは、故障箇所のトラブルシューティングを一切行わずに、日常的な処置として交換する。コネクタを外して再接続するといった方法もある。これは時に、窮余の策となる。故障が発生しなくなるまで変更を続け、故障が潜在状態ではなく実際に解決することを期待する。
  • 電気システムやケーブルシステムでは、時間領域反射測定法が用いられる。パルスを電線に送り、反射してきたパルスを検査して異常がないか調べる。例えば、航空機の運航ストレス中に断続的に発生する漏洩などである。これは一度に1つのテストチャネルに対してのみ実行でき、通常は100ミリ秒を超える断続的な障害に限定される。[4]
  • 複雑な複数チャネルシステムにおいて、相互接続部に障害が発生する可能性がある場合、断続的な障害を発見する理想的な方法は、すべてのチャネルまたは電気経路を継続的かつ同時に監視、検出、分離することです。この方法論により、試験対象システムは、システムへの環境ストレスをかけながら、継続的かつ完全な試験カバレッジの恩恵を受けることができます。このタイプの試験はスキャン試験技術では実施できず、スキャンやデジタル平均化を必要とせずにこれらの試験を実行できる何らかの電子ニューラルネットワークが必要です。この試験体制は、2015年3月に発行された国防総省のMIL-PRF-32516で規定されており、断続的な障害に効果的に対処するために、クラス1カテゴリーで動作する試験技術を求めています。[5]
  • 集積回路における断続的な動作を軽減するための主な手法は、動的命令遅延、コア周波数スケーリング、スレッドマイグレーションの3つです。プロセッサがプロセスの実行に予想以上の時間を要すると、時間遅延とタイミング違反が発生します。この障害は、動的命令遅延などの手法を用いることで回避できます。これは、システム実行中にスケジューリングの優先度を計算するアルゴリズムの一種です。その目的は、変化する状況に動的に応答し、自立的に最適化された構成を形成することです。遅延を軽減するもう1つのアプローチは、コア周波数スケーリングです。これは、CPUの性能を、必要な周波数が低い場合は低い周波数にスケールダウンし、必要な周波数が高い場合は高い周波数にスケールアップします。スレッドマイグレーションは、断続的な障害を克服するために使用されるもう1つの手法です。スレッドとは、コンピュータに正確に何をすべきかを指示する、順序付けられた命令セットです。特定のスレッドに障害が発生すると、障害が発生したコンピュータコア内のスレッドの内容がアイドル状態のコア内の別のスレッドに転送され、そこで問題が対処され解決されます。[1]

参考文献

  1. ^ ab Bakhshi, Roozbeh; Kunche, Surya; Pecht, Michael (2014-02-18). 「ハードウェアとソフトウェアにおける断続的な障害」. Journal of Electronic Packaging . 136 (1): 011014. doi :10.1115/1.4026639. ISSN  1043-7398.
  2. ^ Qi, H.; Ganesan, S.; Pecht, M. (2008年5月). 「電子製品における無故障および断続的故障」. Microelectronics Reliability . 48 (5): 663– 674. Bibcode :2008MiRe...48..663Q. doi :10.1016/j.microrel.2008.02.003.
  3. ^ データベース「Highlandelectrix PANASONI.TV」における断続的なテレビ障害の例。2009年4月13日時点のオリジナルよりアーカイブ2010年7月19日閲覧。: 「Z3T シャーシ - 起動しない - 断続的。D1124 (5.1V) ツェナー リーク」
  4. ^ 「断続的な障害の位置を特定するための拡散スペクトル時間領域反射測定法」archived 2010-05-01 at archive.todayFurse, Cynthia ; Smith, Paul; IEEE SENSORS JOURNAL, VOL. 5, NO. 6, DECEMBER 2005」
  5. ^ 「欠陥なし、再テストOK、重複不可、それとも欠陥なし? - 標準化された分類法に向けて [1]」サミール・カーン、ポール・フィリップス、クリス・ホックリー、イアン・ジェニオンズ
  • ソフトウェアのデバッグに関する議論
  • Sci.electronics.repair FAQ、「断続的な問題のトラブルシューティング」セクションを参照してください。
Retrieved from "https://en.wikipedia.org/w/index.php?title=Intermittent_fault&oldid=1295189089"