システム障害は再現できる

一般的に、システムには、安定性、堅牢性、可用性、拡張性、安全性、柔軟性、信頼性が求められるが、経営効率化(コスト削減、アウトソーシングなど)に伴い全ての機能を維持するのは困難だ。そして1つでも欠けたところから問題が拡散してしまう。

2010年に、ニューヨーク証券取引所で、システムの意図しない連鎖障害によって、高速取引による大量の売り注文が発生し、過去最大の下落幅を記録したケースがある。ダウ平均指数は14時30分には1万600ドル前後だったが、14時47分には9870ドルと一挙に前日比マイナス9.2%とブラックマンデー以来の大暴落を記録した。15時には1万410ドルまで回復したが、原因究明は長期化し、その間、①証券会社の誤発注、②プログラム・ミスなどが原因として報道された。いずれにしても、何らかの理由で売買の需給バランスが瞬間的に崩れたことが引き金となり、HFT(高頻度プログラム取引)や、個別銘柄のボラティリティを制御する仕組みが機能しなくなり、さらに、同一銘柄が複数の市場で取引される市場構造が、問題を増幅させたといえる。

その後、米証券取引委員会から出された事故報告書では、ある特定銘柄に対する、ある証券会社の取引プログラムの売り反応に、他の証券会社の取引プログラムが呼応して売りの連鎖が急拡大したことが要因とされたが、ポイントは、今回のようなシステム間における人間が意図しない連鎖的な暴走が起きないとしても、サイバー攻撃などによる意図的攻撃による再現可能性はあるということ。つまり、空売りとか、意図的に株価を操作したいような時、あるいは市場や何かを混乱させようとした時、こうした動きをデータとして投げ込めばいい。

もう1つの例は、翌年、2011年3月の東日本大震災直後に、大手金融機関の義援金の振込口座の設定ミスにより、大規模な振込・ATMサービス障害が発生した事故である。都内2支店の複数の口座にあらかじめ設定されていた上限件数を超える大量の振り込みが集中したことが発端となった。

銀行の口座というのは、いつどこで、いくらを下ろしたのか、誰から振り込みがあったかログを通帳に記帳印字したり、ウェブ表示できるように保存しておく仕組みになっているが、義援金では、短時間に多くの小口を含めて大量のデータが入ってくるので、そういった記帳ができるような形でのデータのログは残さない。その設定を間違えただけで、データがオーバーフローして、振込・ATM障害が3日間にわたり発生した。災害時、現地にお金を送りたいとか、あるいは、現地でお金を下ろしたい方が多くいらっしゃったにも関わらず、銀行がそれを全うできなかったという意味では、大変、当事者の方々も、不名誉かつ大きく反省されたケースであろう。

 

リスク分析の手法

リスク分析の手法でイベント・ツリー・アナリシス(ETA)という手法があるが、これは、何か事象が起こると、次にどのようなことが起こり得るかを、木の枝になぞらえて、時間経過とともに展開していく考え方。例えば、地震が起きると、どのようにシステム障害が拡大・波及していくかということが分析できる。

一方、フォルト・ツリー・アナリシス(FTA)という分析手法は、何か障害が発生が懸念されるときに、その障害はどのような原因によって起こり得るのかを遡って分析する考え方。例えば上記の銀行のシステム障害で、他にどのような原因で同じようなシステム障害が起きるかを考えると、停電であったり、システムの統合によるミスであったり、人為的なヒューマンエラーであったり、あるいは、外部犯行やサイバー攻撃も原因になり得る。つまり、多様な要因による再現可能性を意識しなくてはいけないということだ。自然災害だからこうなってしまったというのではなく、その現象はたまたま自然災害によって引き起こされたが、他の要因でも発生する。ここに複数の脆弱性があるということを認識して、それらの脆弱性を潰すことも忘れなく対策していく必要がある。

 

システム自動化の功罪

もう1つはシステムの自動化による功罪という点からも対策が求められる。高度に自動化されたシステムにおける人間の仕事は、自動装置が設計通りに動いていることを確認するだけでいい。しかし、それは同時に担当者のモチベーションや緊急時の対応能力の低下を招き、極めて稀にしか起こらない異常を見つけることが難しくなる、というジレンマを生み出している。そのような弱点をついてくるサイバー攻撃もある。

皮肉な話だが、頻繁に障害が発生するシステムをお持ちの会社は、現場では高度な対応能力を身に付けているわけだが、こうした技量は、サイバー攻撃を実際に受けた時に、検知する力にも役立っているかも知れない。

つまり、人間と機械の関係を考えた時に、自動化が進んでいるシステム群に対して、何か通常時でないことが起きた時に、それをどうやって検知できる能力を身に付けるか、ここが大きなポイントになってくる。