障害起こるとドミノ倒し式に影響

自然災害とサイバー攻撃への対応は事案対応という観点からは同じ部分もあるが、サイバー攻撃が自然災害と異なるのは、可視化されにくい(気づかれにくい)、地理的なつながりは関係ない、意図的な要素が大きく対応側に動きで続く攻撃が変わる、ヒューマンファクターがより重要になる、といったことになるが本セッションではどのような特徴になるのか具体的に提示してみたい。

現在の企業活動はIT依存が進み、情報システムが止まると業務がほぼ止まってしまう。情報システムはデータや取引の高速大量処理を、24時間365日止まらず続ける。人間の認識を超える超高速で行い、さらにネットワーク経由の分散処理もクラウド・コンピューティングなどにより進んできている。ユーザーには便利だが止まったら一大事。もはや手作業でリカバリーできないレベルに達している。

さらに、ネットワーク経由でシステム同士がつながっているので、障害が発生した瞬間に、ドミノ倒しのように広い範囲に影響が波及してしまう。さらに厄介なことに、どのシステムやプログラムが原因かを特定しにくい。ひと昔前は、顧客とベンダーがほぼ一緒にシステムを作り上げていたので、何か不具合が発生してもどこに問題があるかお互いにわかっていて、電話1本で連携・対応することができた。

今日のようなマルチベンダー体制では老朽化されたモジュールの上に、いろんなアプリケーションが「たこ足配線」のように上乗せされているようなことも多い。さらには設計・開発した人達はとうに引退してしまっており、システム運用・保守に関するスキルの空洞化が発生している。

一般的に、情報システムには、安定性、安全性、堅牢性、可用性、拡張性、柔軟性、信頼性が求められるが、経営効率化(コスト削減、アウトソーシングなど)に伴い全ての機能を維持するのは困難だ。そして1つでも欠けたところから問題が拡散してしまう。

障害は攻撃者にとってお手本

2010年に、ニューヨーク証券取引所で、システムの意図しない連鎖障害によって、高速取引による大量の売り注文が発生し、過去最大の下落幅を記録したケース(フラッシュ・クラッシュ)がある。ダウ平均指数は一挙に前日比マイナス9.2%とブラックマンデー以来の大暴落を記録した。15分ほどで回復したが、原因究明は長期化し、その間、①証券会社の誤発注、②プログラム・ミスなどが原因として報道された。いずれにしても、何らかの理由で売買の需給バランスが瞬間的に崩れたことが引き金となり、HFT(高頻度プログラム取引)や、個別銘柄のボラティリティを制御する仕組みが機能しなくなり、さらに、同一銘柄が複数の市場で取引される市場構造が、問題を増幅させたといえる。

このことは個別最適を求めるシステム群が接続されたシステム(system of systems)は、その集合体が全体最適を実現できるとは限らないということを示しており、また、この現象は意図的に再現可能、つまりサイバー攻撃によっても引き起こすことが可能であるということがわかる。

もう1つの例は、翌年、2011年3月の東日本大震災直後に、大手金融機関の義援金振込受付用の口座設定ミスにより、大規模な振込・ATMサービス障害が発生した事故である。都内2支店の複数の口座にあらかじめ設定されていた上限件数を超える大量の振り込みが集中したことが発端となった。

銀行の口座というのは、いつどこで、いくらおろしたのか、誰から振り込みがあったかログを通帳に記帳印字したり、ウェブ表示できるように保存したりしておく仕組みになっているが、義援金では、短時間に多くの小口を含めて大量のデータが入ってくるので、そういった記帳ができるような形でのデータのログは残さない。その設定を間違えただけで、データがオーバーフローしてシステム障害を発生させ、振込・ATM障害が3日間にわたり発生した。

この問題を起こしたシステムのモジュールにはPL/1という1980年代に金融機関の勘定系システムにつかわれていた開発言語で開発されたプログラムも含まれており、このセキュリティレベルの低いプログラムがまだ大手金融機関で使われていることがわかったことで、意図的にそこを攻撃して上記のような状況が再現可能、すなわちサイバー攻撃によって引き起こすことが可能であることがわかる。

自動化が招く緊急対応力の低下

こういった公開された事故情報や報道により攻撃者には「こういうケースを意図的に再現するためのサイバー攻撃が可能だ」というヒントが与えられ、特定の情報をハッキングで盗み出したり、内部犯行者・協力者を獲得したりなどの手段を通じて攻撃を実行することが可能性となる。サイバー攻撃などによる意図的攻撃により、こういったパニックの再現可能性はあるということだ。つまり、意図的に株価を操作したいような時、あるいは市場や何かを混乱させようとした時、攻撃者はこういった事例からヒントを得て(オープン・ソース・インテリジェンス)どのように攻撃をすればいいかを導き出すのだ。

リスク分析の手法でイベント・ツリー・アナリシス(ETA)という手法がある。これは、何か事象が起こると、連鎖的にどのようなことが起こって行くのかを、木の枝になぞらえて、時間経過とともに展開していく考え方。例えば地震発生によって物理的破壊、津波や液状化が発生するが、その先に情報システム障害も発生する、という起こりうる事象を想定する際にも用いられる。

一方、フォルト・ツリー・アナリシス(FTA)という分析手法は、何か障害発生が懸念されるときに、その障害はどのような原因によって起こり得るのかを遡って分析する考え方。例えば上記の銀行のシステム障害で、他にどのような原因で同じようなシステム障害が起きるかを考えると、停電であったり、システムの統合によるミスであったり、人為的なヒューマンエラーであったり、あるいは、外部犯行やサイバー攻撃も原因になり得る。つまり、多様な要因による再現可能性を意識しなくてはいけないということだ。自然災害だからこうなってしまったというのではなく、その現象はたまたま自然災害によって引き起こされたが、他の要因でも発生する。ここに複数の脆弱性があるということを認識して、それらの脆弱性を潰すことも忘れなく対策していく必要がある。

ETAとFTA、複眼的な視点を持たないと、いつまで経っても特定原因に伴う事案対応だけ限定的に取り組み、その他の要因による事案発生に対応できないということもありえる。

もう1つはシステムの自動化による功罪という点からも対策が求められる。高度に自動化されたシステムにおける人間の仕事は、自動装置が設計通りに動いていることを確認するだけでいい。しかし、それは同時に担当者のモチベーションや緊急時の対応能力の低下を招き、極めてまれにしか起こらない異常を見つけることが難しくなる、というジレンマを生み出している。そのような弱点を突いてくるサイバー攻撃もある。つまり、人間と機械の関係を考えた時に、自動化が進んでいるシステム群に対して、何か通常時でないことが起きた時に、それをどうやって検知できる能力を身に付けるか、ここが大きなポイントになってくる。

非常時に守るもの・捨てるもの

一方で、サイバー攻撃の目的や手法は、高度化、複雑化している。サイバー攻撃は、検知のタイミングが遅れることが問題である。またたとえ検知ができても、原因究明をしている間にどんどん被害が広がるので、障害対応として、情報システムを継続させるだけでなく、能動的に止めるという経営レベルでの意思決定がしっかりできるかが、今問われている。

普通の経営者は情報システムを止めたくないだろうが、これが遅れたばかりに被害が広がるケースが多い。例えば、これ以上システムを動かしておくと、被害が拡大するので、システムの能動的な停止により被害を受けるお客様には迅速に通知をし、同時に記者会見や損害賠償金の支払い等の準備を始める、というような、情報システムを止めることによるインパクトを最小化させる判断をして、それに伴い必要はアクションを適時にとっていく必要がある。判断が遅れたら、ずるずると攻撃をされ続け、対応は後手に回ってしまう。

また情報の機密性を死守しなくてはいけないという考え方だけではなく、場合によってはある程度までは機密性を捨て、ほかの残る情報を守るという判断も必要となる。現場がそれを判断できるような権限委譲やルールの制定と、それらのジレンマを感じながら意思決定するような訓練、演習もしていかなくてはいけない。

現場と経営の間を取り持つCSIRT(Computer Security Incident Response Team)の役割も不可欠だ。今起きているサイバー攻撃による情報システムの障害は経営上どういう影響をもたらすのか、売り上げがどれだけ下がるのか、お客様にどれだけ迷惑がかかるのか、それとも社会全体に迷惑がかかるのか、それはどの程度の規模なのか、どの時点までに経営者はシステム停止などの判断しなければいけないのか、CSIRTは、こうしたインパクトをわかりやすく翻訳し、経営陣に選択肢と共に説明し意思決定を求めなくてはいけない。

演習を行う場合には、システム部門とビジネス部門が別々にやるのではなく、「事業継続」というくくりで、有機的に一緒にシナリオを作り、合同で訓練・演習をして、どのタイミングでどの情報をどう共有・協議していくかなどを検証していくことが大切である。

(了)