東証記者会見メモ

東証記者会見メモ

経緯

  • 朝07:04, 売買システムのデスク装置の故障し、相場情報配信業務や売買監視業務に異常が発生
  • 注文売買系のサーバー、運用系のネットワーク
  • 運用系のネットワークの共用ディスク装置1のメモリ故障
  • 本来であればフェイルオーバーで切り替わるはずが正常に行われなかった
  • この結果事象として
  • 情報配信ゲートウェイサーバーの配信処理に異常
  • 売買監視サーバーの監視処理異常が発生
  • 情報配信ゲートウェイサーバーから相場情報が配信できなくなった
  • 証券会社からの注文ゲート、参加者ゲートウェイと情報配信ゲートを遮断、売買を停止した
  • 2号機のみで稼働する状態には出来たが、全体の状況を見て売買を開始するためには全体再起動を行う必要がある
  • 故障したメモリを交換、システム全体の再起動、正常に稼働していることを確認
  • 遮断処理、1->2への切り替えを人的に監視を当分行う

質疑応答

  • 故障箇所の特定は?
    • ログから機器の故障だと判明
    • 直接外部と繋がっている部位ではない
    • 監視は常時行なっており、異常はない
  • 過去にも障害があったが?
    • フェイルオーバーができる設計
    • 各サーバーでフェイルオーバーのテストも実装前に行なっている
    • テストは異常なし
    • ハード部分の根本原因は掴めていないが調査中
  • アローヘッドの内と外どこが故障したのか
    • アローヘッドってシステムの名前か
    • 内側
    • アローヘッドはいくつかのサーバーからなる。そのサーバーの一つが故障した
  • 共有ディスクのメモリとは何を保存しているのか
    • ジョブ、機器のid,アドレスなど共有で必要な情報を集めて各サーバーの処理に提供している装置
    • 銘柄の情報などを送るジョブが動かず情報配信ゲートウェイで異常が発生した
    • 取引が始まる前の前処理ができなかった
      • 当日の基準の値段、今日の時間の制約など処理
  • 詳しい説明がHPになかった、売買停止時間いつ?
    • 情報の発信については原因の究明に時間がかかったため
    • ある程度分かった時点で速やかにお知らせした
    • 8時54分に停止した
  • システム障害でハードの故障はレアだけどシステムのミスじゃないか
    • ハードウェアの故障は確認している
    • なぜフェイルオーバーできなかったか究明
  • 責任はどこ?再起動すれば午後にはできたのでは?
    • 責任の所在は、機器を納入しているベンダーさんにはない
    • 既に朝に証券会社から注文を受け付けている。リセットすると連続性が保たれない証券会社側に混乱が生じるため丸一日止めた
  • 同じケースが生じた場合、終日売買停止になるのか?なぜシステム障害が行うのか?原因がわからないのなら正常化しないのでは
    • 注文を受け付けたのちに同じケースになった場合は同じような対応になる
    • 自動的にフェイルオーバーが行われなかった理由の判明はしていないが、故障したのはメモリ、1台でも動作可能なことははっきりしている
    • 強制的に1号機を切断することで人的に対応できる
  • 1台で動かしたことはこれまであるのか?
    • 本番ではないが、テスト済み
  • これまでに同じことがあったのか、最後に交換したのはいつか
    • 2019年11月稼働でまだ1年経っていない
  • 当分人的監視体制行うが当分はいつまでか?今日中にシステム再立ち上げうまくできるのか?できなかった時どうするのか
    • 具体的な条件が掴めるまでは人的監視を行う
    • 正常化の目処は立っている
  • 両方壊れた場合どうなるのか。大規模災害の時はどうするのか
    • 両方壊れた場合は中止になる
    • データセンターはプライマリ、セカンダリとして存在する
    • プライマリの中にあるサーバー
    • セカンダリは大規模災害など起きた場合に稼働させるもの。24時間内に立ち上げられるようなもの