毎月19日は、kabuマシーンの日。kabuマシーン経由の手数料は半額だ。システム障害がその日でなく、前日でよかったね、と言って済ませるのはやっぱり良くないだろう。18日にカブドットコム証券でシステム障害が発生していたそうです。
さて、今回のシステム障害の原因は、休日のメンテナンスで作られたログが消えずにサーバに残ったことにあるらしく、これにより翌日つまり18日(火)の取引時間中、しかも後場の最後の30分というところでログ保存領域の使用率が100%に達してしまったというわけだ。まるで、引分狙いの代表チームが神がかり的な好セーブ連発のおかげでなんとか後半残り30分まで0対0で監督とサポータの期待どおり守り抜いてくれて、これなら逃げ切れるかもしれないなぁと視聴者が眠い目をこすりながらテレビを見ていると、一発レッド→PK→失点→そのまま追いつけずに試合終了という○○の悲劇と名前が残りそうな展開だ。考え方によっては、後30分持ちこたえれば逃げ切れたのにということにもなる。でも仮に回避できても、そのまま気付かずに次の日を迎えてしまい、寄付直後にログ保存領域がいっぱいになって、一発レッド→PK→先制点献上→屈辱的大敗を喫して、kabuマシーンの悲劇と後世に伝えられてしまうよりは、まだよかったのかもしれない。
って、決してそんなことが言いたかったわけではなく、どんな場合でもシステム障害はあってはならないので、十分気をつけてできるだけ障害は回避してくさい。
(あぁ・・・タメになることをもう少し書けよ。俺。)
(カブドットコム証券から会員へのお知らせ)
----------------------------
7/18システム障害について [重要]
7/18(火)発生いたしましたシステム障害の影響により、お客様の円滑なお取引機会を損なう事態を招きましたことにつきまして、深くお詫び申し上げます。これまでの調査結果に基づきまして、障害の原因及び対策について取りまとめいたしましたのでご報告させていただきます。
■経緯
7/18(火) 14:30頃より、注文/約定結果の反映、及び、入金、保証金/証拠金振り替えの反映が遅延いたしました。注文/約定結果の反映につきましては、15:20頃より順次、結果の反映を行い、15:52頃、総てのご注文の反映処理が終了いたしました。
また、入金、及び、保証金/証拠金振り替えの反映につきましても、15:40頃終了いたしました。
なお、7/18(火)の受注内容および執行結果については、弊社SLAサービスに基づき、当該のお客様へは7/18(火) 22:35頃にご案内させていただきましたので、7/20(木)午前9時までにご回答いただけますようお願い申し上げます。
◎精査のご案内は「サポート」メニューの「精査に関するご案内」から詳細をご報告させて頂いております。弊社でご提示差し上げた内容について承認頂けたお客様より順次、値合金処理(差額のお支払い)等事後処理をさせていただきます。
弊社では、受注状況等総て正確に把握しており、原状回復に向けて最大限の努力を持って対応して参ります。
■原因・対策
本障害は、当社バックオフィス(勘定系)データベースサーバにおける、データ更新履歴(ログ)を格納する領域の不足により、発生いたしました。7/15(土)は連休を利用したデータベースの最適化処理を実施致しておりました。最適化処理自体は正常終了し、データベース全体のデータ領域の使用量は10%削減され、良好な結果となりました。しかしながら、この最適化処理での事後処理にて、その結果のログは削除されるべきでしたが、設定不備により、そのログを全て残すような設定となっておりました。最適化処理後の確認においては、データベースに対する動作チェック、CPU負荷などの確認作業を行い、正常に検索、更新処理が行われておりましたが、その状態のまま7/18(火)のオンラインを迎えたところ、14:30頃までの時間において、残りのログ領域が消費され、14:30頃、ログ領域が一杯となり、データベースの書き込み障害が発生し、約定等の取引所からの電文が反映できない状況となりました。
14:30頃、勘定系アプリケーションからのエラーを検出し、直ちに調査を開始いたしました。勘定系データベースに対しては正しく検索が行えていた事から、勘定系アプリケーションに問題があると想定し、勘定系アプリケーションサーバの従系機への切り替えを行う等の対策を行いました。しかし当該対策では改善せず、15:10頃、データベース本体のログ領域が一杯である事を検知し、休日の最適化処理のログを削除する対応を行いました。15:20頃に、反映遅延していた14:30からの約定データを順次反映させ、15:52に全ての反映処理を終了致しました。
本障害の根本原因となった臨時作業における設定不備および、障害からの復旧に時間を要してしまった点につきまして、以下の内容の対策を行ってまいります。
・7/18(火)、予防保守のため、すべてのハードウェアの総点検を行い、データ容量、ネットワークを含めたシステム全体の動作状況確認を実施致しました
・本年8月末迄に、勘定系データベースの空き領域や異常値を検出するための、専用監視ツールの導入を行います。
・本年9月中に、ISO9001・ISMSに基づいた第三者機関による外部監査を実施し、改めて品質管理の強化を図ります。
この度は、大変ご迷惑ご心配をお掛けし誠に申し訳ございません。重ねてお詫び申し上げます。
今回の障害に対する一連の対策を通じて、御客様の信頼を一日も早く回復できるよう、全力を尽くしてまいりますので、今後ともご指導、ご愛顧のほど何卒よろしくお願いいたします。
----------------------------
コメント
コメントする
このブログにコメントするにはログインが必要です。
さんログアウト
この記事には許可ユーザしかコメントができません。