NTTデータ、全銀システムの重大インシデントに深く関与か
こりゃきつい。 pic.twitter.com/bm1aWgQwPU
— たなかたかゆき (@papico_chupa) October 10, 2023
「50年間対外的な障害が無かったの凄い」という反応と、「稼働から50年経って初めて起きた障害案件、関わりたくない」という反応があり、どちらも「せやな」となった
— シャポコ🌵 (@shapoco) October 10, 2023
2010年前後くらいにSIer不要論が出てそれに乗っかって出来もしない内製に行った連中大体大きな事故起こして死んでるなって感想。
— beepcap (@beepcap) October 11, 2023
なんとか3日目で解消できたのね。よかったよかった。
— 伊藤 祐策(パソコンの大先生) (@ito_yusaku) October 12, 2023
https://www.youtube.com/watch?v=HdrfiDCwy3c
NTTデータならまあやるよなという信頼がある
— 水溶性おでん (@yadsendew_man) October 16, 2023
全銀ネット障害、メモリー不足が要因 事前テスト甘く – 日本経済新聞 https://t.co/MrfMgeiMNW 原因は非機能要件舐めプというNTTデータだったら確かにやりかねんやつだった。最悪だ。というか非機能要件舐めプしてたらテストだって舐めプになるわ。次期RCがもうないからって舐めただろこれ。
— ktgohan (@ktgohan) October 16, 2023
メモリー不足といっても具体的には「どこ」の問題になるのだけれど、基本的に主記憶は「実際の処理規模で実行した状態」でもって最大量を見積もらないとどうにもならない。朝8時30分の開局と同時にアクセル全開が求められる全銀とかでは特にそうなる。というのを中の人が知らんはずもないんだが…
— ktgohan (@ktgohan) October 16, 2023
いま理解できないのが「主記憶不足」が原因であれば動作ログ等からその兆候は障害発生当日には既に見えていないとおかしい。見えてなかったら相当なボンクラだ。そんなわけはないとさすがに思いたい。主記憶に着目しなかったのではなく、「したくなかった」やつがおらんか? とさすがに疑うぞこれ。
— ktgohan (@ktgohan) October 16, 2023
なにせ障害発生翌日も「テストが通らなかった」と全銀が説明しているわけだから、つまり非機能要件の問題の解決におそろしく時間を要したわけだ。いくらオープン系システム(全銀RCはメインフレームの枠外にある)だからといっていまどき「メモリ不足でした」がカットオーバー当日に判明とかヤバすぎる
— ktgohan (@ktgohan) October 16, 2023
Q. つまりどういうことなんだってばよ
A. 全銀RC障害の原因、みずほと同種なのでは説が急浮上— ktgohan (@ktgohan) October 16, 2023
この手の記事は、技術的な話を「技術者以外にもわかるように」間に入った人が翻訳を繰り返して伝えるので、どうしても情報量が落ちる。結果、過度に丸められた話になっている場合がある。そういう前提で読んだ方が良い。(とか言って、単なるメモリ不足の可能性もありますが……)
— doumae (@donz80) October 16, 2023
「これが原因だ」と言うわけではないので注意。(推測ですらないです)
例えば、「共有メモリに置いたデータが破損する」という事象、「処理が少ないとまず発生しないけど、処理が多くなると発生しやすくなる(確率問題)」という事は実際ある。過去にも事例あり。これはなかなか発見が難しい。— doumae (@donz80) October 16, 2023
とはいえさっきも書いた通り、全銀自身が説明した「事故翌日のテストで結果不良と出た」。これが全てなんですよ。つまりテスト自体が甘かったか、下手をすると実施不正があったか。そういう話でもあるわけで。
— ktgohan (@ktgohan) October 16, 2023
今どき32bitで動いてるサーバOSってなんだろ? Windows Serverでも2008が最後だったと思うけど
— (๑╹◡╹๑) (@tsuchie88) October 16, 2023
『関係者によると、7~9日の3連休に実施した中継コンピューターの更新に伴って、機器の基本ソフト(OS)が32ビットから64ビットに変更されたが、必要な容量が確保できない取引が発生したとみられる。』 なんかまたきな臭い話出てきたな。まずOSから?
— ktgohan (@ktgohan) October 16, 2023
なんか関係ない話を記者が自分が理解できる部分を都合よく記事にした感じが。主因ではないんでは?
— (๑╹◡╹๑) (@tsuchie88) October 16, 2023
ただ、いまのところ「原因は非機能要件におけるやらかし」が濃厚になってきたわけです。非機能要件のやらかしは積み重なるほどに悲惨なことになるので、主因でなくても結構引きずった話になる気がしています
— ktgohan (@ktgohan) October 16, 2023
32bitから64bitにOSアップグレード
→メモリ増設したからプログラム処理の負荷上げる
→ヒープ領域ちゃんと確保してなくてドカン
みたいなこと?
それ以外で普通64bitに上げたからってメモリ不足引き起こしたりしないよな…?— ハク (@_HA_9) October 16, 2023
そもそも日本全国の銀行取引が依存してるシステムが冗長化されてなくて単一障害点を複数持ってる時点でどうなの?って話ではあるか
— ハク (@_HA_9) October 16, 2023
事前テストはクリアしてる、ソフトウェアレベルだけでの障害、手数料計算ロジック部分でのトラブルってなるとやっぱヒープがランアウトしたっぽいな
となるとインフラチームの責任なんかな— ハク (@_HA_9) October 16, 2023
クソSIer四天王の最凶の一角である富士通ならまだしも、まぁワイもクソデータ呼ばわりするけど富士通よりは相当マシではあるNTTデータがやっててこの有り様ってのは、我々が「メモリ不足」と聞いて想像するレベルのスペック不足的な何かよりもっと厄介な問題が起きてるんじゃないかという気がしますね
— 🌶️ふくらみかけ (@fukuramikake) October 16, 2023