kg_noguの愚痴日記

アラfi親爺が日々の愚痴を綴るブログです。だいたい日韓関係とか。最近はコロナ情報がメイン

予想と全然違っていました(涙 ―― KDDI高橋社長が通信障害を陳謝、原因はコアルーター交換時の不具合

うーむ……
会社側の昨日朝の発表では。
午前中に復旧作業が大方終了する、
みたいな話だったので。
私は
てっきり、
重大な事故ではなくて。
システムの一部に不具合が出た程度、
しかも
人為的なミスの発表もないので、
経年劣化的な機器の破損を思い浮かべていたのですが。
全部ハズレてました(泣
まるっきりの的外れでした。恥ずかしいー。
情報がほとんと出ていない状況での
素人考えはダメですねぇ……(陳謝



さて
昨日、
今回の通信障害について
KDDI社長が記者会見を開き
何が起きているのか説明しました。
で、
なんか当初聞いてなかった話が
どんどん出てきて。
まず、
今回の大規模広範囲通信障害の発端となった、
ルーター不具合ですけど。
定期メンテナンスでの交換時に
不具合が発生したそうな。
って。
それ、
ほぼほぼヒューマンエラーでしょ(驚
当初、
KDDIが発表した内容では、
ルーターに不具合が発生した事だけで。
メンテナンス交換などという情報は出ていませんでした。
なので、
私などは
てっきり
人が特別な操作を一切行っていない
通常使用時の劣化で機械が破損した状況を
想定していたのですが……
機械定期メンテナンス交換時に接続切り替え失敗してエラー出ました、
となれば
話が全く異なってきます。
ルーターの不具合が発生した状況の情報として
まず真っ先に出すべき内容ですよね。
昨日の記者会見で発表された情報では、
これまでも
今回と似たような交換作業を行ってきており
問題なく終了してきた。
と言う話をしていますから。
そうなると、
なぜ今回だけ失敗したのか。
本来問題ないはずの作業がどうして今回は出来なかったのか、
そこにはやはり
何かしらのヒューマンエラーがあった、と
思わざる得ません。



それで、
その後の説明は
社長の話した内容の通りなのでしょうけど。
この会社が発表している『復旧』って言葉。
これが記者会見の場での説明と内容が異なっていて。
これも
かなりおかしな使い方をしています。
ズバリ言ってしまうと、
KDDI側が発表している
『復旧』とは
『機械の交換終了』を意味していて
通常使う『復旧』の意味と異なり、
全くの嘘の報告をしています。
これは
電線=架線の修理、
停電の復旧に例えたら判りやすいのですが。
昨日から起きている
通信障害を
電線が切れて停電した状態、
つまり
多くの一般家庭に電気が流れていない状態、と見なすと。
ここで
電線、架線を修理して繋げ直す場合、
まず、
その地域の
電気の流れを一時的に遮断して
修理作業時に作業員が感電しないようにします。
その上で、
架線を付け替えて、電線を修復します。
そして、
修復確認後に電気を流して(通電して)、
停電を解消する。
ここまで終わって
停電が復旧した、となります。
しかし
KDDIが発表している『復旧』とは
あくまで電線を張り替えた状態までの事で、
その後の通電作業は
この先になります。
依然として電気は流れておらず
停電が続いている状態です。
電気を流して問題があるのかどうかの
修理確認作業は
これから順次行い、
問題なければ電気を流していく、
と。
そのようにKDDIは説明しています。
つまり、
依然として
KDDIが通信に規制をかけていて
通信障害状態は続いており復旧していないのです。、
それは記者会見に出席した会社側の責任者も、そう認めています。



一般的な感覚で言えば
『一部復旧が進んだが
 全面的に復旧できるのは
 現在作業時間の目処が立っておらず
 ここ数日から相当先になります』
とでも言うべき状況でしょコレは。
『機器の復旧が終了』しただけの状態です。
この辺りの説明は、
技術部から出てきた言葉を噛み砕かずにそのまま喋っているだけで
実態を理解していないのか。
それとも、
状況を理解した上で、
被害を小さく見せるために
わざと
このように言っているのか。
この場合、
後者だとしたらかなり悪質です。
通信に本来必要なかった規制をかけて通信障害を発生させつつ、
それが本来の姿で問題ない、
と強弁している
一種の虚偽報告ですから。
この辺は、
会社毎の独自基準で報告を任せるのではなくて、
行政が
ある程度カッチリした指針をだし、指導すべきでしょう。

 

 

 

xtech.nikkei.com

KDDI高橋社長が通信障害を陳謝、原因はコアルーター交換時の不具合とアクセス集中

 KDDIau)の高橋誠社長は2022年7月3日、7月2日午前1時35分ごろから継続している全国的な通信障害について緊急会見を開き「社会インフラを支え安定したサービスを提供しなければならない通信事業者として深く反省している。お客さまには多大なご迷惑をおかけしたことを深くおわびする」と陳謝した。
 今回の通信障害では、音声電話やSMSが一時つながらなくなったほか、データ通信がつながりにくかったり途切れたりといった状態になった。影響を受けた回線数は7月3日午前11時時点の概算で最大約3915万回線。内訳はスマートフォン・携帯電話が同約3580万回線、MVNO仮想移動体通信事業者)向け回線が同約140万回線、IoT(インターネット・オブ・シングズ)回線が同約150万回線、「ホームプラス電話」回線が同約45万回線。
 通信障害のきっかけとなったのは、メンテナンスの一環としてモバイルコア網と全国各地の中継網をつなぐコアルーターのうち、1拠点で旧製品から新製品へ交換する作業。これに伴い通信トラフィックのルート変更を実施している際に「VoLTE交換機でアラームが発生した」(高橋社長)。確認したところ「ルーターのところで何らかの不具合が起き、一部の音声トラフィックが不通になったことが判明した」(同)。
 アラーム発生を受けて、7月2日午前1時50分に当該音声トラフィックの切り戻しを実施したが、「VoLTEでは通信が発生していなくても約50分に1回位置登録が発生する」(吉村和幸取締役執行役員専務技術統括本部長)ことから、切り戻し後に再接続要求が多発するなどして「少なくとも通常の2倍以上」(吉村専務)のアクセスが集中。VoLTE交換機で輻輳(ふくそう)が発生した。このVoLTE交換機の輻輳に伴い、加入者データベースに登録した位置情報をVoLTE交換機に反映できず、加入者データベースでデータの不一致が発生した。
 これを受けて7月2日午前3時以降、負荷低減のため流量制御を実施した。それに伴って、全国規模で音声通話やデータ通信がつながりにくい状態になった。
 復旧見通しについて高橋社長は「復旧作業は西日本で7月3日午前11時に完了し、東日本も同日午後5時30分に完了する見通しだ。全国で徐々に再開しているが、一部エリアでまだデータ通信や音声通話がしづらい状況が残っており、最終的にネットワーク試験の結果を検証したうえで規制を順次解除していく」としている。併せて高橋社長は「個人・法人への補償についても検討していく」とコメントした。

 

 

k-tai.watch.impress.co.jp

au通信障害」KDDI髙橋社長の会見質疑詳報、なにが起きたのか、「ドコモの教訓」は?

 KDDIの髙橋誠代表取締役社長は、2日に発生した携帯電話サービスの通信障害について、3日午前に記者会見へ臨んだ。本誌別記事で、これまで判明した障害の内容についてお伝えしており、本稿では、その説明のあとに実施された、主な質疑応答の内容をまとめた。
 なお、本稿でご紹介する質疑は、会見での順番どおりではなく、話題別に分類している。会見全体で2時間におよび、その多くを質疑が占めた。そのため主だった質問だけの本稿も相当量になっている。
 回答者は、KDDI代表取締役社長の髙橋誠氏のほか、KDDI技術統括本部長の吉村和幸氏。

なにが起きたのか
■■
VoLTE交換機が輻輳(ふくそう、通信網で起きる大渋滞を意味する言葉)となって加入者データベースへ負荷が生じたのか、それとも、それぞれ個別に事象が発生したのか。

□□
吉村氏
 詳細については調査中ですが、一連の動作としては、先にVoLTE交換機のほうで輻輳が発生しました。加入者データベースが、(通話しようとするたびに)、VoLTE交換機へ毎回アクセスしますが、VoLTE交換機で輻輳が発生したため、加入者データベース側でも輻輳が起きた格好です。

■■
障害が起きた設備はどういったもので、どういう障害が起きたのか。またトラフィックの切り替えをした結果、障害が発生して、音声トラフィックが流れなくなったとのことだが、どのように切り替えようとしていたのか。

□□
吉村氏
 トラフィックのルートを変更する作業で、ルーターにおいて、何らかの不具合で障害が発生したと思っています。
 古いルーターから新しいルーターへ交換する予定だったものでした。収容を変更して戻す予定でしたが、収容を変更したときに、通信が不安定になり、切り戻しをしました。

■■
アクセス集中が起きたとのことだが通常の何倍程度か。

□□
吉村氏
 まだ正式なログが取れていませんが、少なくとも2倍以上です。

■■
VoLTE交換機で、バックアップが機能していないように見えるが、どうか。また、台風が来ているほか、参議院選挙の期間でもある。この時期にわざわざ(設備の)交換をしなければいけなかった状況なのか。計画が甘かったのではないか。

□□
髙橋氏
 VoLTE交換機は、全国で18台あります。その意味では、バックアップの交換機は十分あると設計しています。
 今回は、定期的な(日常的な)メンテナンスの中での交換で、それが、このような大事故につながると、なかなか想定できなかった。それは、我々の甘さと捉えています。
 当然、輻輳を発生させること自体、起きてはならないことだと思っています。

■■
台風が来ている時期での定期メンテナンスとのことだが、前回はいつ実施したのか。

□□
吉村氏
 定期と言いますか、部品交換のメンテナンスですので、これ日々実施している通常作業です。毎月あるようなメンテナンス作業です。

■■
メンテナンスは業者へ委託していたのか、自社で担ったのか。

□□
吉村氏
 自社(KDDI)です。


ドコモの教訓、活かしていたが……
髙橋氏
 2021年10月、NTTドコモさんで輻輳の事故が発生したあと、総務省さんから対応策の考え方が示されており、それに基づいて、我々もすべてを見直して、「対応できる」とシミュレーションも設計しておりました。
 輻輳へ対応しながら、サーバーを回復させていくのは、過去の経験からも、かなり大変なものと理解していますし、ドコモさんの事故事例を見て、そういったことが課題になっていました。
 計画が甘かったとのは、その通りなのですが、思想としては、ドコモさんでの事故の教訓を生かした設計思想で対応していました。
 総務省さんではなく、当然、KDDI側の問題ですが、総務省さんも加えていろいろと検証したものでした。それでもカバーできなかったということは、ご指摘の通り、まだまだ甘いと思っており、今後、検証を進めます。
 これだけの台数(18台)があり、耐えられるだろうと思っていましたが、ルーターの交換をきっかけに輻輳に至ったのは、見直さなければいけない大きなポイントだったと思う。


長時間の障害になった理由
■■
今回の事故が30時間以上続いたのはなぜか。

□□
髙橋氏
 記者会見(3日11時開始)の前、10時半時点で、KDDIのオペレーションセンターの責任者と確認したところ、西日本では11時、東日本で17時半に復旧作業を終えるというかたちです。
 このあとの検証にどれだけの時間がかかるのか。我々としては、できるだけ短くしようとしていますが、1時間、2時間で済むとはちょっと申し上げられません。
 VoLTE交換機と加入者データベースの輻輳で、データの不一致という事象が発生しました。1つずつ対処するというかたちで、現在進めております。
 その上で、再度、輻輳しないようにと処理してきていますので、時間がかかってしまったということになります。

□□
吉村氏
 今回の挙動については、まだ検証できていないところがあります。不通の時間がちょっと長かった(ためにリクエストが溜まってしまった)のではないかと思っています。
 各端末(スマートフォンなど)がネットワークにアクセスすると、データベースにアクセスして書き込まれます。そのあと、VoLTE交換機につながって「電話をする」と情報を書き込みます。
 しかし、VoLTE交換機で輻輳が起きたことで、データベースで情報が書き込まれたのに、VoLTE交換機ではそれができず、データが不一致になったということです。

■■
不一致が長引いた要因か。

□□
吉村氏
 「VoLTE交換機で輻輳が起き、負荷を軽減させる」「加入者DBで輻輳が起き、負荷を軽減させる」「データの不一致を修正する」という三段階で示していますが、不一致は長時間になった要因のひとつです。
 加入者DBの輻輳になると、エラーが増えてしまい、その数を減らすような措置をしています。

■■
ルーターの新旧交換は、全国で複数台あるうちの1台の交換がきっかけか?

□□
吉村氏
 はい、そうです。全国に6拠点、ルーターはあります。いずれもVoLTE交換機などのシステムが存在する場所です。
 多摩のVoLTE交換機に収容されていたお客さまがどれくらいか、まだ調査中ですが、全ユーザーのうちの、何分の一かが、再接続を試みようとしたと思います。多摩以外の設備もありますので、そちらにも(再接続の)リクエストが渡ったとは思います。


真夜中に輻輳が発生した理由
■■
夜中の2時に発生したとのことだが、VoLTEでは通話しなくても再接続するという挙動なのか。

□□
吉村氏
 VoLTEでは、50分に一度、ネットワークへ再登録するといった動作をしています。夜間であっても、ずっとVoLTE交換機は動いています。

髙橋氏
 端末によってどうも振る舞いが違うようだ、というのが昨夜の状況でした。iPhoneAndroidで振る舞いが違ったという現象が出ていたと。
 iPhoneは、音声が通らない場合でもデータ通信が保持され、アンテナピクトが立っていない状態でもデータ通信が使える。つまり、LINEやLINEの電話機能などが使えたようです。
 一方、Androidは機種によって違うようですが、障害によって音声がNGだとデータも閉鎖する仕様になっているようです。ただ、一部で、データだけつながったAndroidもあったようです。

■■
交換した新しいルーターが正常に稼働しなかったとのことだが、物理的に故障していたのか、設定など論理的なものや人為的なミスだったのか。

□□
吉村氏
 現時点ではまだ詳細は調査できてませんが、ハード的というよりも、プロセスや設定の問題ではないかと思っています。
 事前に基準を設けて、検証環境で確かめるルールができていますが、実際に何が起きたのかは、これから確かめていき、再発防止策とともにあらためてご報告いたします。


新ネットワークセンター、「見える化」が役立った
■■
昨秋、KDDIが新設した多摩のネットワークセンターが公開された際、なにかトラブルがあれば、自動化により、ワンクリックで対処できるといった話があったが、今回は?

□□
吉村氏
 今回、作業の自動切り替えは走っていませんでした。
 ただ、トラフィックの状況をある程度、リアルタイムに近いかたちで見える化しており、どの程度、復旧しているか、すぐわかるようになっていました。
 輻輳対策の自動化も、もっと早くできるのではないかということは、さらなる研究が必要と思います。


楽天モバイルMVNOへの影響
■■
楽天モバイルへの影響は

□□
髙橋氏
 楽天モバイルさんについては、VoLTE交換機を(KDDI側の自社サービス用と)別に構えていますので、障害が楽天モバイルさんの方に影響はしていません。
 しかし、輻輳を抑えるための規制を実施していますので、そのことが楽天モバイルさんにも影響を与え、ご迷惑をおかけしています。

■■
MVNOユーザーへの影響も同じ程度だったのか。

□□
髙橋氏
 はい、同じです。本社からスタッフを派遣して、MVNOさん、楽天モバイルさんへの情報共有もしていました。
 auユーザーだけ優先するといったことはありません。


5G、3G停波との関連はなし
■■
5Gエリアが広がっているが、今回の件と関連はあるのか。

吉村氏
 全く関係ないシステムですので、5Gとは関わりがありません。VoLTEは5G、4Gともに同じ設備ですので、「5Gだから」ということはありません。

■■
今春、3Gが停波しているが、その影響は。

□□
吉村氏
 3G停波とも関わりがありません。停波する前から、音声通話は、ほぼVoLTEになっていましたので、3G停波で障害が拡大したとは考えておりません。


「復旧作業終了時刻」と「完全復旧」の違いとは
■■
復旧の見通しについて、作業の終了予定が西日本11時、東日本が17時半と示されている。作業終了後の「ネットワーク試験の検証の上で」というのは、どういった作業で、どれくらい時間がかかりそうか。

□□
髙橋氏
 今回の障害では、アンテナピクトがしっかり表示され、データ通信もできるが、音声通話はできないといった現象が起きていますが、KDDIとしても(輻輳を引き起こす要因が大量のリクエストであり、その量を減らすため)音声通話を規制することも実施しています。
 すると、障害として起こっていることが、規制の影響なのか、ほかの影響なのか、きちんと確認していく必要がありますので、それらを確かめた上で、最終的に再開としたいと考えています。
 徐々にネットワークが開いていくということになります。それと並行して試験検証を進めますので、「何時間で終わり」というものではなく、徐々に進めながら、お客さまからの声を見ながら、全国でつつがなく通信できることを確認していく。その作業の繰り返しになると捉えていただければ。
 「このバグを取り除いたからOK」というわけではなく、サービスを徐々に再開していきますので、そのようにと表現しています。すべてのネットワークが正常に動いているか、ログやお客さまからのクレームを見ながら、収束を宣言することになります。

■■
「いつ復旧」と報道できるか教えてほしいのだが、だいぶ長引いてしまうのか。

□□
吉村氏
 ある方はこのタイミングで、別の方は違うタイミングで復旧するということになります。全国で影響しておりますので、「サービスが徐々に再開してます」とアナウンスすることが我々のできることでして、お客さまの状況を見た上で、最終的な復旧宣言をしたいと、そのような流れで考えています。
 (会見中は)50%の発信規制をしています。それを取り除くことになりますが、(11時に復旧作業を完了している)西日本についてはまだ規制中です。データ通信はできるが、音声通話はしづらいという状況だと思います。


障害が与えた社会への影響について
■■
緊急通報できなかったと思う。そのことをどう考えているか。

□□
髙橋氏
 重要通信を届けられなかったことは、非常に大きな課題です。音声通話が復旧できると、当然、緊急通報も回復できていくことになります。

■■
緊急通報ができなかったということで、人命にも関わる影響が出たと思う。社長の経営責任は。

□□
髙橋氏
 これだけ大きな事故を起こしてしまったことは、非常に申し訳無いと思っていますし、当然、経営者として大きな責任があったと思います。
 ただ、今は、一刻も早く復旧しなきゃいけないと思っています。事故を真摯に受け止めて、一刻も早く復旧を目指したい。今日のところはそのような話とさせていただきます。
■■
KDDI回線を用いる法人への影響も結構大きかった。自動車や気象、銀行、交通と業種はバラバラだが、それらに影響を与えた要因は?

□□
森 敬一氏(KDDI副社長、法人営業担当)
 障害による影響を与えた要因のひとつは、法人のお客さまも、個人のお客さまと同じように、スマートフォンを契約していただいております。
 IoTサービスでは、電力のスマートメーターや、自動車向けのコネクテッドサービスからサービスデスクへ電話をかけるといった分野で影響が出ております。

■■
法人も、個人と同じシステムだったということでいいか。

□□
森氏
 はい、共通のものです。

■■
B2Bで、通信モジュール系の障害が、いつ始まり、いつ収束するのか。

□□
森氏
 基本的に個人向けサービスと同じです。

■■
IoT回線への影響が最大150万回線とのことだが、KDDI保有するIoT契約数からすれば、少ないのでは?

□□
髙橋氏
 2022年6月末時点で、IoT回線は国内1500万件、海外100万件であわせて1600万件です。
 そのうち150万件というのは、音声通話が止まったことでSMSも止まってしまい、SMSを使うIoT回線が影響を受けたということになります。たとえばテレメーター(スマートメーター)は影響を受けていないということになります。


ユーザーへの情報発信について
■■
高齢者の方を中心に、auショップへ詰めかけたほか、そもそも通信障害が起きてることを知らない方が多かったのかという印象がある。Webサイトで障害情報を掲載していたが、障害が起きているとWebサイトも見られないのではないか。

□□
髙橋氏
 auショップで本当に多くのお客さまがお並びいただいて、たくさんのご意見をいただき、本当に申し訳なく思っています。
 障害の広報活動については、データ通信ができない、音声通話ができないということでしたが、パソコンであればご覧いただけるのではないかということで、掲載しております。
 ただ、確かにお年寄りの方などには十分ではなかったという点は真摯に受け止めたいですが、方法はなかなか難しいところがあります。メディアでも数多く取り上げていただき(KDDI側では)あえてそこまではやらなかったということになります。

■■
生活基盤、インフラへの影響についての質問もたくさんあった。KDDIにとって顧客となる法人ユーザーのサービスへの影響について、KDDIからは説明しづらいとは思うが、一元化して情報をまとめる方策について、総務省が担う役割かもしれないが、どう考えているか。総務省と何らかの話をしているのか。

□□
髙橋氏
 5Gは、IoTを含めたデータ基盤になっていくと思っています。今回の障害が当社の法人のお客さまを介して、いろいろなご迷惑をおかけし影響が大きかったと思っています。
 当社の法人担当も障害が発生して、いの一番で新宿の拠点に駆けつけて、お客さまに対応してきました。
 今回の説明会では、(法人の)お客さまから了解を得ながら進めなければいけませんから「物流」「自動車」などといった表現にしています。(それら法人のサービスを使う個人ユーザーは)KDDIの直接的なお客さまではないため、法人のお客さまに向き合いながら、その先にいる(KDDIの法人顧客の)お客さまへ対応することになります。
 ただ、もう少し情報の出し方があるのかもしれません。宿題として扱わせていただきたいです。

障害現場に「総務省から初めて来た」
■■
金子総務大臣が会見で、「重大な事故」との認識を示したほか、利用者に対する情報の共有が十分でなかったと指摘しています。

□□
髙橋氏
 10時からの金子総務大臣の会見を見させていただきました。我々も重大な事故と捉えています。まずは障害を収束させることを第一にしており、しっかり対応していきます。総務省には、障害発生時に報告しております。
 総務省からも現地に駆けつけていただき、いろいろと指摘をいただきながら対応しています。
 そして安易な表現で公表すると、かえって混乱を招く可能性があると考え、できるだけ慎重に広報活動をしてましたが、総務省から「もう少しお客さま目線で広報すべき」といったお叱りも受けました。
 1時間おきにお知らせを更新してきましたが、その内容もできるだけ復旧時間なども記載した形で、3日1時から対応するようにしました。
 総務省からは、かなりのポジションの方がお見えになって話を伺っています。そこで情報を共有することで、連携しながらしっかり対応していきたいと思っています。沖縄セルラーの担当者も会議に出席して対応しています。

■■
総務省から担当者が駆けつけたとのことだが、これは通常からよくあることなのか。特別だとしたら、なぜか。

□□
髙橋氏
 通信障害の(対応する)現場に、総務省の方が来られるのは、初めての経験です。
 3000万を超えるお客さまにご迷惑をかけ、しかも長時間になってしまいました。土曜・日曜であり、沖縄や奄美のほうに台風が来てるとのことで、総務省さんからは最初に早期復旧と、復旧時間までの明示、もうひとつ、台風が来ている沖縄・奄美への対応を急ぐように、とのことでした。
 その一環で、会見も開かなければならないと。
 金子総務大臣の会見では、官邸から指示があったとおっしゃってましたけれども、私も、当然、ずっと詰めて連携しながら進めてきました。

■■
まだ復旧する前での会見となった。非常に珍しいと思うし、総務省からの意見という経緯はわかるが、原因や対策の詳細を語れない、歯切れが悪い状況でもある。どう思うか。

□□
髙橋氏
 これまで、通常では、他社さんを含めて、障害が収束し、原因をある程度定めて公表される手順が多いと思います。
 今回、総務省さんの方からのご意見もあったほか、影響範囲が非常に大きいため、社長である私の方から伝えた方が良いといったお話もありました。
 それには、私にも納得感がありましたので説明会を開催することにしました。
 (総務省からは)それでも遅いぐらいだとおっしゃられましたけれども、今日の午前中に、なんとかやろうということでお話をさせていただきました。
 歯切れが悪いと言いますか、復旧対応の最中でございますので、分析がしっかり終わっていません。
 あらためて、障害について、今後の対応など、ご紹介したいと思っています。


補償について
■■
補償をどう考えているのか。

□□
髙橋氏
 カスタマーサービスにも、たくさんご意見をいただいています。今、一律に補償するかどうかは、回答を持ち合わせておりません。もう少し、障害の内容を見た(確認した)上で、補償について検討していきます。カスタマーサービスでもそのように回答しています。

■■
法人顧客への補償は。

□□
髙橋氏
 法人のお客さまについては、契約によってさまざまなサービスを提供していますが、その契約のあたりも踏まえながら検討していきます。