本日、日本国内で大規模なネットワーク障害が発生しました。
モバイルスイカのサービスにつながりにくい、楽天証券にログインできない、通信アプリのLINEでもサービスが不安定になるなど、日本国内で大規模ネットワーク障害が発生しました。
NTTコミュニケーションの「 工事・故障情報 」では以下のようにアナウンスされています。
故障内容に「インターネット上において大量の経路変動が発生し通信が不安定になる状況になっておりましたが、12:45 頃に復旧致しました。弊社OCN設備に異常はありませんでした。」と報告されているとおり、
モバイルスイカ、楽天証券、SBI証券、LINE、ドワンゴ、メルカリなどこれらの会社サービスに問題があったわけではないですし、OCNやKDDIで障害を引き起こしたわけでもないです。
それでは、「インターネット上において大量の経路変動が発生し通信が不安定になる」とは、一体どのような状況なのでしょうか。新聞記事には以下のように書かれていますが、もう少し詳しく説明していきます。
ネット情報は世界中の事業者の通信網を経由して流れている。経路は通常約65万通りで、ルーターという装置が最新の経路情報を送り合っている。25日の障害は、グーグルが誤った経路情報を7万超配信したのが引き金だったとみられる。誤った情報の大半はOCNに関するもので、OCNの通信網は一時非常につながりにくくなった。あおりで他社でも長時間にわたって接続が不安定になった可能性がある。
ネットワークエンジニアとして正しく説明すると、ここで書かれている「経路」は、正確にはBGPによりアドバタイズされるルート情報のことです。そして、新聞記事には「約65万通り」と書かれていますが、正確には「 約68万のBGPルート 」というのが正しい情報です。65万は過去のBGPルート数であり、現在は約68万ルートあります。※ BGPとは、BGPの技術解説。
次に、「グーグルが誤った経路情報を7万超配信したのが引き金だったとみられる。」とありますが、なぜ突然「 グーグル 」の名前が出てくるのかと言うと、NTTコミュニケーションのAS番号は4713となりますが、NTTコムさんのBGPルータがピアリングしているBGPルータの1つにAS番号が15169があります。このAS番号15169の組織が米グーグルさんだからです。
BGPにおけるピアリングとは、ISP同士が相互にネットワーク接続してトラフィックを交換し合うことです。つまり、NTTコミュニケーションさんとその海外通信事業者とで、ピアリングすることの合意ができていることが分かります。※ IX(Internet eXchange)で行います。
現時点で海外通信事業者が調査中である事から確定情報ではないのですが、「NTTコムさんとピアリングしているAS番号15169の組織(海外事業者)から誤った大量の経路情報がアドバタイズされてしまったことから、通信不安定を引き起こしたり、一度に大量の経路情報を受信したことで、フルルートを受信している企業のBGPルータ―の負荷が高まったケースなどもあり今回の大規模ネットワーク障害が発生した」と説明することができます。
それでは、なぜ誤った大量のBGPルート情報がアドバタイズされたのかと言うと、日経新聞の記事をみると、誤った経路制御は海外通信事業者のオペレーションミスの可能性が高いです。
接続先の海外通信事業者がすぐにIPアドレスの情報を正しい情報に直したことで、通信障害が復旧したという。
日経新聞の記事では、多くの人に分かりやすい情報として伝えるために「IPアドレスの情報を正しい情報に直した」という説明としていますが、これを正確に説明すると「海外通信事業者のBGPルータでアドバタイズするルート情報を正しい情報に設定変更した」ということです。
以上のことから、サイバー攻撃などが原因ではありませんし、日本側の原因ではありません。本日の障害対応を行われたネットワークエンジニアの皆さま、大変お疲れ様でございました。
追記:大規模ネットワーク障害:米グーグル謝罪、誤設定が原因
2017年8月26日追記:米グーグルさんが誤設定であることを認め謝罪をいたしました。
繰り返し申し上げますが、NTTコムさんやKDDIさん側で障害を引き起こしたわけではなく、しかるべき正しい運用が行われていました。そして、モバイルスイカ、楽天証券、SBI証券、LINE、ドワンゴ、メルカリなどこれらの会社サービスも25日は正常に提供されていました。
しかし、海外側での尋常ではない誤設定が原因で、日本でも大規模障害が発生したのです。
どのメーカーの機器で、どのような誤設定でOCN側の7万超のBGPルートを誤って通知させたのかをご報告頂きたいところですが、とにかく全力で再発防止策を講じて頂きたいですね。