トラブルシューティング

ペパボ トラブルシュート伝 - 第12回 コンテナ技術の情報交換会@オンラインで「cgroup と sysfs ファイル トラブルシューティング事例から cgroup を深追いする」を発表しました

トラブルシューティング

セキュリティ対策室の伊藤洋也です @hiboma

10月17日に開催された 第12回 コンテナ技術の情報交換会@オンライン 〜cgroup v1 internal (1)〜 にて 「cgroup と sysfs ファイル - トラブルシューティング事例から cgroup を深追いする」 というタイトルで発表をしました。

弊社のサービスである ロリポップ!マネージドクラウドで遭遇したトラブルから、cgroup の詳細に立ち入った内容を発表としています。

誰のための技術文書ですか?

  • Linux カーネルのトラブルシューティングに興味がある方
  • cgroup v1 や sysfs の実装に興味がある方
  • ロリポップ!マネージドクラウドのアーキテクチャに興味がある方

… という関心を持つ方に、面白く読んでもらえる内容になっていると思います。発表のスライドは Speaker Deck で公開しております。

また、オリジナルの PDF は 私個人の GitHub リポジトリ にも push しています。


私以外のスピーカーも紹介

cgroup v1 の概要を知りたい人は 同時に発表された @ten_forward さんの発表「cgroup v1概要」をご覧になるとよいでしょう。

また、cgroup の実装レベルでの知見を得たい方は @masami256 さんの発表「cgroups とプロセスの生成と終了処理」が参考になることでしょう。

発表動画

YouTube で勉強会の動画をご覧になれます。

私の発表は、以下でご覧になれます。

テックブログでトラブルシューティング事例を公開する意義

今回の発表は、Linux カーネルのレイヤで特殊な条件が揃うと発生する問題を発端として cgroup を追いかけた内容を扱っています。そのため、一般化して直ちに何かに応用できる事例ではありません。しかしながら、トラブルシューティングに当たった際のリアルなログ、コマンド、メトリクスの図も載せて解決までのアプローチを記述しており、Linux の問題を追いかけるケーススタディの一つとして認知していただけると嬉しいです。

会社で提供するマネージドサービスで起きたトラブルの内情を公開するにあたって、ご利用のお客様の信頼を損なうリスクも看過できず、慎重を期す必要があるでしょう。発表に際しては、トラブル・問題を徹底的に分析・解決してサービスの品質向上を図ることを、技術者倫理として自戒しなければなりません。

ペパボのテックブログで、このようなトラブルシューティング事例を継続的に発信していくことによって、情報交換会・勉強会・コミュニティ・業界の心理的安全性を高めていく空気づくりにも僅かながらでも貢献できればと思っております。