データ基盤 データ分析

データ基盤チームの振り返り〜ペパボテックカンファレンス#14

データ基盤 データ分析

技術部 データ基盤チームに所属している@tosh2230です。2/25にペパボテックカンファレンス#14が開催されましたが、実は私も登壇しておりました。発表内容をご紹介するとともに、この場を借りて振り返りをしていきたいと思います。

発表内容

「データ駆動の実現を担う事業部横断組織」というビジョンのもと、2021年1月にデータ基盤チームが設立されました。 データ駆動は、日本CTO協会が監修・編纂しているDX Criteriaにおいて掲げられているテーマのひとつです。 社内外のデータを活用しやすい状態にして、経営やビジネスにおける意思決定に活用するための支援を行っています。 データ活用基盤であるBigfootを軸として、これまでの取り組みや登壇時点までにやったこと、これからやっていきたいことをまとめて発表しました。

振り返り

では、発表を通じて得た気づきについて、早速振り返っていきます。

伝わる言葉で説明していない

まずひとつめに、ペパボ社内へ向けて、データ基盤チームが使っている用語を説明していない、ということに気づきました。例えば発表スライドのp.20では、データレイク・データウェアハウス・データマートといった、いわゆる"データ基盤界隈"で使われている用語でデータパイプラインを説明しています。

今回のデータパイプラインの全体像

このあたりを指して、社内から「こうした用語を使って整理をしていることがわかってよかった!」というフィードバックがありました。

データ基盤は、社内のあらゆる人が活用できる可能性をもったシステムです。一撃でつくりあげるような類のシステムではなく(たいていはそうだと思いますが)、コミュニケーションを取りながら業務に寄り添って育てていくものであると個人的に思っています。そのコミュニケーションのなかで、用語の定義が関係者間で統一されている状態というのは、仕事を進めるうえでの土台になります。そうしたコンテキストも含めて「データ基盤を整備する」の範疇であると考えていますので、相手に伝わる言葉で説明ができているか、使っている用語が浸透しているかを確認しながら仕事を進めていきたいと思います。

用語とコンポーネントの紐付けが必要

用語の定義が共有された次のステップを考えたところ、「どのような考え方で基盤を構築しているか」という領域まで伝えられると、さらにコミュニケーションが円滑になっていきそうだな、というところへ辿り着きました。この「考え方」を伝えるにあたってやるべきことを検討したところ、一般的かつ抽象的な概念を指す用語が、具体的なシステムコンポーネントと紐付いていなければ、現状の構成や新たな設計案をスムーズに説明できなさそうである、ということに気づきました。

先の「データレイク」という言葉ひとつをとってみても、「ペパボにおけるデータレイクとは何か?」「Bigfootのどの範囲がデータレイクなのか?」という定義が、まだ明確になっていません。チーム内での使い方としても「データレイク的な」といった、データをその性質でカテゴライズする目的でふんわりと使用しています。その意味するところを定めて、Bigfootという基盤の輪郭をはっきりさせることで、データ基盤チームの考えるコンセプトがより伝わりやすくなるのではと思いました。そのためにも、まずはチーム内で議論を重ねてアーキテクチャを整理・図示した上で、社内報や勉強会などの手段で情報共有していこうと考えています。

採用しなかった選択肢や失敗談に触れる

話が少し飛躍してしまったので元に戻します。最後に登壇における反省を挙げますと、中盤の「直近の取り組み」において、結果だけを提示してしまったという点があります。発表した内容はチーム発足から約3ヶ月で得た成果をベースにしていますが、そこに至るまでに様々な判断、そして幾多の失敗を重ねているという過程があります。他にはどのような選択肢があったのか、選んだ・選ばなかったのはどのような理由だったのか、選んだ末に失敗してしまった原因は何か。そうした過程をも合わせて共有することで、より有益で、より多くの方々に届くアウトプットになったかもしれない、と感じました。 発表時間や構成にも影響する難しい課題ではありますが、アウトプットをつくる上で大切なポイントだと気づくことができましたので、この経験を次に活かしたいと思います。

まとめ

設立して日が浅いこともあり、何を書いてもやっていき宣言になってしまうのが歯がゆいところです。だんだんとチーム内にこなれ感がでてきましたので、今後活動をさらに本格化していきます。

データ基盤チームの次回作にご期待ください!