技術部データ基盤チーム データエンジニアの tosh2230 と、データサイエンティストの zaimy です。
2022年4月20日に、Data Engineering Meetup 【ZOZO × GMOペパボ】を株式会社ZOZOさんと共催しました。前半にペパボから2名、後半にZOZOさんから2名の計4名が登壇しましたので、イベントレポートをお届けします。
データ抽出基盤Yetiをつくっている話
このたび構築したデータ抽出基盤Yetiについて、tosh2230 が発表しました。
Yetiの主な役割は、ペパボが運営している各サービスのリレーショナルデータベースからデータを抽出し、データ分析基盤であるBigfootへ転送することです。 下記の三点を目的として掲げており、2022年3月より本番稼働を開始しています。
- データエンジニアリングに関するノウハウの蓄積と共有
- データマスキングやポリシータグによるデータ管理手法の統一
- 運営サービスを横断したデータ活用の推進
AWS->GCPのマルチクラウド構成に合わせたさまざまな工夫をしています。取り組みとしてはまだ始まったばかりですので、今後もブラッシュアップしながら展開していきます。
BigQueryの日本語データをDataflowとVertex AIでトピックモデリング
BigQueryに保存された日本語の文章データをトピックモデリングするためのパイプライン構成や各コンポーネントでの工夫について、zaimy が発表しました。マネージドサービスを活用することでデータサイエンティストだけでもパイプラインを構成することができ、Vertex AIに乗せることでモデルの改善もできるようになりました。
ペパボではトピックモデリング以外にもいろいろな場所で動いている機械学習モデルがあるので、それらも基盤に寄せながら機械学習を活用していきたいと思います。
ゴリゴリのBigQuery活用! メール・Push配信データ生成の仕組み
マーケティングオートメーションにおけるワークフローエンジンの活用や、クエリのリファクタリングについてZOZOの辻岡さんが発表しました。
「なんか似ているけど所々違うクエリが散見される」という悩みについてペパボでも同じ状態が見られるので、クエリを部品化しながらリファクタリングする点を特に興味深く聞きました。個々のクエリにロジックが分散しない、メンテナンス性が向上するなどさまざまな利点があるので、ペパボでもぜひ参考にさせていただこうと思います。また、非エンジニア職などクエリを書くのに自信がない人も、部品を組み合わせたり、部品を参考にしたりしてクエリを書けそうです。
タイムトラベルはじめました 〜時をかけるBigQuery〜
過去時点のBigQueryテーブルに分単位でタイムトラベルできるようにした取り組みについて、ZOZOの塩崎さんが発表しました。
BigQueryが標準で提供しているタイムマシンやスナップショットを上回る機能性と、ChangeTrackingデータで調整するアイデアは大変勉強になりました。また、Table functionsをインターフェースとして用いるのは、BigQueryでのデータ利用において汎用性が高いと感じましたので、ペパボでも活用していきたいです。
最後に
これからもさまざまな取り組みを進めながら、データ基盤・データ活用に関する発信の機会を増やしていきますのでご期待ください!