データサイエンス データ基盤 データ分析

ペパボにおけるデータサイエンティストの職種要件をまとめました

データサイエンス データ基盤 データ分析

この記事は、datatech-jp Advent Calendar 2021 の10日目の記事です。


技術部データ基盤チーム データサイエンティストの zaimy です。

今回、ペパボの職位制度におけるシニアポジションの一職種として、データサイエンティストの職種要件を整理したので内容を社外にも公開します。

主に、社内でデータサイエンティストについて説明したり、ジュニアポジションの方にデータサイエンティストという職種を知ってもらいこれからのキャリアパスの参考にしていただいたりするために、データサイエンティスト協会とIPAによるスキル定義を元に、ペパボのデータ基盤の定義や、ペパボで活用しているDX Criteria1のテーマに照らして簡潔にまとめたものです。

  1. まえおき: ペパボの職位制度について
  2. データサイエンティストとは
  3. データサイエンティストのスキルセット
    1. 3つのスキル領域の概要
    2. 4等級シニアおよび5等級プリンシパルに必要なスキルレベル
    3. スキルチェックリスト
  4. コミットメント
    1. データサイエンティストのコミットメント
    2. データアナリストのコミットメント
  5. おわりに
  6. 参考資料
  7. 脚注

まえおき: ペパボの職位制度について

ペパボでの職位は1~8等級があり、1~3等級がジュニアポジション、4等級以上がシニアポジションにあたります。

エンジニア・デザイナーの専門職の場合は、等級に応じて4等級「シニアエンジニア」、5等級「プリンシパルエンジニア」などの呼称がありますが、エンジニア・デザイナー以外の「その他専門職」ラインでは4等級シニアおよび5等級プリンシパルのパートナー2がそれぞれの専門性に応じて肩書を名乗ります。データサイエンティストは「その他専門職」のシニアポジションとして、部門や全社で以下に整理する専門性を発揮することになります。

それでは本編です。

データサイエンティストとは

データサイエンティストとは、ビジネス力、データサイエンス力、データエンジニアリング力の3つのスキル領域をベースにデータから情報を導出し、情報からビジネス課題に応える知識を獲得し、知識をビジネス価値として還元するプロフェッショナルです3

データサイエンティストに求められるスキルセット

出所: データサイエンティストのためのスキルチェックリスト/タスクリスト概説 12ページ

データサイエンティストのスキルセット

3つのスキル領域の概要

ビジネス力

分析などのデータ活用を行うためには各サービスで行っているビジネスドメインの知識が必要です。ビジネスで起きる事象を統計や機械学習のフレームで扱う際は「どのような問題として捉えるか」「モデルにどのような変数を用いるか」「変数の値が取りうる値のスケールはどれくらいか」等のドメイン知識に基づく判断が必要な他、結果に人間が意味付けを行うような手法も存在します。対象のビジネスドメインに対する理解が無ければ、データ活用の取り組みは無意味か非効率なものになります。

データサイエンス力

データサイエンティストにとって、適切な手法を選択し統計的なモデリングを行う能力は当然欠かせません。加えて、ここ数年では、ディープラーニングの隆盛を含む機械学習技術の発展・普及によって、実践的な機械学習のスキルも必要になっています。また、これらをペパボにおける実務で用いるためには、Pythonをはじめとするプログラミングの能力を一定レベル有することが必要です。

データエンジニアリング力

分析に用いるデータはあらゆるところに存在していますが、多くの場合において既存のデータをそのまま分析に用いることはできません。このようなデータを分析で利用するためのシステムや、機械学習モデルなどをサービスで利用出来る形に実装するために必要なものが、データエンジニアリングの知識と技術です。

4等級シニアおよび5等級プリンシパルに必要なスキルレベル

IPAとデータサイエンティスト協会による、ビジネス力、データサイエンス力、データエンジニアリング力それぞれの4段階のスキルレベルを参照します。

データサイエンティストのスキルレベル

出所: データサイエンティストのためのスキルチェックリスト/タスクリスト概説 15ページ

各スキルレベルで想定される人物像は下図8の通りです。

ペパボの等級要件と、各スキルレベルのデータサイエンティストが対応できる課題を踏まえると、4等級シニアはAssociate Data ScientistからFull Data Scientist、5等級プリンシパルはFull Data ScientistからSenior Data Scientistにマッピングされます。

成果物の一例として、4等級シニアであれば、全くデータが揃っていない状態から独力で分析企画・DWHへのデータ収集・データ加工などを行い、分析結果のビジネスへの還元や機械学習モデルのビジネス活用ができることが求められます。

各スキルレベルの解説

出所: データサイエンティストのためのスキルチェックリスト/タスクリスト概説 22ページ

スキルチェックリスト

データサイエンティストスキルチェックリスト ver4 を元に、ペパボのデータサイエンティストとして特に必要なスキルをまとめていますが、量が多いためこの記事では割愛します。)

コミットメント

データサイエンティストのコミットメントを記述するために、タスクリストにおける4つのフェーズと、Bigfoot4の収集・分析・活用の3つのフェーズを用います。また、この節ではデータサイエンティストと要件が近いデータアナリストのコミットメントも記述します。

「データサイエンティストにできること=スキル」をまとめたスキルチェックリストに対して、「データサイエンティストが行うこと=タスク」 をまとめたものが「タスクリスト」です。

タスクリストは、スキルチェックリストを補完するもので、実際にどのようなプロセス(業務)スキルチェックリストに記載されているスキルが必要とされるかを整理したものです。5

タスクリストにおける4つのフェーズ

出所: データサイエンティストのためのスキルチェックリスト/タスクリスト概説 30ページ

Bigfootの3つのフェーズは、以下の通りです。DX Criteriaのカテゴリーとマッピングすると、分析フェーズに必要な要素を揃えることでサービスとしては統計的な判断が行えるようになり、活用フェーズに必要な要素を揃えることでシステム化により継続的な改善が行えるようになります。

  • 収集: データが出力され取りまとめられている状態
  • 分析: 取りまとめたデータを視覚化・分析出来る状態
  • 活用: 分析したデータを元に継続的なサービス改善が行えている状態

DX Criteria のカテゴリーと Bigfoot の収集・分析・活用フェーズのマッピング

データサイエンティストのコミットメント

データサイエンティストは、タスクリストの4つのフェーズと、Bigfootの収集・分析・活用フェーズ全体において、データから価値を創出することにコミットします。例えば、業務におけるデータ活用の設計(プロジェクト・システム・運用の枠組み自体を作る)から ELT パイプラインの実装、データ分析・可視化・評価、システム化や運用による業務への組み込みまでのサイクルを行います。また、統計モデルと機械学習モデルの両方を扱います。

データアナリストのコミットメント

データアナリストは、タスクリストの Phase2~3と、Bigfootの分析フェーズに集中してコミットします。例えば、業務におけるデータ活用の設計(プロジェクト・運用の枠組み自体を作る)から 、データウェアハウスのデータを用いて分析・可視化・評価を行い、業務へのフィードバックを行います。また、主に統計モデルを扱います。

データサイエンティスト、データアナリストいずれも、事業部付の場合は会計・予算・マーケティングへの理解と、データ活用を通した施策の成果へのコミットも必要です。

おわりに

以上が、今回整理したペパボのデータサイエンティストの職種要件です。

組織や、分析対象への関わり方によって求められるスキルセットやスキルレベルは変わってくるかと思いますが、現在ジュニアデータサイエンティストとして活動されている方や、データサイエンティストを目指している方の参考になれば幸いです。

参考資料

脚注

  1. 日本CTO協会によるDXのアセスメントツール。ペパボではテーマのうちの一つ「データ駆動」によるサービス改善を推進している。 

  2. GMOインターネットグループでの従業員の呼称。 

  3. データサイエンティスト協会、データサイエンティストのミッション、スキルセット、定義、スキルレベルを発表 より引用、一部改変。 

  4. GMOペパボのデータ基盤の名称。 

  5. データサイエンティストのためのスキルチェックリスト/タスクリスト概説 17ページより引用。