本記事では、データ活用基盤の変化と、Data Mesh、Modern Data Stackというデータ活用に関わる最新の概念をご紹介します。今回は後半となるModern Data Stackを中心にお伝えします。
Modern Data Stackという考え方
データメッシュのようなアーキテクチャは、今後どのように変わっていくのか徐々に眺めていくことになりますが、ここからは、現時点で参考になる「Modern Data Stack(MDS)」という考え方についてご紹介します。
MDSはフルマネージドサービスを組み合わせた全く新しい世界観の構築手法
昨今クラウド環境への移行が加速化していますが、一般的には、オンプレミスで構築していたデータ活用基盤を一度IaaSへリフトし、部分的にサーバレスなども取り入れ、クラウド環境で運用していくという流れになります。ここでのポイントは、オンプレミスの資産をいかにクラウドで最適化していくか、また、いかにクラウドネイティブ技術にシフトしていくかということです。
MDSは、このオンプレミスからのリフト&シフトという考え方の延長線ではなく、新たにフルマネージドサービスを前提に組み立てる、まったく別の世界観でデータ活用基盤を構築する手法として注目されています。
MDSの構成要素
MDSがどこから始まったかのかは諸説ありますが、一般的にはクラウドDWHの台頭だと言われています。
クラウドDWHは、リソースや可用性といったクラウドのパワーを最大限に発揮し、これまで難しいとされてきた処理や性能を実現します。このクラウドDWHにより、隣接領域のエコシステムがどんどん成長し、LookerのようなクラウドBIに始まり、FivetranのようなELTツール(注:ETLではない。後述参照)、最近ではdbtやDataformに代表されるプロセッシングやリバースETLといった概念も出てきました。このようなクラウドDWHを中心としたエコシステムがMDSの考え方を成長させています。
以下の図に、クラウドDWH、クラウドBI、ELTツール、プロセッシング、リバースETLの関係性を簡単にまとめました。
MDSの中核となるのがクラウドDWHです。従来のETLツールのようなデータの投入・加工を行う「データ・インテグレーション」(左上)や、モバイル・アプリケーションやWebサイトでのユーザー動向などをリアルタイムに連携する「イベントトラッキング」(左下)により、データがクラウドDWHに格納されます。
「プロセッシング」(真ん中左上)は、クラウドDWHの強力なエンジンを利用してデータベース内でデータ加工・データ準備を行います。また、AIや機械学習(真ん中右上)で利用する特徴量やモデルなどもクラウドDWHで管理しようという動きが出てきました。
データ活用・分析については、クラウドDWHのパワーを利用してクエリ型で分析からレポーティングまでを単一製品で幅広くカバーする「クラウドBI」(右上)や、クラウドDWHで整えられたデータをERPなどに投入する「リバースETL」(右下)という考え方も出てきています。
MDS環境は、それぞれ別の会社から提供される製品の組み合わせで構成されているのが大きな特徴で、まさに「エコシステム」と言えますが、昨今は、こういった提供元が異なるツールを横断しデータガバナンスを実現する「データカタログ」や「オブザーバビリティ(可観測性)」製品も登場しています。
MDSの特徴
MDSに共通する特徴は、以下の5点に集約されます。
1. フルマネージドサービスとして提供される
2. クラウドDWHを中心としたサービスである
3. SQL中心のエコシステムでデータを民主化する
4. ワークロードに対してスケーリングも自動化される
5. 各サービスの接続と設定を行うことで構築ができ、運用管理負荷も低い
(https://continual.ai/post/the-future-of-the-modern-data-stack を参考に要約作成)
MDSは、フルマネージドサービスを組み合わせた基盤であるため、データ活用基盤を素早く構築できます。また、自動で設定したり負荷が高まったら自動的にスケールアウトされるなど、自社での運用管理負荷が大きく軽減されます。弊社でもELT、クラウドDWH、プロセッシング、クラウドBIで簡単なMDSを構築してみましたが、驚くほど簡単で、一通り繋げて構築するのに1日もかかりませんでした。もちろんデータの投入やレポートの品質を見るためには時間をかける必要はありますが、基盤構築にかける時間が圧倒的に少ないというのは、かなりの驚きでした。
また、SQLが再注目されていて、MDSでは「SQLさえ使うことができればデータ活用基盤を操作できる」ということがデータの民主化を促進しつつある、と言われています。この点が日本市場でどう受け入れられるのか、筆者も注目しています。
以降で、一つ一つの構成を詳細に解説します。
MDSの中心はクラウドDWH
MDSの中心はクラウドDWHです。代表的なクラウドDWH製品には、クラウドプラットフォーム各社が提供するものと独立型ベンダーが提供するものがあります。
●クラウドベンダー各社が提供するクラウドDWH例
Redshift
BigQuary
Azure Synapse
●独立系ベンダーが提供するクラウドDWH例
Snowflake
クラウドDWHの選定基準ですが、MDSの目的をどこに設定するかがポイントになります。例えば、クラウドプラットフォーム各社が持つサービスでしっかりエンジニアを育てて運用していきたい場合は、各クラウドプラットフォームの製品が選択肢になります。また、事業によって様々なクラウドサービスを利用しているのであれば、どのクラウドプラットフォームにおいてもフルマネージドサービスとしてホスティングされているSnowFlakeのような製品が選択肢になるかもしれません。
Snowflake以外にも、より高速性を訴求するスタートアップ製品が出始めていますし、Snowflake社も単なるDWHという枠組みではなくその範囲を拡大し、いわゆるデータプラットフォーム化の方向へ進んでいるため、業界がどう動いていくかも注目すべきポイントです。
ETL/ELTツール
続いての視点は、ETLとELTです。
従来、様々なデータを抽出し、利用しやすい形に変換・加工してデータベースへ保管・統合する役割を担っていたのがETL/EAIツールでした。ETLでのデータ処理は、抽出(Extract)、変換・加工(Transform)、ロード(Load)の順に行われます。また、ETLの場合は変換処理のためにツール独自の使い方やプログラミングを習得する必要がありました。
一方、クラウドDWHの台頭により、TとLの順番が入れ替わったELTという考え方が注目されています。様々なデータを抽出し、先にクラウドDWHにロードしてから、内部で変換・加工するという流れに変わります。ETLでは変換処理を行うための専用エンジンが必要でしたが、ELTでは不要となり、クラウドDWHのリソースを利用しながら内部で処理するため、新たなスキルを習得する必要もありません。SQLさえわかっていればGUIで対応可能です。
BI/AIツール
フロントとなるBI/AIツールにも変化が生じています。
BIの観点では、CDWHが柔軟なスケーラビリティとパフォーマンスを提供できるため、クエリ型のアーキテクチャと相性が良いと考えられます。パフォーマンスをCDWHに依存できる分、MDSと親和性の高いBIツールはユーザーの使いやすさや表現といった部分に注力しビジュアライゼーションやユーザーインターフェースの手軽さに注力している傾向が見られます。
AIの観点では、モデルを作る前に生成した特徴量をクラウドDWH側に書き込み、そちらで管理・実装することにより、再利用性と開発生産性を高めることができます。ツール側はユーザーがいかにシンプルなプロセスで機械学習に取り組めるか、最新のユーザーインターフェース作成などに注力したり、モデルの最新化やそこからの予測に特化できます。
特にBIでは、クラウドDWHのパワーを活かし、ユーザーが画面展開するごとに都度SQLを発行するツールも出てきています。従来都度クエリーを発行することはデータソース側の負荷が懸念され避けられるところでしたが、クラウドDWHがその負担を担うことで柔軟なフロント部分の開発・試行錯誤を実現しています。それによりユーザー側にとっては分析の自由度が向上します。クラウドDWHを中心にすることでフロントに求められる要件や活用の仕方が変化するという観点でも注目していきたいと考えています。
リバースETL
次にご紹介するのは「リバースETL」という概念です。
従来、基幹システムなどのデータソースからETL処理で抽出・加工されDWHに格納されたデータをBIツールなどで分析してきました。リバースETLでは、ETLやELT処理で整えられクラウドDWHに格納されている分析用のデータを、業務プラットフォームに書き込んで活用するという発想です。例えば、SalesforceやSAP社が提供する業務プラットフォームは、これまでデータソースとして捉えられてきましたが、業務プラットフォーム自体が当初の領域からどんどん幅を広げているため、クラウドDWHに格納されている企業独自のデータを業務プラットフォームに書き込むことでエンリッチメントして活用していきたいというニーズに対応できるようになりました。このようなアプローチを行うプロダクトが登場しています。
筆者もお客様から、付加価値の付いたデータをSalesforce上に書き込み、より深い分析をSalesforce上で行いたいというご要望をいただいたことがあります。
データをデリバリーするための可観測性
MDSの世界での注目領域としてご紹介したいものに「データ可観測性」もあります。フルマネージドで提供されるMDS環境において、リソース監視やジョブ監視といった外形的なものではなく、データそのものに着目しデータ活用基盤の健全性を把握するアプローチです。いかに正確に早くデータをデリバリーするかという観点でデータの状態を観測できるツールが出始めています。
「データ可観測性」ツールは、以下の五つの観点でデータの状態を観測します。
(1)データ鮮度
意思決定において重要なデータの鮮度について、最新なのか、最後にいつ更新されたかをいつでも参照できるようにする
(2)データ分布
「この値は0から5までのはずだが、6や7がないか」といったデータ値が適切な範囲をとっているか、Null値が急激に増えていないかなど、データの値の変化を観測することで信頼性を把握する
(3)データボリューム
急激なデータ量の増加や減少がないかなどを捉え、データの健全性を把握する
(4)スキーマ変更
スキーマが変更された時に、誰が、いつ、どのデータを変更したか把握することでシステム全体の健全性を把握する
(5)データリネージ
データの関連性を上流、下流の双方から捉えることで、影響の把握とデータアクセスの状態を可視化する
上記をまとめると、データ可観測性ツールを利用すれば、ユーザーがあらかじめ設定した条件だけでなく、自動的に判別された変化に対する通知を受け取れ、データの流れを紐解いて、原因や影響をすばやく判断し打ち手を施すことができます。リソース監視やジョブ監視のような外形的な観測ではなく、直接データそのものに着目しデータ活用基盤の健全性を観測するアプローチは今後注目されていくのではないでしょうか。
MDSから学ぶこと
以下にMDSから学ぶことをまとめました。
●クラウド上のフルマネージドサービスが、それぞれのツール同士が連携して稼働しており、
役割が整理された上で選択肢も充実してきている
●フルマネージドサービスを利活用することにより、従来のデータ活用基盤にかかっていた
工数のかかっていた構築の速度が顕著に高速化している
●フルマネージドサービス側に実装されている自動化機能や、インフラを管理する必要が無いことから、
運用負荷がかなり低くなる。
●ELTやData Observability(データ可観測性)、ReverseETL(リバースETL)などの新しい概念は、
今後のデータ活用基盤を考える上で参考とすべきである。
MDSはこれから注目すべき手法です。
データ流通時代のアーキテクチャ
最後に「データ流通時代」というキーワードで少しお話しします。
データは自社利用から異業種間活用へ
現状、データの活用は自社内のデータに留まっている企業が圧倒的に多いと感じていますが、外部環境や顧客行動などを分析するためには外部データの活用が欠かせません。また、グループ間やサプライチェーンという範囲でのデータ活用が実現されていたり、取り組みを始めているケースも多いのではないかと思います。グループ間でデータを共有・活用することで、企業グループとしての価値に繋がっていきます。しかし、将来期待されているのは、異業種間で、信頼性が確保されているデータ流通を実現させることです。つまり、データのマネタイズ化です。
こうなると、データ流通の範囲拡大に柔軟に対応できる基盤構築の検討が非常に重要です。そのために、今回ご紹介したMDSのアーキテクチャを含め、検討していかれることをお薦めします。
データ流通の時代になると、まさに他社にデータを販売していくことになるので、本記事でご紹介したデータメッシュで提唱されている「データ自体がプロダクトになり、その先の利用者が顧客」になります。ここでは、「プロダクトとしてのドメインデータ」という概念を意識していく必要があるかと思います。
最後に
本記事でお伝えしたかったことを以下4点にまとめました。
●モノリシックなデータ活用・統合の基盤だけでなく、分散という考え方も今後のデータ活用基盤
の在り方として目を向けていくことが必要となる。
●今後もデータ活用・分析のニーズは多様化することが予想されるため、変化に対応できる柔軟な
基盤構築の検討も重要である
●MDSのようなフルマネージドサービスだけで基盤を構築するという発想にも目を向けていく
必要がある
●変化の激しい時代、やはりスピードが重要である。
データ活用基盤に関する新しい考え方は次々出てきています。お客様企業においては、ビジネスが変化のスピードに対応できるように、今回ご紹介したデータメッシュやMDSを、今後のデータ活用基盤を考える上で是非参考にしていただければと思います。
また、アシストもしっかり伴走できるように、プロダクトの発掘やプロダクト/サービスの提供に邁進していきます。
執筆者のご紹介
本記事をご覧いただいている方へのご案内
最後までご覧いただきありがとうございました。
本記事でご紹介した製品・サービスに関するコンテンツをご用意しています。また、この記事の他にも、IT技術情報に関する執筆記事を多数公開しておりますのでぜひご覧ください。