Paxataブログ

Paxataブログ>データプレップとETLは、何がちがうの?

  • データプレップを学ぶ
2019.08.06

データプレップとETLは、何がちがうの?

みなさんこんにちは!アシストでPaxata(パクサタ)製品を主管している花井です。

Paxataはデータプレップという分野の製品ですが、お客様から

「データプレップとETLは、何がちがうの?」

と聞かれることがあります。

そこで今回は、データプレップとETLツールの違いをいくつかの観点から比較してみたいと思います。

データプレップとETL、技術的にはほぼ同じことが実現できる

まずは、ETLについておさらいです。

ETLは、

 Extract(抽出)
 Transform(変換)
 Load(格納)


の略ですね。

データ統合時に発生する各プロセスの頭文字をとったものです。

ETLツールは、開発がしやすいようにユーザーインターフェイス(GUI)が装備されているので、
直観的な操作でデータ加工処理を開発できる便利なツールです。


では、データプレップ(Data Preparation)とは何なのでしょうか?

直訳すると「データの準備」という意味です。

つまり、分析や予測など、データを活用する目的に応じてデータを加工し、準備することを意味します。

データ加工の主な処理としては、

 ・データ接続やデータ収集
 ・複数データの結合
 ・データの変換
 ・データの演算や集計
 ・データのクレンジング


といったあたりでしょうか。

実は、これらの処理は、ETLツールでも、Paxataのようなデータプレップツールでも
どちらでも実現することができるんです。

ということで、
技術的には、ETLとデータプレップで実現できる処理に大きな違いはありません。

3つの観点から、データプレップとETLの違いを考えてみる

それでは次に、両者の違いを3つの観点から比較してみましょう。

1.対象ユーザー

ETLツールには、
ユーザーインターフェイス(GUI)が装備されているとはいえ、
利用するにはデータベースの基礎知識やSQL言語のコーディングスキルといった
一定のITスキルが求められます。

一方でデータプレップには、
Excelのスプレッドシートのような画面や、
視覚的かつ直感的にデータを確認できるインターフェイスが備わっています。

つまりデータプレップなら、ITスキルを持たないビジネス部門のユーザーでも、
データの加工や処理を作成したり、データの品質を改善することが可能です。

2.あいまいなデータの扱い方

ETLツールでは、
まずはデータに内在するスペルミスやノイズ(余分な空白や文字)などを取り除いてから
データの結合などの加工処理を開発していくのが一般的です。

一方で、Paxataなどのデータプレップツールには、
あいまいなデータを処理するためのアルゴリズムが組み込まれているので、
機械学習や自然言語処理機能が、適切なデータ加工をリコメンドしてくれます。

対象システムやデータのバリエーションがある程度決まっている場合は
ETLツールで定義しながら処理を作っていけますが、
そうでない場合は、データプレップでツールからリコメンドを受けながら
必要な加工処理を作っていく方が効率的です。

3.データソースの構造

ETLツールは、
主にリレーショナルデータベースや、CRMやマーケティングなどのアプリケーション、
また、Excelのシンプルな表やCSVといった構造化されたファイルを
データソースとして扱うことを得意としています。

データプレップツールでは、これらに加え、
IoTや様々なクラウドアプリケーションで利用されているJSONやXMLのような、
複雑な形式のデータも簡単にフラット化し、あたかも表形式のように取り扱うことができます。

ETLツールは、
IT部門のユーザーが特定の対象システムやデータをもとに、
ITスキルを駆使してデータを加工するために使われており、

データプレップツールは、
ビジネス部門のユーザーがさまざまなシステムの多様な形式のデータを、
アルゴリズムのパワーを借りながらアドホックに加工する、といったニーズにマッチする
といえそうです。

BIツールにもデータプレップ機能がある?

最近は、BIツールにもデータプレップ機能が実装されつつあります。

QlikやTableauといったBIベンダーは、
自社BIツールの新たな機能としてデータプレップを実装していますし、
今後はデータマネジメントに関わるベンダーの多くが、この分野に注力していくことでしょう。

「特定のBIツール用のデータをすぐに作りたい!」という場合は、
そのBIツールの機能を使うのがよいかもしれませんが、

データプレップは、AI/機械学習でも必要になりますし、
複数のBIツールを目的に応じて導入している企業も増えてきたため、
特定のBIツールのデータプレップ機能では、多様なニーズをカバーしきれないことも予見されます。


データプレップを検討する場合は、
将来的に会社全体で活用できるデータプレップ基盤になり得るかどうかを、
評価項目に入れていただくことをおすすめします。

まとめ

データプレップとETLは、技術的に実現できることに大きな違いはありませんが、
対象とするユーザー層や扱うデータの特性によって向き不向きがあることがおわかりいただけたでしょうか?

比較観点はもっと詳細化することもできますが、まずここで説明した観点でチェックしてみると、
対象のデータや業務がデータプレップ向きなのかどうか、イメージすることができると思います。
ぜひ参考にしてみてください!

【資料】この記事を読まれた方におススメ!

はじめてのデータ・プレパレーション「データ準備の課題を解決する10のヒント」

データ準備の解決策として注目される「データ・プレパレーション」についてのホワイトペーパーです。
データの変換や名寄せ、セルフサービス、ローデータ、クラウドなどのキーワードとともに、必要なデータをスピーディに準備していくヒントをまとめています。

執筆者:花井 正樹


アシスト入社後、主にデータ活用・分析業務に従事。米Qlik社が指名する
エバンジェリスト“QlikLuminary”に日本で唯一6年連続で選出されており、
執筆・講演活動を通じてデータ分析のトレンドや顧客成功事例を発信している。
2016年より、革新的なデータ・プレパレーション・プラットフォーム「Paxata」
の日本におけるスタートアップを兼任している。

執筆者

関連している記事

  • データプレップを学ぶ
  • データ加工の悩みを解決
2019.08.23

Paxataでデータプレップしてみよう!

ログインから、データのプロファイリング、加工、データセットの作成まで、実際のデータプレップの流れをPaxataで進めていきます。

  • データプレップを学ぶ
  • データ加工の悩みを解決
2019.08.22

Paxataとは?

データプレップを採用する企業が、急速に増えています。今回のブログでは、Paxataがどんな製品なのか特長を知りたい!という方向けに、ややエンジニア目線からご紹介します。

Paxata

ページの先頭へ戻る