Paxataブログ

Paxataブログ>データの民主化を支援するデータ・プレパレーションとは?

  • データプレップとは
2020.07.17

データの民主化を支援するデータ・プレパレーションとは?

数年前から日本企業でも導入が進むデータ・プレパレーション。
なぜ今データ・プレパレーションが必要とされるのか? 本記事では、その背景から活用における大事なポイント、データの民主化を実現する策、を解説していきます。


データ・プレパレーション登場の背景

ビッグデータ、IoT、AI/機械学習の進展により、データ量は増加を続け、データの種類は多様化し、IT部門がすべてのデータを管理する時代ではなくなってきました。

データサイエンティストのような専門家だけではなく、一般のビジネスユーザがデータを活用する
いわば ”データの民主化” が、各企業でも本格化しつつあるのではないでしょうか。

例えば、Qlik やTableau、Power BIといったセルフサービスBIツールや、AI/機械学習ツールの進化によって、ビジネスユーザがみずからデータ分析や予測ができる環境が整いつつあります。

ただしツールが進化しても、データ分析や予測には、質の良いデータが不可欠です。

分析の事前準備として、データの収集や結合、変換、整形といった作業はなくなりません。データ量が少なければ、Excelなどで加工し、データ品質を向上させることも可能ですが、工数のかかる悩ましい作業です。

そのデータ準備に関して興味深い調査結果をご紹介しましょう。

データを扱うプロとも言える、データサイエンティストの方々へのアンケートによると、
「最も楽しめない業務」のトップ3は、

 1位:データクレンジング(60%)
 2位:ラベル付け(51%)
 3位:データ収集(48%)

となっており、データ分析や予測の障壁になっていることが伺えます。

データ・プレパレーション:アンケート 「最も楽しめない業務」


また、ある調査会社によると、
「データ活用において、データ準備に80%の労力が費やされている」という報告がなされています。

さらに今後は、クラウドサービスの普及、IoXの進展などで、あらゆるデータが加速度的に増加していくでしょう。

つまり、これからますます増大し、多様化するデータを活用する機運が高まる一方で、従来のアプローチではデータを準備することが困難になりつつあると言えます。

これらの課題を解決するために登場したのがデータ・プレパレーションなのです。


データ・プレパレーションで大事な3つのポイント

では次に、データ・プレパレーションで大事なポイントを3つご紹介しましょう。


1.データをビジュアルに把握できる

データ準備を効率的にすすめるためには、データの傾向や特性がをひとめで理解できることが重要です。データ・プレパレーションツールには、専門的なITスキルを持たないビジネスユーザーがデータをビジュアルに把握できる機能が備わっています。

こちらはアシストが販売・サポートを提供しているPaxata (パクサタ)の画面です。Excelライクなイメージで、データ全体を理解できるようなユーザーインターフェースを提供しています。

データ・プレパレーション:Paxata画面イメージ


2.ビッグデータ対応

とはいえ、使い慣れたExcelでデータ準備がしたいという方も多いと思います。ただ、対象データが何百万件、何千万件と増えてくると、Excelでは対応できないですよね。データ量の増加にもシステムとして対応できているのかどうかが、2つめのポイントです。


3.AI/機械学習のサポート

データの準備でやっかいなのが、データのクレンジングやデータの結合です。従来は手作業やコーディングで時間をかけて対応してきましたが、AI/機械学習がデータ・プレパレーションツールに組み込まれることによって、最適な処理をレコメンド、つまりオススメできるようになってきました。

これらのポイントを踏まえてデータ・プレパレーションを導入すれば、IT部門やデータサイエンティストの作業は飛躍的に効率化されますし、専門知識を持たないビジネスユーザでもデータ準備をどんどん進められるようになっていくでしょう。


ツールを活用したデータの民主化

こちらは総務省のレポートからの抜粋で、日本と米国の情報処理・通信に携わるICT人材を比較したチャートです。

日本と米国の情報処理・通信に携わるICT人材

データ・プレパレーション:日本と米国の情報処理・通信に携わるICT人材

日本のICT人材は70%以上がベンダーに在籍しており、米国とは比率がほぼ真逆の状態です。

各企業でデータを活用したい、という機運は高まっているものの、サポートするICT人材が社内にいないため、やりたくてもなかなかできない、という状況が伺えます。

ICT人材の育成や獲得には一定の時間がかかりますので、ツールを活用してデータの民主化を進める企業も目立つようになってきました。データ・プレパレーションにおいても、続々とツールを活用した成功事例が生まれています。

みなさんの会社では、データ準備のプロセスに課題はないでしょうか?
ぜひこの機会に見直していただければと思います。


【資料】この記事を読まれた方におススメ!

はじめてのデータ・プレパレーション「データ準備の課題を解決する10のヒント」

データ準備の解決策として注目される「データ・プレパレーション」についてのホワイトペーパーです。
データの変換や名寄せ、セルフサービス、ローデータ、クラウドなどのキーワードとともに、必要なデータをスピーディに準備していくヒントをまとめています。

執筆者:花井 正樹


アシスト入社後、主にデータ活用・分析業務に従事。米Qlik社が指名する
エバンジェリスト“QlikLuminary”に日本で唯一6年連続で選出されており、
執筆・講演活動を通じてデータ分析のトレンドや顧客成功事例を発信している。
2016年より、革新的なデータ・プレパレーション・プラットフォーム「Paxata」
の日本におけるスタートアップを兼任している。

執筆者

関連している記事

  • データプレップとは
2020.03.24

データプレップでよく使われるPaxataの機能 ベスト20

よくあるデータプレップの加工例を取り上げて、Paxataで簡単に解決する方法をご紹介します。皆さまの業務に当てはまるデータプレップはいくつありますか?

  • データプレップとは
2019.08.23

Paxataでデータプレップしてみよう!

ログインから、データのプロファイリング、加工、データセットの作成まで、実際のデータプレップの流れをPaxataで進めていきます。

  • データプレップとは
2019.08.22

Paxataとは?

データプレップを採用する企業が、急速に増えています。今回のブログでは、Paxataがどんな製品なのか特長を知りたい!という方向けに、ややエンジニア目線からご紹介します。

ページの先頭へ戻る