テックノート

テックノート>データ活用の民主化が始まった
~データ・プレパレーションとは何か?~

  • 情報活用(BI/DI)
2016.11.02

データ活用の民主化が始まった
~データ・プレパレーションとは何か?~

データ活用の民主化が始まった ~データ・プレパレーションとは何か?~

ビッグデータ、IoT、AIといったIT技術の進展に伴い、既存の産業構造やビジネスモデルがかつて無いスピードで変革する時代を迎え、ビジネスのデジタル化が急速に進行しています。データ量は増加を続け、データの種類は多様化し、もはやIT部門がすべてのデータを管理する時代ではなくなりつつあるのかもしれません。データサイエンティストのような少数の専門家だけではなく、より多くのビジネスユーザがデータを活用する、いわば、データ活用の“民主化”が起こりつつある今、データ・プレパレーションという新しい領域にスポットライトを当ててみましょう。


データ・プレパレーション登場の背景


QlikやTableau、Power BIといったモダンBIツールの登場が1つのきっかけとなり、ビジネスユーザがセルフサービスでデータ分析できる環境が整いつつあります。しかしながら、ツールが進化してもデータ分析は良質なデータに対してのみ有効であることには変わりなく、分析の事前準備として、データの収集や結合、変換、整形、補完といった作業を実施する必要があります。データ量が少なければ、例えばExcelでデータ全体を俯瞰し、欠損値や外れ値の確認・修正を行ったり、セルの色分けや、フォント変更などの工夫により、ある種の力技でデータ品質を向上させることも可能でしょう。こういった地道な作業は、日々データと向き合うユーザにとっては、工数のかかる悩ましい作業ですが、データ品質を担保するためには不可避なものと考えられてきたのではないでしょうか。

ある調査によれば、「データ分析者は80%以上の時間をデータ準備に費やしている」という報告がなされており、データ準備の生産性向上が新たな課題として認識され始めています。

Hadoopをはじめとするビッグデータ技術の浸透や、クラウドサービスの普及、IoTの流行などで、あらゆるデータが今後も加速度的に増加することは疑う余地がありません。また、データ量が増大するだけでなく、JSONやXMLなどの非構造型データの増加、さらにはデータストリーミング技術の向上によってデータ生成速度も上がっており、データ準備の工程はより一層複雑化することが予想されます。

つまり、これからますます増大し、多様化するデータを活用する機運が高まる一方で、従来型のアプローチだけではデータを準備することが困難になりつつあると言えるでしょう。このような背景から、最新のテクノロジーを駆使したデータ・プレパレーションという新たなアプローチが誕生したのです。

ビッグデータを含むあらゆるデータをすばやく準備して、アナリストやビジネスユーザに提供し、スピーディな分析を支援すること、これがデータ・プレパレーションの役割です。

データ・プレパレーションの特徴


アシストでは、2016年8月29日にデータ・プレパレーション・プラットフォーム「Paxata」(パクサタ)の取扱開始を発表しました。「Paxata」のキーテクノロジーを通じてデータ・プレパレーションの特徴をご紹介します。

データの概観をビジュアルで把握:
データに精通しているユーザ部門がデータ・プレパレーションのプロセス全体を理解することは大変重要です。そのためには、既存のETLツールのようなデータフローを作成するワークベンチツールではなく、スプレッドシートですべてのデータを可視化できるインターフェースが最適です。また、コーディングが不要であることもユーザ部門がデータ・プレパレーションのプロジェクトに参画する重要なポイントになるでしょう。

AI(機械学習)の活用:
機械学習のアルゴリズムが、データ加工作業において様々な推奨パターンをレコメンドします。例えば、複数のデータセットを結合する場合、すべての値を走査した上で結合キーの組み合わせをデータのマッチ率と共に提示します。また、値にバラツキのある項目(例:フリーフォーマットで入力されたテキスト項目等)に関しては、類似データをクラスタリングした上で、修正候補をレコメンドします。このようなAIによるフィードバックを基に、ビジネスを遂行するユーザ自身がどのようにデータセットを仕上げるのかを確定することで、分析に適したデータをアウトプットすることができるのです。

分散コンピューティング:
可視化された膨大なデータに様々な加工を施し、リアルタイムに結果を確認しながらデータセットを作り上げる一連の処理を最適化するために、エンジンにはSparkベースのインメモリ分散処理エンジンを、データセットを格納するストレージにはスキーマレスなデータ管理が可能なHDFSを採用しています。

近い将来、ビジネスユーザやアナリストのほとんどが分析のためのデータ準備にセルフサービスツールを利用するようになるという予測もされており、データ分析とともにデータ・プレパレーションが今後メインストリームになることが予想されています。

データ・プレパレーションはIT部門の役割?


従来、分析に必要なデータ収集や加工はIT部門がその役割を担ってきました。ここまでに述べてきたとおり、データ分析の対象範囲はIT部門が管理している社内システムだけでなく、クラウドのデータやIoT、M2M、市場データ、SNSなど拡大の一途を辿っています。IT部門にとっては社外のデータは管理対象外であることも多く、分析要件も定めにくいため、従来のアプローチでは対応が困難になってきました。

一方のユーザ部門は、データの中身は知っているものの、ITスキルに乏しく、ETLツールを使いこなすことや、データ加工処理を開発することはできません。したがって、社内外のあらゆるデータを迅速に準備し、活用するためには、IT部門とユーザ部門の積極的なコラボレーションが必要不可欠になりつつあり、データ・プレパレーションはその基盤として期待されているのです。

ETLとデータ・プレパレーション


データ・プレパレーションは、すでに様々なベンダーによって取り組みが進んでいます。QlikやTableauといったBIベンダーは、自社BIツールの新たな機能としてデータ・プレパレーションを実装しつつあり、従来のETL /EAIベンダー各社も、データ・プレパレーションの製品化を進めています。さらには前述の「Paxata」のようにデータ・プレパレーションを独立したソリューションとして提供するベンダーも登場し始めており、今後はデータマネジメントに関わるベンダーの多くがこぞってこの分野に注力していくことが予想できます。

ここで、従来型のデータ統合手法であるETLとデータ・プレパレーションを比較してみましょう。

図1 ETLとデータ・プレパレーションの比較

図1 インターネットへの接続経路


現時点では、データ・プレパレーションはユーザ部門によるアジャイルでライトなデータ活用を志向しており、IT部門が複雑なロジックを用いてデータストアを構築するETLの代替として機能するものではないと言えそうです。データ・プレパレーションを活用する中で、再利用可能な処理が発生した場合は、ETL側に処理を引き渡すか、ETLから処理をAPI経由でコールするなど、両者を共存させることが考えられるでしょう。

IT部門はデータ・プレパレーションと、どう向き合えば良いのか


データ・プレパレーションを導入して直接的な恩恵を受けるのは、ユーザ部門であることは想像に難くありません。では、IT部門はデータ・プレパレーションをどのように捉え、導入していくべきなのでしょうか。

図2 今後IT部門に求められる2つの機能


図2はITR社による「今後IT部門に求められる2つの機能」です。従来型IT機能においては効率の追求という使命を負いながら、新しいIT機能においては、革新の創出を求められています。役割は「デジタル技術によるビジネス・イネーブラ」であり、ユーザ部門がデジタル技術の恩恵を受け、現場の業務でアクションを起こせるようにする、という「イネーブラ(=できるようにする)」の発想が求められる、と指摘されています。

最先端の技術でユーザ部門のデータ活用を支援するデータ・プレパレーションは、企業のイノベーションを生み出すキーテクノロジーとして大きく発展する可能性を秘めています。「ユーザ部門からリクエストされたデータを準備して提供する」のではなく、「ユーザ部門が使いたくなるようなデータ基盤を準備して提供する」という発想を持つことができれば、データ・プレパレーションはIT部門の頼もしい味方になることでしょう。

アシストは、「Paxata」の取り扱いを通じて、データ・プレパレーションという新しい分野をリードし、企業のデジタル・トランスフォーメーションを積極的に支援していきたいと考えています。

最後に、今年8月に総務省が発表した「平成28年版 情報通信白書」では、特集テーマとして、データ・プレパレーションとの関連性が高いIoT、ビッグデータ、AIが取り上げられていました。

図3 ICT成長シナリオにおける実質GDPの押し上げ効果


少子高齢化に伴う労働力不足をこれらの最先端テクノロジーで克服し、イノベーションを起こすことができれば、東京オリンピックが開催される2020年にはGDPが33兆円押し上げられるとの試算がなされています。これを商機と見て、昨今話題の「攻めのIT投資」に舵を切ることができるかどうか…、その鍵はICTに造詣の深い企業のIT部門が握っているのではないでしょうか。

  • 本稿は弊社が信頼できると判断した情報源に基づいて執筆していますがその情報の正確性、完全性を保証するものではありません。また本稿に記載された、弊社意見、予測などは本稿作成時点における弊社の判断であり今後予告なく変更されることがあります。
  • 記載した製品名および社名は、各社の商標または登録商標です。

執筆者のご紹介

アシスト花井 正樹

花井 正樹
東日本技術本部

1996年入社。主にビジネスインテリジェンス分野に従事。米Qlik社が指名するエバンジェリスト“Qlik Luminary”に日本で唯一6年連続で選出され、執筆・講演活動を通じて顧客事例やデータ分析のトレンドを発信している。また、日本市場でのデータ・プレパレーション・プラットフォーム「Paxata」のスタートアップを兼任し、さまざまな角度からデータ活用の課題解決支援に取り組んでいる。

本記事をご覧いただいている方へのご案内

最後までご覧いただきありがとうございました。
本記事でご紹介した製品・サービスに関するコンテンツをご用意しています。また、この記事の他にも、IT技術情報に関する執筆記事を多数公開しておりますのでぜひご覧ください。


関連している記事

  • 情報活用(BI/DI)
2018.02.09

マーケティングオートメーション導入の鍵は連携にあり

「ビジネスのデジタル化」で重要なのは、自社の課題解決に何が必要なのかを理解することです。アシストにおけるMA(マーケティングオートメーション)導入を例に、その背景や課題解決に向けた取り組みについてお伝えします。

  • 情報活用(BI/DI)
2016.04.28

徹底解剖 セルフサービスBIとは何か?

このところ、ビジネスインテリジェンス(BI)の分野では“セルフサービス”という考え方に注目が集まっています。読者の皆さまも聞いたことがあるのではないでしょうか。この連載ではセルフサービスBIを多面的に掘り下げて解説していきます。

  • 情報活用(BI/DI)
2015.10.09

HadoopとRDBMSの進化と米国でのトレンド

ビッグデータの活用においては、データの収集、蓄積、処理/分析という3つの技術を押さえる必要があります。今回はその中でデータ蓄積/処理の中核技術に焦点を当ててみたいと思います。

ページの先頭へ戻る