EAI/ETL技術者のブログ

EAI/ETL技術者のブログ>データレイク活用の敷居を下げるETLのお話

  • ETLを学ぶ
  • Syncsort DMX-h
  • Hadoop
2018.04.18

データレイク活用の敷居を下げるETLのお話

データレイク活用の敷居を下げるETLのお話-Hadoop環境でのデータ加工を手軽にしてしまうETLがすごい件-

こんにちは!マーケティング担当の寺田です。

今回は、「データレイクの活用」をテーマにお届けします。

ログやセンサーなどのIoTデータ、映像や音声などの非構造データなど、企業が取り扱うデータの量も種類も日に日に増え続ける昨今。

とにかくいろいろなデータを貯め込む使い勝手のよい箱として構築されがちな「データレイク」ですが、
貯めたデータをBIツールなどから「いざ使ってみよう!」と思うと...

  • データが汚すぎて使える状態じゃない・・
  • データをキレイにする前準備に時間も手間もかかりすぎる・・

というお悩みをよく耳にします。

弊社が実施したアンケート調査からも、新しくデータを活用する際に「データの変換や修正、整形、名寄せ」にもっとも苦労されていることがわかります。

新しいデータを準備する際に苦労することは?
(2017年9月アシスト調べ)

分析の工程を100とすると、実際には「データを準備する」ことに全行程の80%が費やされていると言われています。

これでは、分析をスタートする頃にはデータの鮮度はすっかり落ちてしまって、まったく使えませんよね。。。

そこで、データレイク活用の鍵となるのは
「データをどうクレンジングして使える状態にするか?」
ということ。



この絵のように、汚れてしまったデータレイクから、ろ過されたキレイなお水が出てくるのが理想です。

データをクレンジングして、キレイなデータとしてすぐ使えるようにするには、二通りの方法があります。

一つはIT部門を主体にした「ETLツール」というアプローチ。
もう一つは、ユーザー部門(データサイエンティストや分析担当者)を主体にした「データ・プレパレーション」というアプローチ。

データレイクの構築にあたっては、実装手段として分散処理環境(Hadoop)が選択されるケースが増えています。
ですが、Hadoopでデータを加工していくのは、たとえIT部門であっても敷居が高いと言われています。
その敷居、実はETLツールを利用することでその取っ払うことができてしまうんです!

なぜETLツールなら敷居を下げることができるのか?
気になる理由は、ぜひ動画でご確認ください!

データサイエンティストや分析担当者が自ら加工を行うデータ・プレパレーションからのアプローチには「Paxata(パクサタ)」をオススメします!
Paxata(パクサタ)は2年前に日本に上陸したばかりですが、本国アメリカではYahooやCISCO、アバクロまで業種や業態を問わず広く活用される製品です。

データ・プレパレーション(データ準備)って何ができるの?と気になった方はぜひチェックしてみてください!

最後におまけですが、今回のブログで使っているゆるい手書き風の絵は、動画にも登場するETLを愛してやまない技術者:宮本が書いたものです。
個人的にこのゆるさが好きで、この場を借りてご紹介させていただきました(笑)
今回ご紹介した動画をPDFの資料でもご覧いただけますので、気になる方はぜひこちらもチェックしてみてください!
(全編に渡って宮本の絵が満載ですがいたってマジメに作成した資料です)

ATF講演資料ダウンロード

執筆者

2001年アシスト入社。
BI製品のSE、プロダクトマーケィングを経て、現在はDataSpiderを始めとする
データ連携製品、BI製品のデジタルマーケティングを担当。

息子のリクエストで飼い始めた熱帯魚が最近の癒やし。

執筆者

寺田 和歌子(Wakako Terada)

関連している記事

  • ETLを学ぶ
  • EAIを学ぶ
  • 業務システム連携
2019.04.18

働き方改革関連法-労務管理をラクにするETL/EAIツールというアプローチ

2019年4月に施行される改定労働基準法。「ETL/EAIツール」がどのように働き方改革に貢献することができるのか?具体的にご紹介します。

  • ETLを学ぶ
  • EAIを学ぶ
2019.02.27

ETL/EAIツールでデータ連携処理を構築するベストプラクティスとは?(第2回)

データ連携処理の開発にまつわるベストプラクティスを探る連載。第二回目は「データ連携データ処理開発によくある失敗と解決策」についてお届けします。

  • ETLを学ぶ
  • EAIを学ぶ
2019.01.31

ETL/EAIツールでデータ連携処理を構築するベストプラクティスとは?(第1回)

データ連携処理を開発する際の選択肢である「ETL/EAIツール」。他の選択肢と比較しながらデータ連携処理構築時のベストプラクティスを探ります。

DataSpider DMExpress(DMX)

ページの先頭へ戻る