EAI/ETL技術者のブログ

EAI/ETL技術者のブログ>データレイク活用の敷居を下げるETLのお話-Hadoop環境でのデータ加工を手軽にしてしまうETLがすごい件-

  • ETLを学ぶ
  • Syncsort DMX-h
  • Hadoop
2018.04.18

データレイク活用の敷居を下げるETLのお話

データレイク活用の敷居を下げるETLのお話-Hadoop環境でのデータ加工を手軽にしてしまうETLがすごい件-

こんにちは!マーケティング担当の寺田です。

今回は、「データレイクの活用」をテーマにお届けします。

ログやセンサーなどのIoTデータ、映像や音声などの非構造データなど、企業が取り扱うデータの量も種類も日に日に増え続ける昨今。

とにかくいろいろなデータを貯め込む使い勝手のよい箱として構築されがちな「データレイク」ですが、
貯めたデータをBIツールなどから「いざ使ってみよう!」と思うと...

  • データが汚すぎて使える状態じゃない・・
  • データをキレイにする前準備に時間も手間もかかりすぎる・・

というお悩みをよく耳にします。

弊社が実施したアンケート調査からも、新しくデータを活用する際に「データの変換や修正、整形、名寄せ」にもっとも苦労されていることがわかります。

新しいデータを準備する際に苦労することは?
(2017年9月アシスト調べ)

分析の工程を100とすると、実際には「データを準備する」ことに全行程の80%が費やされていると言われています。

これでは、分析をスタートする頃にはデータの鮮度はすっかり落ちてしまって、まったく使えませんよね。。。

そこで、データレイク活用の鍵となるのは
「データをどうクレンジングして使える状態にするか?」
ということ。



この絵のように、汚れてしまったデータレイクから、ろ過されたキレイなお水が出てくるのが理想です。

データをクレンジングして、キレイなデータとしてすぐ使えるようにするには、二通りの方法があります。

一つはIT部門を主体にした「ETLツール」というアプローチ。
もう一つは、ユーザー部門(データサイエンティストや分析担当者)を主体にした「データ・プレパレーション」というアプローチ。

データレイクの構築にあたっては、実装手段として分散処理環境(Hadoop)が選択されるケースが増えています。
ですが、Hadoopでデータを加工していくのは、たとえIT部門であっても敷居が高いと言われています。
その敷居、実はETLツールを利用することでその取っ払うことができてしまうんです!

なぜETLツールなら敷居を下げることができるのか?
気になる理由は、ぜひ動画でご確認ください!

データサイエンティストや分析担当者が自ら加工を行うデータ・プレパレーションからのアプローチには「Paxata(パクサタ)」をオススメします!
Paxata(パクサタ)は2年前に日本に上陸したばかりですが、本国アメリカではYahooやCISCO、アバクロまで業種や業態を問わず広く活用される製品です。

データ・プレパレーション(データ準備)って何ができるの?と気になった方はぜひチェックしてみてください!

最後におまけですが、今回のブログで使っているゆるい手書き風の絵は、動画にも登場するETLを愛してやまない技術者:宮本が書いたものです。
個人的にこのゆるさが好きで、この場を借りてご紹介させていただきました(笑)
今回ご紹介した動画をPDFの資料でもご覧いただけますので、気になる方はぜひこちらもチェックしてみてください!
(全編に渡って宮本の絵が満載ですがいたってマジメに作成した資料です)

ATF講演資料ダウンロード

執筆者

2001年アシスト入社。
BI製品のSE、プロダクトマーケィングを経て、現在はDataSpiderを始めとする
データ連携製品、BI製品のデジタルマーケティングを担当。

息子のリクエストで飼い始めた熱帯魚が最近の癒やし。

執筆者

寺田 和歌子(Wakako Terada)

関連している記事

  • Syncsort DMExpress
  • Syncsort DMX-h
  • その他
2018.03.23

ETLの魅力を2分で伝える!動画製作に挑戦した話

最も賢いETLツール「DMExpress」、Hadoop/Spark対応のETLツール「DMX-h」の魅力を2分でまとめた動画のご紹介です!(動画制作時の裏話もあり)

  • ETLを学ぶ
  • Syncsort DMExpress
  • データ移行/ダウンサイジング
2018.03.15

システム間のデータ移行時によくある課題と解決策

異なるプラットフォームやデータベース間でのデータ移行や、移行時にデータモデルが変更するケースなど、データ移行時によくある課題とその解決策を解説します。

DataSpider DMExpress(DMX)

ページの先頭へ戻る