EAI/ETL技術者のブログ

2022.04.28

データレイクとは何か? データレイクへのビッグデータ連携に最適な手法を解説

データレイクとは何か? データレイクへのビッグデータ連携に最適な手法を解説

企業は変化の激しいビジネス環境に対応するために、データに基づいて顧客や社会の反応を把握しつつ、プロダクトやサービス、ビジネスモデルを迅速に変革していくことを求められています。DX(デジタルトランスフォーメーション)が推進される中、 変革の礎として大変重視されているのが、企業内外の様々なデータです。


とはいえ、生のデータをただ貯めるだけでは意味を成さず、AIやBIの分析などで活用しやすい形で貯めておくことが重要となります。そのためにはどのような貯め方が良いでしょうか?

各種データをデータレイクに貯めつつ、活用しやすい形に加工するためには、「データ連携」が必要となります。本ページでは、「各種データソースと連携してデータレイクを活用する」というところに焦点を当てて最適な手法を解説します。


■目次
 ▶データレイクとは何か
 ▶データレイクのメリット
 ▶データレイクのビッグデータを連携する際の課題
 ▶ビッグデータ連携に最適な手法
 ▶まとめ:ビッグデータ連携に最適な手法にはPrecisely Connect

データレイクとは何か

黒と緑のデジタルグラフイメージCG背景

データレイクとは、あらゆるデータを保存できるリポジトリ

データレイクとは、規模に関係なく、あらゆるデータをそのまま保存できるリポジトリです。リレーショナルデータベースのような、行と列で構成された構造化データだけでなく、ドキュメントや画像、音声データのような非構造化データも保存できます。

一般的にデータを蓄積するデータベース、および分析業務で利用するデータウェアハウスは、データを格納する前に構造の定義が必要です。この構造の定義を行うには、十分な知識と技術が求められます。

データレイクは、生データのまま格納する場合もあり、このケースではデータを構造化する作業が不要です。また、そのデータの利用目的や種類を問わず、保存したいデータを格納できます。その分、それらを格納するための大容量ストレージが必要です。

最近では業務で使われる構造化データだけでなく、動画やSNSのログ、IoTから収集されるデータなど、様々な形式のデータが存在します。将来を予測しづらいビジネス環境を考慮し、あらゆるデータを必要な時に利用できる点から、データレイクが注目されています。


「データレイク」というアイデアの誕生と変遷

データレイクという用語は、Pentaho社CTOのJames Dixon氏が提唱したことに由来し、日々増え続けるビッグデータを、生データのまま柔軟に保持するリポジトリの仕組みとして、誕生しました。

従来のデータレイクは各社が自社で構築するオンプレミスが一般的でした。オープンソースで利用できるHadoop上にHDFSを実装し、Hadoopクラスターを利用して処理を行っていました。
しかし、データレイクは大容量ストレージが必要です。大規模なストレージサーバや、それらを設置するためのスペース、データセンターのセットアップなど、非常にコストが高くなるという課題もありました。

現在はその課題への対応として、クラウドを利用する方法があります。クラウドを利用すればストレージサーバおよびそのスペースの確保が不要となるため、コストの大幅な削減につながります。また、従量課金制であるため、費用対効果も得られるでしょう。

クラウドを利用して安価に構築できるようになったことから、データレイクは大企業だけでなく中小企業に至るまで、広く普及しています。


データレイクのメリット

MERITと書かれた単語カード

Amazon S3、Databricks、Azure Synapse Analyticsなどデータレイク運用に適したクラウドサービスの台頭で、データレイクは一般企業にとっても身近になりました。ここからは、データレイクを運用する上でのメリットについて見ていきましょう。

・あらゆる種類のデータを一元管理できる
データレイクの大きなメリットの一つは、あらゆるデータを一元管理できることです。

データレイクは対象データの用途や、データ形式を考慮する必要がありません。データウェアハウスでは格納が困難とされる音声データや画像データといったバイナリデータも含め、あらゆるデータを一元管理できます。

・BIツールなど様々な周辺システムと連携できる汎用性
データレイクは多くの周辺システムと連携し、様々な用途に利用できます。BIツールを用いてのデータ分析はもちろんのこと、ログデータの蓄積や地図情報の格納にも利用できます。

また、汎用性の高さから組織間でのデータ連携も柔軟に行えます。組織によっては、同じデータでも整形の仕方が異なる場合もあるでしょう。データレイクであれば整形前のデータを格納しているため、組織間で異なる使い方でも同じデータを連携できます。

・コストを気にせず大量データを登録できる(低コスト、容量の制約が無い)
クラウドを利用してデータレイクを構築すれば、コストを気にせず大量データを保存できます。Amazon S3やAzure Data Lake Store(ADLS)など、データレイクに適したコンポーネントが提供されています。

また、各種クラウドサービスではデータを格納するだけでなく、オンプレミスで格納しているデータをクラウドに移行するためのコンポーネントや、データレイク向けの分析ツールなど、データレイクを活用するためのサービスも存在します。

これらもあわせて利用することで、運用コストを抑えられるだけでなく、容量の制約を気にする必要もありません。格納するデータが少ないうちから、スモールスタートで始めることもできます。


データレイクのビッグデータを連携する際の課題

バインダーを持って考えるビジネスマン

データレイクは様々なデータを一元管理できる点で多くのメリットがありますが、格納されたデータを活用するにはいくつかの課題があります。ここでは、データレイクに格納されたビッグデータを連携して活用するための課題について解説します。

システム面での課題

・データレイクを活用するには大量の生データをロードする必要がある
データレイクのデータを活用するには、大量の生データのロードが必要です。例えば、画像や音楽、動画といったデータは、通常の構造化データよりも一つのファイルサイズが非常に大きくなります。それらを含め大量のデータを高速にロードするには、高性能なサーバやツールが必要です。

データの鮮度という観点からも、いかに大量の生データを高速にロードできるか、という点は大きな課題です。

・ビッグデータを収集することの難しさ
基幹システムにあるデータも含めてデータレイクに一元管理する場合、基幹システムからデータレイクへデータを連携する仕組みが必要です。連携する対象のシステムが多ければ多いほど、そのシステムに適合した形での連携プログラムが必要です。

データレイクから様々なデータの活用が可能ですが、対象データをデータレイクに収集する仕組みをどのように整えるか、という点を考える必要があります。

・ただデータを集めただけでは「沼地化」する
データレイクはそのデータを保存する目的や形式に関係なく格納されます。中には、誰からも利用されないような無駄なデータもあるでしょう。整理されずに放置されたままのデータが大量に残っていると、欲しい情報が見つけにくくなり、見通しが悪くなります。このような状態をデータの「沼地化」、またはデータスワンプと言います。

データスワンプを避けるためには、定期的に不要なデータを削除するクレンジング作業が必要です。湖のゴミを取り除いてきれいにするのと同様、明らかに利用しないと分かっているデータは削除することで、見通しが良くなります。

・貯めたデータを分析などで活用するためには、データの整形/加工が必要
データウェアハウスはデータを整形、加工し構造化した上で格納するため、すぐにデータを活用できます。しかし、データレイクでは整形前の生データが格納されているため、格納後にデータの整形・加工が必要です。

膨大なデータの中から内容をきちんと見極め、ビジネス向けに利用するためには、それぞれのデータを正しく理解し、変換するだけの知識とツールが求められます。


ビッグデータ連携に最適な手法

DX(デジタルトランスフォーメーション)のイメージ

データレイクを構築するにも、様々な課題があることをご理解いただけたと思います。
データレイクを利用して「データを貯める」だけでは駄目で、ビッグデータをDXなどで活用できなければ意味を成しません。

アシストは、そんな課題に対する対策およびデータレイクの構築・活用をご提案できるサービスをご提供しています。そのサービスの中でも、開発生産性が高く、大量データ処理が可能、かつ実績が豊富という観点から、ETLツール「Precisely Connect」についてご紹介します。
※Syncsort DMExpress は、Precisely Connect(プリサイスリー コネクト) に製品名が変わりました

超高速ETLツール「Precisely Connect」とは

Precisely Connectは、Precisely社が開発する製品です。大量データの高速処理に特化しており、基幹システムからのデータ収集およびデータレイクへのデータの格納、データレイクに蓄積される生データの加工及び整形において、優れた性能を発揮します。

ここでは、Precisely Connectがビッグデータ連携に最適といわれる三つの特徴について詳しくご紹介します。

Precisely Connectの特徴1.最高レベルのパフォーマンス

Precisely Connectに搭載されているチューニング機構「スマートETLオプティマイザ」は、自動的に対象データとシステムリソースを分析し、最適な処理アルゴリズムを選択する機能が備わっています。これにより、常に最高のパフォーマンスを発揮します。

また、Precisely Connectはデータレイクをはじめ多様なデータソース、データ形式にも対応可能です。豊富なアダプタにより様々なデータソースからデータを収集し、高速なデータクレンジング処理を行って必要なデータを連携します。

このため、開発者はバッチプログラムの開発に際して特に意識することなく、高速な処理を開発できます。さらに高度なチューニングを行う必要も無いため、開発工数の削減にもつながります。

Precisely Connectの特徴2.高い開発生産性を実現

データ連携に必要なバッチプログラムの開発は、GUIによるノンプログラミングで行います。このため、プログラミング言語スキルを持っていないメンバーでも簡単に開発でき、また仕様変更に伴う修正も速やかに行えることから、開発生産性にも優れています。

スクラッチ開発で見られる課題についても対応できます。例えば誰でも開発できるという点から属人化の解消にもつながり、またシンプルに開発することでプログラムにおける品質のばらつきを抑えられます。

Precisely Connectの特徴3.シンプルな構成

通常ETLツールでは、ツール開発に必要なアプリケーションサーバやランタイムエンジン、コンパイラ、ETLそのものに必要なリポジトリ用のデータベースなど、様々なサードパーティーツールが必要です。当然、これらのツールに障害が発生すると、データ連携処理やプログラム開発が止まってしまいます。

Precisely Connectは、それらサードパーティーツールを使用しないシンプルなシステム構成です。そのためPrecisely Connectそのものの障害点が少なく、高い信頼性を維持できます。

まとめ:データレイクへのビッグデータ連携に最適な手法にはPrecisely Connect

今回はデータレイクの概要とメリット、データレイクへのビッグデータ連携方法についてご紹介しました。データレイクはクラウドの利用により低コストで構築できる点と、構造化データだけでなく非構造化データが活用できる点から、近年広く普及しています。

しかし、データレイクを構築しても、活用できなければ意味がありません。自由にデータを格納できる分、データレイクに格納されたビッグデータを連携するには、パフォーマンスや連携プログラムの開発生産性の観点から、いくつかの課題があります。

データレイクへのビッグデータ連携に最適な手法には「Precisely Connect」の利用がおすすめです。アシストでは、実際にお客様が体験できる無料セミナーも開催しております。優れた効果を発揮するPrecisely Connectを体験したいという方は、ぜひ無料体験セミナーへのご参加も検討してみてください。

▼「Precisely Connect」についてはこちら の記事でもご紹介しています。


「データレイクの要!?ETLツール活用術をご紹介」資料

データレイクの特徴やDWHとの比較、ETLツールを活用したデータレイク構築事例をご紹介します。ぜひご覧ください。

データレイクの要!?ETLツール活用術をご紹介

執筆者情報:

執筆者 佐藤 弘樹

佐藤 弘樹 (さとう ひろき)
DX推進技術本部 デジタル推進技術統括部
2013年株式会社アシストに入社。
入社以来、ETL、EAI製品の担当部署に配属し現在「Precisely Connect」「DataSpider」の技術担当として活動中。

DataSpider Connect HULFT

ページの先頭へ戻る