
- クラウドサービスとのデータ連携
HULFTのファイル転送先システムがSaaSになったらどうする?~HULFT Squareを活用した解決策と事例のご紹介~
この記事では、SaaSとオンプレミス間のファイル転送を実現するHULFT Squareについて紹介します。
|
企業は変化の激しいビジネス環境に対応するために、データに基づいて顧客や社会の反応を把握しつつ、プロダクトやサービス、ビジネスモデルを迅速に変革していくことを求められています。DX(デジタルトランスフォーメーション)が推進される中、 変革の礎として大変重視されているのが、企業内外の様々なデータです。
■目次
▶データレイクとは何か
▶データレイクのメリット
▶データレイクのビッグデータを連携する際の課題
▶ビッグデータ連携に最適な手法
▶まとめ:ビッグデータ連携に最適な手法にはPrecisely Connect
|
データレイクという用語は、Pentaho社CTOのJames Dixon氏が提唱したことに由来し、日々増え続けるビッグデータを、生データのまま柔軟に保持するリポジトリの仕組みとして、誕生しました。
従来のデータレイクは各社が自社で構築するオンプレミスが一般的でした。オープンソースで利用できるHadoop上にHDFSを実装し、Hadoopクラスターを利用して処理を行っていました。
しかし、データレイクは大容量ストレージが必要です。大規模なストレージサーバや、それらを設置するためのスペース、データセンターのセットアップなど、非常にコストが高くなるという課題もありました。
現在はその課題への対応として、クラウドを利用する方法があります。クラウドを利用すればストレージサーバおよびそのスペースの確保が不要となるため、コストの大幅な削減につながります。また、従量課金制であるため、費用対効果も得られるでしょう。
クラウドを利用して安価に構築できるようになったことから、データレイクは大企業だけでなく中小企業に至るまで、広く普及しています。
|
Amazon S3、Databricks、Azure Synapse Analyticsなどデータレイク運用に適したプラットフォームであるクラウドサービスの台頭で、データレイクは一般企業にとっても身近になりました。ここからは、データレイクを運用する上でのメリットについて見ていきましょう。
・あらゆる種類のデータを一元管理できる
データレイクの大きなメリットの一つは、あらゆるデータを一元管理できることです。
データレイクは対象データの用途や、データ形式を考慮する必要がありません。データウェアハウスでは格納が困難とされる音声データや画像データといったバイナリデータも含め、あらゆるデータを一元管理できます。
・BIツールなど様々な周辺システムと連携できる汎用性
データレイクは多くの周辺システムと連携し、様々な用途に利用できます。BIツールを用いてのデータ分析はもちろんのこと、ログデータの蓄積や地図情報の格納にも利用できます。
また、汎用性の高さから組織間でのデータ連携も柔軟に行えます。組織によっては、同じデータでも整形の仕方が異なる場合もあるでしょう。データレイクであれば整形前のデータを格納しているため、組織間で異なる使い方でも同じデータを連携できます。
・コストを気にせず大量データを登録できる(低コスト、容量の制約が無い)
クラウドを利用してデータレイクを構築すれば、コストを気にせず大量データを保存できます。Amazon S3やAzure Data Lake Store(ADLS)など、データレイクに適したコンポーネントが提供されています。
また、各種クラウドサービスではデータを格納するだけでなく、オンプレミスで格納しているデータをクラウドに移行するためのコンポーネントや、データレイク向けの分析ツールなど、データレイクを活用するためのサービスも存在します。
これらもあわせて利用することで、運用コストを抑えられるだけでなく、容量の制約を気にする必要もありません。格納するデータが少ないうちから、スモールスタートで始めることもできます。
|
データレイクは様々なデータを一元管理できる点で多くのメリットがありますが、格納されたデータを活用するにはいくつかの課題があります。ここでは、データレイクに格納されたビッグデータを連携して活用するための課題について解説します。
・データレイクを活用するには大量の生データをロードする必要がある
データレイクのデータを活用するには、大量の生データのロードが必要です。例えば、画像や音楽、動画といったデータは、通常の構造化データよりも一つのファイルサイズが非常に大きくなります。それらを含め大量のデータを高速にロードするには、高性能なサーバやツールが必要です。
データの鮮度という観点からも、いかに大量の生データを高速にロードできるか、という点は大きな課題です。
・ビッグデータを収集することの難しさ
基幹システムにあるデータも含めてデータレイクに一元管理する場合、基幹システムからデータレイクへデータを連携する仕組みが必要です。連携する対象のシステムが多ければ多いほど、そのシステムに適合した形での連携プログラムが必要です。
データレイクから様々なデータの活用が可能ですが、対象データをデータレイクに収集する仕組みをどのように整えるか、という点を考える必要があります。
・ただデータを集めただけでは「沼地化」する
データレイクはそのデータを保存する目的や形式に関係なく格納されます。中には、誰からも利用されないような無駄なデータもあるでしょう。整理されずに放置されたままのデータが大量に残っていると、欲しい情報が見つけにくくなり、見通しが悪くなります。このような状態をデータの「沼地化」、またはデータスワンプと言います。
データスワンプを避けるためには、定期的に不要なデータを削除するクレンジング作業が必要です。湖のゴミを取り除いてきれいにするのと同様、明らかに利用しないと分かっているデータは削除することで、見通しが良くなります。
・貯めたデータを分析などで活用するためには、データの整形/加工が必要
データウェアハウスはデータを整形、加工し構造化した上で格納するため、すぐにデータを活用できます。しかし、データレイクでは整形前の生データが格納されているため、格納後にデータの整形・加工が必要です。
膨大なデータの中から内容をきちんと見極め、ビジネス向けに利用するためには、それぞれのデータを正しく理解し、変換するだけの知識とツールが求められます。
|
データレイクを構築するにも、様々な課題があることをご理解いただけたと思います。
データレイクを利用して「データを貯める」だけでは駄目で、ビッグデータをDXなどで活用できなければ意味を成しません。
アシストは、そんな課題に対する対策およびデータレイクの構築・活用をご提案できるサービスをご提供しています。そのサービスの中でも、開発生産性が高く、大量データ処理が可能、かつ実績が豊富という観点から、ETLツール「Precisely Connect」についてご紹介します。
※Syncsort DMExpress は、Precisely Connect(プリサイスリー コネクト) に製品名が変わりました
Precisely Connectは、Precisely社が開発する製品です。大量データの高速処理に特化しており、基幹システムからのデータ収集およびデータレイクへのデータの格納、データレイクに蓄積される生データの加工及び整形において、優れた性能を発揮します。
ここでは、Precisely Connectがビッグデータ連携に最適といわれる三つの特徴について詳しくご紹介します。
Precisely Connectに搭載されているチューニング機構「スマートETLオプティマイザ」は、自動的に対象データとシステムリソースを分析し、最適な処理アルゴリズムを選択する機能が備わっています。これにより、常に最高のパフォーマンスを発揮します。
また、Precisely Connectはデータレイクをはじめ多様なデータソース、データ形式にも対応可能です。豊富なアダプタにより様々なデータソースからデータを収集し、高速なデータクレンジング処理を行って必要なデータを連携します。
このため、開発者はバッチプログラムの開発に際して特に意識することなく、高速な処理を開発できます。さらに高度なチューニングを行う必要も無いため、開発工数の削減にもつながります。
データ連携に必要なバッチプログラムの開発は、GUIによるノンプログラミングで行います。このため、プログラミング言語スキルを持っていないメンバーでも簡単に開発でき、また仕様変更に伴う修正も速やかに行えることから、開発生産性にも優れています。
スクラッチ開発で見られる課題についても対応できます。例えば誰でも開発できるという点から属人化の解消にもつながり、またシンプルに開発することでプログラムにおける品質のばらつきを抑えられます。
通常ETLツールでは、ツール開発に必要なアプリケーションサーバやランタイムエンジン、コンパイラ、ETLそのものに必要なリポジトリ用のデータベースなど、様々なサードパーティーツールが必要です。当然、これらのツールに障害が発生すると、データ連携処理やプログラム開発が止まってしまいます。
Precisely Connectは、それらサードパーティーツールを使用しないシンプルなシステム構成です。そのためPrecisely Connectそのものの障害点が少なく、高い信頼性を維持できます。
今回はデータレイクの概要とメリットやデータウェアハウスとの違い、データレイクへのビッグデータ連携方法についてご紹介しました。データレイクはクラウドの利用により低コストで構築できる点と、構造化データだけでなく非構造化データが活用できる点から、近年広く普及しています。
しかし、データレイクを構築しても、活用できなければ意味がありません。自由にデータを格納できる分、データレイクに格納されたビッグデータを連携するには、パフォーマンスや連携プログラムの開発生産性の観点から、いくつかの課題があります。
データレイクへのビッグデータ連携に最適なソリューションとして「Precisely Connect」の利用がおすすめです。アシストでは、実際にお客様が体験できる無料セミナーも開催しております。優れた効果を発揮するPrecisely Connectを体験したいという方は、ぜひ無料体験セミナーへのご参加も検討してみてください。
▼「Precisely Connect」についてはこちら の記事でもご紹介しています。
データレイクの特徴やDWHとの比較、ETLツールを活用したデータレイク構築事例をご紹介します。ぜひご覧ください。
|
![]() |
---|
佐藤 弘樹
(さとう ひろき)
DX推進技術本部 デジタル推進技術統括部
2013年株式会社アシストに入社。
入社以来、ETL、EAI製品の担当部署に配属し現在「Precisely Connect」「DataSpider」の技術担当として活動中。
この記事では、SaaSとオンプレミス間のファイル転送を実現するHULFT Squareについて紹介します。
クラウド全盛期のいま、WebAPIは欠かせない存在です。「WebAPIって一体なに?」「RESTとSOAPの違いはなに?」「活用方法は?」などをわかりやすく解説した資料です。
クラウドサービスとのデータ連携処理開発において押さえておきたい「Web API」や「REST API」をテーマにしたおすすめブログ記事をご紹介!