Paxataブログ

Paxataブログ>データ準備を自動化して、作業効率アップ!

  • データプレップとは
2020.11.19

データ準備を自動化して、作業効率アップ!

データ準備を自動化して、作業効率アップ!


データ準備をボタン一つで!? Paxataのプロジェクトフローとは?

データプレパレーションツールである「Paxata」を利用することで、ExcelやAccess、SQL、Pythonといったデータ処理ツールの代わりとして
●AI・機械学習や統計解析ツールに読み込ませるためのデータ
●QlikやTableauのようなセルフサービスBIをより活用するためのデータ
など様々なデータをだれでも簡単に準備し抽出することができるようになります。

さらに、Paxataの「プロジェクトフロー」機能を利用することで、データ取得からデータ出力まで行うデータ作成処理をボタン一つで、しかも複数連動させるようなことまで実行できたり、スケジュールを設定して定期実行するといった仕組みを構築することが可能です。

今回は、Paxataのプロジェクトフローについて基本的な設定方法や役に立つ利用方法についてご紹介していきたいと思います!


プロジェクトフローを利用することのメリット

プロジェクトフローを利用することでPaxataにログインすることなく自動的に処理を実行したり、Paxataにログイン後、プロジェクトフローを実行するボタンをクリックするだけの最低限の作業で処理を完結させる事が可能になります。
それにより、以下のようなメリットを得ることができます。

  • 休日等、誰もいない時間でも処理を完了させることができる。
  • 手作業によるデータの差し替えや誤った操作等のヒューマンエラーを削減できる。
  • 夜間など利用者の少ない時間にスケジュールしたり、プロジェクトフロー専用のサーバーで処理を実行することによりシステム負荷を軽減する。

などなどこの他にも様々なメリットがあると思いますが、最大のメリットはデータ準備の時間を削減し、本来取り組むべきより重要な課題に時間を割り当て、それを解決することができるようになることです!なんちゃって。。

偉そうな文言はさて置き、次からは実際にプロジェクトフローを作成していきます。
プロジェクトフローを利用したことがない方は是非ご活用ください!


プロジェクトフローの作成手順

プロジェクトフローを作成する際のポイントは2つ。
1つ目は、プロジェクトフローにて複数のプロジェクトを連動させる場合は、必ずレンズを利用して作成したアンサーセットを利用して後続のプロジェクトを作成すること。
2つ目は、プロジェクトフローの作成は、最後のプロジェクトにて作成すること。
の2点のみです。

それでは今回はこのフローを作成します。

プロジェクトフローの作成

処理としては

の2つのプロジェクトを連動させるシンプルなフローです。


1.顧客マスタをクレンジングするプロジェクトの作成
(1つ目のプロジェクト作成)


1-1.既にライブラリに取り込み済みの顧客マスタからプロジェクトを作成します。

1-1.既にライブラリに取り込み済みの顧客マスタからプロジェクトを作成


1-2.処理を作成した後、最後に「レンズ」を利用してデータを公開します。

※レンズを利用してデータを公開しないとプロジェクトが連動して動作しません。

1-2.処理を作成した後、最後に「レンズ」を利用してデータを公開


2.クレンジングした顧客マスタとCSVデータを結合するプロジェクトの作成
(2つ目のプロジェクト作成)


2-1.2つ目のプロジェクトを作成します。

2-1.2つ目のプロジェクトを作成


2-2.プロジェクトの処理で、1つ目のプロジェクトのレンズから出力した顧客マスタを結合しています。

2-2.プロジェクトの処理で、1つ目のプロジェクトのレンズから出力した顧客マスタを結合


2-3.処理が完成したら最後にレンズを作成します。

2-3.処理が完成したら最後にレンズを作成


3.プロジェクトフローの作成


3-1.引き続き2つ目のプロジェクトの編集画面にてプロジェクトフローを作成します。

3-1.引き続き2つ目のプロジェクトの編集画面にてプロジェクトフローを作成


3-2.「作成」をクリックします。

3-3.「作成」をクリック

これでプロジェクトフローは完成しました。


4.プロジェクトフローの設定

プロジェクトフローを作成したら、スケジュールやデータの取り込み設定などを行います。


4-1.スケジュールの設定

「一般」タブにてスケジュールの設定や、実行時のメール通知設定を行います。

4-1.スケジュールの設定


4-2.入力データの設定

「入力」タブにて、利用しているデータセット毎にプロジェクトフロー実行時の設定を行います。

  • プロジェクトフロー実行時に、新規にデータをインポートするかどうか
  • プロジェクトフロー実行時に最新バージョンのデータを利用するかどうか
  • 取り込むデータの列数に違いがあった場合にエラーとするかどうか

の設定が可能です。


4-3.出力データの設定

「出力」タブでは、プロジェクトで出力する各データについての出力先についての設定を行います。

  • ライブラリのみに出力
  • コネクターを利用してエクスポート

のいずれかの設定が可能です。


4-4.プロジェクトフロー図の確認

右上の「グラフ」をクリックすると作成したプロジェクトフロー図を確認することができます。

4-4.プロジェクトフロー図の確認

別画面でフロー図が開きます。

別画面でフロー図が開く


5.プロジェクトフローの実行

プロジェクトフロー画面で、プロジェクトフローの実行結果を確認したり、手動で実行することができます。


5-1.プロジェクトフロー画面

左上のプルダウンメニューから「プロジェクトフロー」を選択します。

5-1.プロジェクトフロー画面


5-2.プロジェクトフローの実行

スケジュール設定した時間になるか、手動で実行ボタンをクリックするとプロジェクトフローが実行されます。

5-2.プロジェクトフローの実行


まとめ

いかがでしたでしょうか?
1つのプロジェクトでとても長い処理を作成するよりも、1つ1つのプロジェクトをシンプルな処理にまとめ、最後にプロジェクトフローで一連のの処理にしてあげることでメンテナンス性も向上します。

また、プロジェクトフローを外部からRestAPIで呼び出して実行することもできますのでこの機能を利用することで簡単にETL処理を作成することもできるようになります。

ただし、ETLとデータプレパレーションツールは目的が異なりますのでご注意ください。
詳しくはデータプレップとETLは、何がちがうの? もご覧ください!


Excelでの業務効率化など、お役立ち資料がたくさん!

今回ご紹介した他にもPaxataには便利な機能がたくさん備わっています。
そんな機能をまとめた資料や、Excelを使わない理由を説いた資料、Tableau(BIツール)をさらに活用するための資料など、さまざまな資料を掲載しています。ぜひご覧ください!

この記事をかいた人

SFA製品、BI製品のフィールドを経て、Paxataのフィールドエンジニア。
建設業、製造業、金融業など、幅広く担当。DataRobotユーザーへのPaxata導入後の支援実績を持ち、センサーデータなど時系列データの扱いが得意。

佐藤 琢治

関連している記事

  • データプレップとは
2020.07.17

データの民主化を支援するデータ・プレパレーションとは?

数年前から日本企業でも導入が進むデータ・プレパレーション。必要とされる背景から活用における大事なポイント、データの民主化を実現する策、などを解説します。

  • データプレップとは
2020.03.24

データプレップでよく使われるPaxataの機能 ベスト20

よくあるデータプレップの加工例を取り上げて、Paxataで簡単に解決する方法をご紹介します。皆さまの業務に当てはまるデータプレップはいくつありますか?

  • データプレップとは
2019.08.23

Paxataでデータプレップしてみよう!

ログインから、データのプロファイリング、加工、データセットの作成まで、実際のデータプレップの流れをPaxataで進めていきます。

ページの先頭へ戻る