Paxataブログ

Paxataブログ>センサーデータの前処理ってどうする?大容量、JSON、縦横変換の課題を解決

  • データ加工の悩みを解決
2019.09.06

センサーデータの前処理ってどうする?大容量、JSON、縦横変換の課題を解決

みなさん、こんにちは!

アシストでPaxata(パクサタ) のサポートを担当している原澤です。
サポートセンターで、お客様からのお問合せ解決のお手伝いをしたり、
製品のリリース準備などを行っています。

この記事では、センサーデータの加工についてご紹介します。

センサーデータをもっと活用したいと考えている方や、
機械学習でセンサーデータを扱う方法を模索されている方は、ぜひ参考にしてみてください。

膨大なセンサーデータから、新たな価値を創出するには?

昨今、私たちの生活の中にはありとあらゆるセンサーが存在しており、
センサーデータを活用したサービスやアプリケーションなどの積極的な開発が求められています。

皆さんの企業でも、データが創造する新たな価値を見出していきたい!という機運が高まっているのではないでしょうか?

しかし、いざセンサーデータを扱おうとすると、そこには大きな壁が立ちはだかります。

たとえば機械学習でセンサーデータを扱う場合を取り上げてみます。

機械学習では、予測モデルを作るために何度もデータを作り直して精度を高めていきますが、
あるお客様では、ひとつの予測モデルに必要なセンサーデータの加工にかかる時間を見積もったところ、
80時間はかかる、という試算結果になったそうです。

DataRobotのチーフ・データサイエンティスト シバタアキラ氏も、
機械学習をテーマにしたセミナー(アシスト主催)で次のようにお話しされています。

機械学習における、データ準備の重要性とは

機械学習は、何度も何度もデータを作り直さなければならないので、いいモデルを作るためにはデータ準備は非常に重要なステップです。

データ準備の手間や時間を減らせれば、モデルの生成もより簡単になり、モデルの精度が高ければ、モデルを検証する時間も短くなります。

そこで!センサーデータの前処理に「Paxata」をおススメする3つの理由

センサーデータを活用していくためには、センサーデータ特有の前処理をする必要があります。

そこでここからは、センサーデータに最適な加工をすばやく簡単に実施していくために、
Paxataをおススメする3つの理由をご紹介していきます。

1.膨大なデータ量をサクサク扱える

センサーデータは膨大なデータ量になりますが、
どんなに大容量であってもサクサクと扱えるのがPaxataです。

Paxataは、数千万件を超えるビックデータも全件のフルデータを参照しながら、
ユーザー自身がデータの加工編集をおこなうことが可能です。

Sparkのテクノロジーを採用しているため、複数サーバーで処理を分散しながら
高速にデータを扱うことが可能です。

2.JSON形式のデータも簡単にテーブル形式に変換できる

センサーデータは、データ形式にJSONが多く採用されています。

JSON形式のデータには、下記のようなネスト構造が多く存在するため、
高度なコーディングの知識をもった人にしか扱えないという難点がありました。

このようなデータの場合、PaxataならGUI画面だけで簡単にテーブル形式に変換して
データを表示することが可能です。

その方法について、ご紹介していきます。

JSON形式のデータをテーブルに変換する方法

Paxataのデータセットとして扱っていくために、まずはJSON形式のデータをインポートします。

センサーデータを選択し、オレンジ色の枠の中にドラッグアンドドロップします。

データを取り込むと、ネストされた構造をテーブル形式に自動的に変換してくれます。

テーブルへの変換にあたっては、PaxataがJSONデータを判読したうえで
どの範囲をテーブルとして取得するかを自動で判別しますが、
もし取得したい範囲と異なる場合には、選択範囲をワンクリックで変更することが可能です。

マウスのクリック操作のみの簡単な操作で、
以下のようなテーブル形式のデータセットとして登録されました。

3.縦持ちデータと横持ちデータの縦横変換が瞬時にできる

センサーデータには、縦持ちデータと横持ちデータがありますが、
データの持ち方が違っていても、Paxataならシェイプ機能を使って簡単に加工できます。

「縦持ちデータ」と「横持ちデータ」とは

下記は、縦持ちデータの例です。
アセット名やセンサー名が、縦持ちデータとして保持されています。

この縦持ちのデータを以下のように、センサー名を横軸のカラム名とするにはどうしたらよいでしょうか?

ここではアセット名ごとにデータを分割し、センサーごとに管理したデータを作成していきたいと思います。

Paxataのシェイプ機能を利用すると、ドラッグ&ドロップの簡単な操作だけで
縦から横に整形することが可能です。

ここでは「Pivot」を選択し、マウス操作で「SensorName」を横軸に配置することで、
希望の形式に整形することができます。

※整形時にカラムも入れ替え、センサー名の順番も変更しています。

アセット名ごとにデータを分割する場合には、
アセット名にフィルターをかけてライブラリに公開し出力することも可能です。

下記は、横持ちデータの例です。
縦軸にセンサー名、横軸に時間が保持されています。

同じくPaxataのシェイプ機能を使って、
縦軸に時間、横軸にセンサー名に入れ替えることができました↓

最後にもうひとつ、もう少し単純な縦横変換の使い方もご紹介します。
2列しかないようなデータで、列と行を入れ替えられれば十分というケースですね。

この場合は、「Transpose」を選択して、マウス操作で「SensorName」を横軸に配置し、
残りの日時のデータを[残り]をワンクリックすると、
データが瞬時に入れ替わり、希望の形式に整形することが可能です。

まとめ

いかがでしたでしょうか。

センサーデータが生成され蓄積されるほど、
より大量のデータをより早く扱っていける手法が求められます。

データ準備がボトルネックになって、せっかくのセンサーデータが活用できないまま・・・
なんていうことならないように、Paxataで活用シーンを広げていただければと思います。

ここでご紹介したセンサーデータの扱い方以外にも、
欠損値データやノイズデータの削除、欠損値の補完などもPaxataで行うことができますので、
詳しくはぜひご相談ください!

【資料】この記事を読まれた方におススメ!

この資料では、11社の活用事例を取り上げて、センサーデータの加工から、デジタルマーケティング、経理での集計計算の効率化まで、幅広い取り組みをご紹介しています。

この記事をかいた人

1998年 入社。サポートセンターへ配属。BusinessObjectsのサポート、教育を担当。
2001年 Cognosのサポートを立ち上げ。
2006年 IBI WebFOCUS商品企画へ(リリース前製品検証)。
2009年 QlikViewのサポートを立ち上げ。
2017年 Paxataのサポート立ち上げ、現在に至る。

関連している記事

  • データプレップを学ぶ
  • データ加工の悩みを解決
2019.08.23

Paxataでデータプレップしてみよう!

ログインから、データのプロファイリング、加工、データセットの作成まで、実際のデータプレップの流れをPaxataで進めていきます。

  • データプレップを学ぶ
  • データ加工の悩みを解決
2019.08.22

Paxataとは?

データプレップを採用する企業が、急速に増えています。今回のブログでは、Paxataがどんな製品なのか特長を知りたい!という方向けに、ややエンジニア目線からご紹介します。

  • 戦略/部門別アプローチ
  • データ加工の悩みを解決
2019.08.16

デジタルマーケティングに立ち向かう、マーケターのためのデータプレップとは

皆さまのマーケティング部門では、マーケターがデータをフル活用して企画や施策に活かしていく、そんなサイクルがまわっていますか?デジタルマーケティングが進むほど難しくなる、データの扱い方をテーマに取り上げます。

Paxata

ページの先頭へ戻る