アシスト

サブスクリプション

自社環境でご利用いただく場合

Paxataのご利用にあたり、クラウド上に構築されたVirtual Private Networkを選択される場合は、サブスクリプションでのご導入となります。環境構築にあたっては、クラウド環境上の仮想サーバへの導入となります。(物理サーバへは導入いただけません。)

アーキテクチャ

PaxataはCore Server、Pipeline Master Server、Pipeline Worker Server、Data Library、MongoDBの複数のサーバで構成されます。

1. Core Server Paxataのメインのアプリケーションとして動作するサーバ
※次の3つの役割に分けて構成することが可能です。
Main Core Server Webサーバ兼アプリケーションサーバ
Data Core Server Data Libraryに格納されたデータをPipeline Master Serverへ渡す サーバ
Automation Core Server スケジュール処理を行うサーバ
2. Pipeline Master Server Paxataで実行されるデータの加工処理のリクエストをCore Serverから受け取り、Worker Serverへ渡すサーバ
3. Pipeline Worker Servers Paxataで実行されるデータの加工処理のリクエストを実行するサーバ※Pipelie Worker Serversで使用されるコア数が、Paxata上で快適に扱うことができるデータの件数に影響します。
4. MongoDB Paxataのメタデータ(プロジェクトの定義情報や、登録されているデータセット等)の格納先として使用されるサーバ
5. Data Library Paxataにインポートされたデータセット/アンサーセットの格納先として使用されるストレージシステム

システム要件

※下記環境の情報はV2020.1SP2時点でのシステム要件です。 「2020.1」ではAWS、Azure環境上への導入のみがサポートされます。

Paxata Core Server

OS CentOS 64bit 7.6以上
RedHat Enterprise Linux 64bit 7.6以上
CPU 10cores以上、2.XGHz以上
メモリ 60GB以上 データ量や同時処理数によってより大容量のメモリが必要
ディスク容量 1TB以上、SASもしくはより高速なディスク
ネットワーク 10 Gigabit Ethernet (10GbE)
最低10GbEがサポートされるネットワークインフラ
Java Platform、JDK Oracle JDK 8 update 162以上、OpenJDK 8 update 181以上
Mongo DB 3.6、4.0、4.2

Paxata Pipeline Master Server

OS

CentOS 64bit 7.6以上

RedHat Enterprise Linux 64bit 7.6以上

CPU 8cores以上、2.XGHz以上
メモリ 30GB以上 データ量や同時処理数によってより大容量のメモリが必要
ディスク容量 250GB以上、SASもしくはより高速なディスク
ネットワーク 10 Gigabit Ethernet (10GbE)
最低10GbEがサポートされるネットワークインフラ
Java Platform、JDK Oracle JDK 8 update 162以上、OpenJDK 8 update 181以上
Apache Spark 後述のデータライブラリとSparkを参照

Paxata Pipeline Worker Servers (Spark Worker)

OS CentOS 64bit 7.6以上
RedHat Enterprise Linux 64bit 7.6以上
CPU 合計36cores以上推奨(*1)、2.XGHz以上
メモリ コア数により変化、1コアあたり8GB
ディスク容量 500GB以上、SASもしくはより高速なディスク
ネットワーク 10 Gigabit Ethernet (10GbE)
最低10GbEがサポートされるネットワークインフラ
Java Platform、JDK Oracle JDK 8 update 162以上、OpenJDK 8 update 181以上
Apache Spark 後述のデータライブラリとSparkを参照

*1 Pipeline Worker Serverは複数台で構成することが可能です。複数台のWorker Serverの合計コア数が36コア以上を推奨しています。

クライアント

ブラウザ Mozilla Firefox: Extended Support Release (ESR) 最新バージョン (68.4.2以上)
(Official Build) (64-bit) for Mac and Windows
Google Chrome最新バージョン (77.0.3865.90)(Official Build) (64-bit) for Mac and Windows

※Paxataアプリケーションの推奨解像度は1024x768です。

データライブラリとSpark

データライブラリ用にサポートされているストレージ Pipeline Master ServerとPipeline Workerの Spark バージョン スタンドアロン
Amazon S3 Open Source Spark(Standalone)-Running on EC2 Yes
Microsoft Azure Blob Storage Open Source Spark(Standalone)-Running on Azure VM Yes

* 「Cloudera CDH 5.16」と「Hortonworks HDP 2.6.5」のサポートは2019.1で終了となり、2020.1からはAWS S3とMicrosoft Azure Blob Storageがサポート環境となります。

サポートされるデータソース

データソース 対応バージョン コネクター/JDBC ドライバー インポート
サポート
エクスポート
サポート
ファイルシステム
ローカル ファイル - なし
共通フォーマット
圧縮ファイル

共通フォーマット
Amazon S3 - コネクター
共通フォーマット
Parquet
圧縮ファイル

共通フォーマット
Parquet
Azure Blob
Storage
(WASB)
- コネクター
共通フォーマット
Parquet
圧縮ファイル

共通フォーマット
Parquet
Azure Data Lake Store(ADLS) - コネクター
共通フォーマット
Parquet
圧縮ファイル

共通フォーマット
Parquet
Azure Data Lake Store Gen2 (ADLS g2) - コネクター
共通フォーマット
Parquet
圧縮ファイル

共通フォーマット
Parquet
Google Cloud
Storage
- コネクター
共通フォーマット
Parquet
圧縮ファイル

共通フォーマット
HDFS on CDH5 CDH 5.12-5.16 コネクター
共通フォーマット
Parquet
圧縮ファイル

共通フォーマット
Parquet
HDFS on CDH6 CDH 6.2-6.3 コネクター
共通フォーマット
Parquet
圧縮ファイル

共通フォーマット
Parquet
HDFS on HDP2 HDP 2.6.3-5 コネクター
共通フォーマット
Parquet
圧縮ファイル

共通フォーマット
Parquet
Network Share
(SMB/Samba)
SMB v2, v3 コネクター
共通フォーマット
圧縮ファイル
-
SFTP プロトコルバージョン1,2,3 を使用するクライアントと互換性のあるSFTPサーバ コネクター
共通フォーマット
圧縮ファイル

共通フォーマット
SharePoint 2013, 2016 オンライン コネクター
共通フォーマット
SharePointカスタムリスト
圧縮ファイル

共通フォーマット
データベース
Amazon Athena - コネクター
クエリー利用可
-
Azure SQL Data
Warehouse
- コネクター
クエリー利用可

Azure Data Lake Store にアップロードされたファイルを使用して外部テーブルを作成
Google BigQuery - コネクター
クエリー利用可
Hive(CDH5) CDH 5.12-5.16 コネクター
クエリー利用可
Hive(CDH6) CDH 6.2-6.3 コネクター
クエリー利用可
Hive(HDP2) HDP 2.6.3-5 コネクター
クエリー利用可
IBM DB2 10.x+ JDBC
ドライバーバージョン 4.11 を使用

クエリー利用可
IBM Netezza 7.x+ JDBC
ドライバーバージョン 7.2 を使用

クエリー利用可
MS Azure SQL - JDBC
Microsoftドライバ6.0.7507.100 を使用してください。
Azure Active DirectoryまたはSQL認証と互換性のあるユーザー名/パスワード認証を使用します。
JavaKerberosとNTLM認証はサポートされていません。

クエリー利用可
MS SQL Server 2012 JDBC
NTLMまたはSQLServerデータベースのユーザー名/パスワード認証には、jTDSドライババージョン1.3.1 を使用します。
Active DirectoryまたはSQL認証と互換性のあるユーザー名/パスワード認証には、Microsoftドライバ6.0.7507.100 を使用します。
Active Directoryのサポートには、Linuxではなく、Windows上でSQL Serverが必要です。
JavaKerberosとNTLM認証はサポートされていません。

クエリー利用可
Oracle 11,12 JDBC
ドライバーバージョン12.1.0.2.0(ojdbc7.jar)を使用

クエリー利用可
PostgresSQL 8.4 JDBC
ドライバーバージョン 9.4.1208 を使用

クエリー利用可
MySQL 5.1 JDBC
ドライバーバージョン 5.1.39 を使用

クエリー利用可
Amazon Redshift - 組み込みのRedshiftコネクタ(JDBCではなく)を使用してください。
ただし、JDBCドライバを特定のディレクトリにインストールする必要があります。
詳細については、「インストールガイド」を参照してください。
Redshift JDBCドライバRedshiftJDBC41-1.2.1.1001 を使用

クエリー利用可
SAP HANA SPS 11 JDBC
ドライバーバージョン 1.111.03-78bf6c853bb568fec93819498b2ec152c51cc958 を使用

クエリー利用可
Snowflake - コネクター
クエリー利用可
Teradata 15.0+ JDBC
ドライバーバージョン 15.10.00.22 を使用

クエリー利用可
Vertica - JDBC
ドライバーバージョン 9.2.1 を使用

クエリー利用可
NoSQL データベース
AWS DynamoDB - コネクター -
MongoDB - コネクター -
アプリケーション
Google Analytics - コネクター -
Google Sheets - コネクター -
HubSpot - コネクター -
JIRA - コネクター
クエリー利用可
-
Marketo - コネクター
クエリー利用可
-
Microsoft Dynamics 365 - コネクター -
NetSuite - コネクター
クエリー利用可
-
Oracle Marketing Cloud(Eloqua) - コネクター
クエリー利用可
-
REST API - コネクター -
Salesforce Lightning API v40 コネクター
Salesforceレポート
SOQLクエリー(制限あり)
-
Salesforce Marketing Cloud - コネクター
クエリー利用可
-
Zendesk - コネクター
クエリー利用可
-
Business Intelligence
DataRobot - コネクター
AIカタログからスナップショット/マテリアライズドデータセットをインポート

AIカタログへのデータのエクスポート
MicroStrategy 10.9 コネクター -
Intelligent CubeオブジェクトとしてMicroStrategyプロジェクトにエクスポート
Tableau 9.3.7, 10.0.x, 10.5.x, Online コネクター -
プロキシは未サポート
Tableau Hyper 2018.3 コネクター -
ThoughtSpot - コネクター -
共通フォーマット インポートサポート エクスポートサポート
Delimited files(CSV/TSV)
Fixed-width column data
JSON
XML
Apache Avro
Microsoft Excel(XLS/XLSX) ◯(XLSXのみ)最大100万行
SAS BDAT -
※ インポートサポートに記載がある圧縮ファイルは、Deflate、LZ4、Snappy、zip、Gzip、またはBzipのいずれかの形式である必要があります。

サーバ構成例

  • 基本構成

  • 分散構成

  • Azure

  • AWS

  • 基本構成

  • 分散構成

  • Azure

  • AWS

ライセンス&ガイドライン

Paxataをご利用いただくためには、ライセンス(1年更新)のご購入が必要です。ライセンス料金には、ソフトウェア使用料金とサポート料金が含まれています。
ご利用にあたっては、Pipeline Worker Serversで使用される総コア数に対してサブスクリプションが必要です。サーバの設置先は、オンプレミス、クラウドのどちらでもお選びいただけます。Pipeline Worker Serversのコア数は、Paxata上で使用したいデータの件数によって変化します。
プロジェクトの作成時に使用するデータの件数が多ければ、必要となるコア数は多くなります。
ライセンスの算出には、下記のサイジングガイドラインが参考となります。

合計同時
処理件数
列数 1列あたりの
バイト数
ファイル
サイズ
(GB)
コア数
(最小)
コア数
(推奨)
Executorの
合計メモリ
(推奨)
構成1 1,000万件 100 10 10 20 30 240GB
構成2 2,500万件 100 10 20 40 60 480GB
構成3 5,000万件 100 10 50 64 96 766 GB
構成4 1億件 100 10 100 100 150 1200GB

ご導入プロセス

サブスクリプションでのご導入を進めるにあたり、ご利用開始までのプロセスをご案内します。
SparkのWorkerコア数、導入先のインフラ、データライブラリの選択など、環境構築にあたって考慮が必要な点があります。

  • 利用コア数の検討

    Paxataで使用する最大のデータ件数が何件かを試算し、必要となるコア数を見積ります。

  • 導入先インフラの検討

    Paxataの導入環境として使用するインフラの選定を行います。
    導入環境はAWS、Azureのいずれかが選択可能です。

  • 導入構成の検討

    導入するサーバの台数や、役割の設計を行います。

  • 発注

    Paxataのライセンスをご発注いただきます。

  • 導入支援

    ご用意いただいた導入環境へ、Paxataをインストールします。

  • 利用開始

    Paxataのご利用を開始します。

アシストがご提供するSaaS環境でご利用いただく場合

keyboard_arrow_up