はじめに
本記事では、機械学習アルゴリズムのトレーニングで使用できるデータ型について、ご紹介します。
各アルゴリズムで使用できるデータ型には「Y」、使用できないデータ型には「N」を記しています。
回帰モデル
回帰モデルの各アルゴリズムにおいて、トレーニング時の予測因子(Predictor)と応答(Response)で使用可能なデータ型は以下のとおりです。
予測因子
アルゴリズム | INT | FLOAT | NUMERIC | BOOL | CHAR | VARCHAR |
|---|---|---|---|---|---|---|
Linear_reg | Y | Y | Y | Y (※1) | N (※2) | N (※2) |
svm_regressor | Y | Y | Y | Y (※1) | N (※2) | N (※2) |
rf_regressor | Y | Y | Y (※1) | Y | Y | Y |
※1:Vertica 9.2以降で利用できます。
※2:One_hot_encorderで変換後に利用できます。
応答
アルゴリズム | INT | FLOAT | NUMERIC | BOOL | CHAR | VARCHAR |
|---|---|---|---|---|---|---|
Linear_reg | Y | Y | Y | N | N | N |
svm_regressor | Y | Y | Y | N | N | N |
rf_regressor | Y | Y | Y (※1) | N | N | N |
※1:Vertica 9.2以降で利用できます。
分類モデル
分類モデルの各アルゴリズムにおいて、トレーニング時の予測因子(Predictor)と応答(Response)で使用可能なデータ型は以下のとおりです。
予測因子
アルゴリズム | INT | FLOAT | NUMERIC | BOOL | CHAR | VARCHAR |
|---|---|---|---|---|---|---|
Logistic_reg | Y | Y | Y | Y (※1) | N (※2) | N (※2) |
svm_classifier | Y | Y | Y | Y (※1) | N (※2) | N (※2) |
naive_bayes | Y | Y | Y (※1) | Y | Y | Y |
rf_classifier | Y | Y | Y (※1) | Y | Y | Y |
※1:Vertica 9.2以降で利用できます。
※2:One_hot_encorderで変換後に利用できます。
応答
アルゴリズム | INT | FLOAT | NUMERIC | BOOL | CHAR | VARCHAR |
|---|---|---|---|---|---|---|
Logistic_reg | Y | Y | Y | Y (※1) | N (※2) | N (※2) |
svm_classifier | Y | Y | Y | Y (※1) | N (※2) | N (※2) |
naive_bayes | Y | Y (※1) | Y (※1) | Y (※1) | Y | Y |
rf_classifier | Y (※1) | Y (※1) | Y (※1) | Y (※1) | Y | Y |
※1:Vertica 9.2以降で利用できます。
※2:二値分類のためサポートしていません。
参考情報
任意のデータをOne-hot 表現に変換する(Vertica 9.0新機能)
https://www.ashisuto.co.jp/cm/analytics-database/one_hot_encoder.html
検証バージョンについて
この記事の内容はVertica 9.2で確認しています。
更新履歴
2019/4/11 本記事を公開