はじめに
Verticaの拡張機能であるユーザー定義拡張関数(UDx)は「R/Pythonなどの言語で書かれたプログラム」と「データベース操作言語のSQL」をシームレスに連携する手段を提供します。利用する言語によってそれぞれ環境構築方法は異なりますが、本記事ではRとの接続に必要となるセットアップ手順について紹介いたします。
Vertica R Language Packのインストール
前提となるソフトウェアのインストール
Vertica R Language Packをインストールする前提条件として、gcc , gcc-c++ などが必要となります。
後述のVertica R Language Packのインストール時に不足ソフトウェアに関する警告メッセージが表示されますので、gcc , gcc-c++ 以外にも不足しているものがあれば必要に応じてインストールを行ってください。
//本手順は、rootユーザ(OS)で実施してください。
//この操作はLinuxコンソールから実施します。
# yum install gcc
# yum install gcc-c++Vertica R Language Pack を【 Vertica Webサイト(https://www.vertica.com) –> Product –> Downloads –> Community Edition】からダウンロードします。
ダウンロードしたモジュールは vertica-R-lang-[version].x86_64.RHEL6.rpm のような名称となっており、[version]の部分には 9.3.1-0 などVerticaのバージョンに対応した値となります。
//本手順は、rootユーザ(OS)で実施してください。
//この操作はLinuxコンソールから実施します。
# rpm -ihv vertica-R-lang-9.3.1-0.x86_64.RHEL6.rpmインストールされたLinux上のRを起動
//本手順は、すべてrootユーザ(OS)で実施してください。
//この操作はLinuxコンソールから実施します。
# sudo /opt/vertica/R/bin/R一般ユーザ(dbadmin)のsudo権限で実行してください。
これは以下の「Rライブラリのインストール」の際、ライブラリが$homeにインストールされてしまうことを避けるためです。
Rライブラリのインストール
Rを利用するにあたり各自必要となるライブラリをインストールします。
//この操作はRコンソールから実施します。
# install.packages("dplyr")
# install.packages("caret")
# install.packages("randomForest")プログラムの実行方法
Rプログラムの実行方法は
– Rを利用したユーザー定義拡張関数
– Rで記述したモデルを用いて機械学習
をご覧ください。
検証バージョンについて
この記事の内容はVertica 9.3.1で確認しています。