こんにちは、エンジニアの宮本です。
今回は Dataiku という、データサイエンスソフトウェアツールである Data Science Studio(DSS)に、CData JDBC Driver を組み込んで接続先を増やす方法をご紹介します。
Data Science Studio(DSS)とは
開発者およびアナリスト向けのデータサイエンスプラットフォームです。このDSS は、オールインワンの分析およびデータサイエンスシステムということで、主に以下のようなことができるそうです。
- データ取得-SQL、Hadoop、クラウドストレージ、サードパーティアプリケーションへのコネクタ…
- データラングリング-ETL /完全なプッシュダウン機能を備えたデータ準備(SQL、スパークなど)
- 機械学習-オープンソースライブラリの上にある視覚的なレイヤー+ノートブックとコードレシピを使用してアルゴリズムを構築する機能
- EDAとビジュアライゼーション-ドラッグアンドドロップビジュアライゼーション+高度なwebapp機能(rshiny、bokeh、javascript…)
- 実稼働環境での展開-バッチスケジューリング、監視、REST APIによるリアルタイムスコアリング
www.dataiku.com
また、最近ではガートナーの2020マジック・クアドラントでデータサイエンス&機械学習プラットフォームのリーダーに選出され、今後日本でも Dataiku が
注目されてくるのではないでしょうか。
利用可能なデータソース
データベース、ファイル系を中心につなぎ先が色々とあります。その中に 「Custom connectivity through JDBC」とあるので、今回はそこに CData JDBC Driver を組み込む内容となっています。
Data Science Studio(DSS)のインストール(Windows版)
TOP画面から「GET STARTED」をクリックします。
無料版を使用したいので、ライセンス「Free Edition」の「INSTALL NOW」をクリックします。
今回 Windows10 の PC を使っていますので、Windows版を選択します。
そうすると以下の画面が表示されます。どうやら、windows でネイティブに実行されるようには設計されていないようで、Windows で使用するには Windows Subsystem Linux を使う必要があるとのことです。(または VMなどの仮想環境)
Windows Subsystem for Linux(以下、WSL) のインストールは以下を参照ください。
docs.microsoft.com
WSL をインストール後、以下のページの通りに DSS をインストールしていきます。
www.dataiku.com
行うことは以下の内容です。
DSS ダウンロードファイルを展開
tar xzf dataiku-dss-6.0.4.tar.gz
インストールスクリプトの実行
(Dataiku DSSが構成とデータを保存するディレクトリとポートを指定)
dataiku-dss-6.0.4/installer.sh -d DATA_DIR -p 11000
CData Salesforce JDBC Driver のインストール
今回は CData Salesforce JDBC Driver をインストールしていきます。 まずは以下のリンクより評価版ドライバーをダウンロードしてください。
Salesforce JDBC Driver - JDBC | JDBC Drivers | JDBC Connection | JDBC API
ダウンロード後、zip ファイルを DSS が起動しているマシンにもっていきます。 今回の場合でいうと、Windows Subsystem Linux です。
転送が完了しましたら、Windows Subsystem Linux上でSalesforce JDBC Driver をインストールします。インストール方法は「java -jar setup.jar」を行い、インストール先などを指定していきます。
インストールが完了すると、lib ディレクトリに以下のようにjarファイル、licファイルが置かれました。
user@LAPTOP-T1M78GUR:~/cdata/salesforce$ cd lib/
user@LAPTOP-T1M78GUR:~/cdata/salesforce/lib$ ll
total 7556
drwxr-xr-x 1 root root 4096 Feb 28 12:06 ./
drwxr-xr-x 1 root root 4096 Feb 28 12:06 ../
-rw-r--r-- 1 root root 7685088 Feb 27 14:53 cdata.jdbc.salesforce.jar
-rw-r--r-- 1 root root 368 Feb 28 12:06 cdata.jdbc.salesforce.lic
-rw-r--r-- 1 root root 951 Feb 27 14:40 cdata.jdbc.salesforce.remoting.ini
次に、jar ファイルと lic ファイルを Dataikuの DSS から参照できるよう以下のディレクトリに配置します。
user@LAPTOP-T1M78GUR:~/cdata/salesforce/lib$ cp -p cdata.jdbc.salesforce.jar /home/user/DATA_DIR/lib/jdbc/
user@LAPTOP-T1M78GUR:~/cdata/salesforce/lib$ cp -p cdata.jdbc.salesforce.lic /home/user/DATA_DIR/lib/jdbc/
user@LAPTOP-T1M78GUR:~/cdata/salesforce/lib$ ll /home/user/DATA_DIR/lib/jdbc/
total 8064
drwxr-xr-x 1 user user 4096 Feb 28 12:15 ./
drwxr-xr-x 1 user user 4096 Feb 26 17:20 ../
-rw-r--r-- 1 user user 7685088 Feb 27 14:53 cdata.jdbc.salesforce.jar
-rw-r--r-- 1 user user 368 Feb 28 12:06 cdata.jdbc.salesforce.lic
user@LAPTOP-T1M78GUR:~/cdata/salesforce/lib$
これで、DSS に CData Salesforce JDBC Driver を組み込むことができました。
Data Science Studio(DSS)でSalesforce へアクセス
WSL のコンソール画面より起動させていきます。
ユーザ・パスワードを入力しログインします。アカウントがない場合は作成します。
「NEW PROJECT」→ 「Blank Project」をクリックします。
データセットを作成していきます。「IMPORT YOUR FIRST DATASET」をクリックします。
ここでは、「Other SQL」を選択します。
フリープランでは、Other SQL が使用できないので、2週間限定になりますが Enterprize プランのトライアルを申し込みます。
そうしますと、登録していたアドレスにトライアルキーが送られてきますのでメールを確認し、どこかにコピーしておきましょう。
また DSS の画面に戻ります。以下の赤枠の順で設定画面を開きます。
「ENTER LICENSE」をクリックします。
先ほどコピーしたトライアルキーを貼り付けしアクティベートします。
では、またプロジェクトのダッシュボードに戻ります。TOP画面から、先ほど作成したプロジェクトを選択します。その後、「IMPORT YOUR FIRST DATASET」をクリックしてください。
「+ NEW CONNECTION」を選択します。
「Other SQL databases」をクリックします。
以下の内容を入力し、接続確認を行います。
- Connection Name:任意
- JDBC driver class :cdata.jdbc.salesforce.SalesforceDriver
- JDBC URL:jdbc:salesforce:User=XXXXX;Password=XXXXX;SecurityToken= XXXXXXXXXXXXX;
接続ができたら、横の「CREATE」ボタンを押して設定した内容を保存します。
それでは、またプロジェクト画面から「IMPORT YOUR FIRST DATASET」→「Other SQL」で以下の画面を呼び出します。
ここでは、先ほど登録した Salesforce がデータソースとして選べるようになっています。赤枠にあるように、Salesforce のオブジェクトがテーブル一覧になって表示することができました。
プレビューからデータの中身を参照することもできました。
Salesforce のデータセットを可視化
プロジェクトから作成したデータセットを選択すると以下の画面が表示されます。ここでは、データセットを使って何をするか設定することができます。
では、SalesforceのAccountオブジェクトのデータをビジュアライズしていきます。データセットから先ほど作成したAccountを選択します。
Chart タブをクリックします。
あとは好きなようにChart の種類や項目を選択することで簡単に可視化することができます。
また、このグラフに対してチャットベースでメッセージでやり取りすることができたりもします。
さいごに
まだまだやれることはたくさんあるようで、Python や R のコードを自動生成したりだとか、他のコネクションへデータをコピーや、フローを作成したりといったことなど、ほんの少ししか触っていませんが、非常に強力なプラットフォームだという印象を受けました。
そんな DSS の中に今回は CData Salseforce JDBC Driver を組み込んでみました。CData JDBC Driver は30日間、トライアル版として無料で使うことができますので、ご興味がある方は是非一度お試しいただければと思います。
www.cdata.com
関連コンテンツ