Dataiku データサイエンスプラットフォームで CData JDBC Driver を活用する方法

こんにちは、エンジニアの宮本です。

今回は Dataiku という、データサイエンスソフトウェアツールである Data Science Studio(DSS)に、CData JDBC Driver を組み込んで接続先を増やす方法をご紹介します。

Data Science Studio(DSS)とは

f:id:sennanvolar44:20200226134234p:plain

開発者およびアナリスト向けのデータサイエンスプラットフォームです。このDSS は、オールインワンの分析およびデータサイエンスシステムということで、主に以下のようなことができるそうです。

  • データ取得-SQL、Hadoop、クラウドストレージ、サードパーティアプリケーションへのコネクタ…
  • データラングリング-ETL /完全なプッシュダウン機能を備えたデータ準備(SQL、スパークなど)
  • 機械学習-オープンソースライブラリの上にある視覚的なレイヤー+ノートブックとコードレシピを使用してアルゴリズムを構築する機能
  • EDAとビジュアライゼーション-ドラッグアンドドロップビジュアライゼーション+高度なwebapp機能(rshiny、bokeh、javascript…)
  • 実稼働環境での展開-バッチスケジューリング、監視、REST APIによるリアルタイムスコアリング

www.dataiku.com

また、最近ではガートナーの2020マジック・クアドラントでデータサイエンス&機械学習プラットフォームのリーダーに選出され、今後日本でも Dataiku が 注目されてくるのではないでしょうか。

利用可能なデータソース

データベース、ファイル系を中心につなぎ先が色々とあります。その中に 「Custom connectivity through JDBC」とあるので、今回はそこに CData JDBC Driver を組み込む内容となっています。
f:id:sennanvolar44:20200228110220p:plain

Data Science Studio(DSS)のインストール(Windows版)

TOP画面から「GET STARTED」をクリックします。
f:id:sennanvolar44:20200226135809p:plain

無料版を使用したいので、ライセンス「Free Edition」の「INSTALL NOW」をクリックします。
f:id:sennanvolar44:20200226140118p:plain

今回 Windows10 の PC を使っていますので、Windows版を選択します。 f:id:sennanvolar44:20200226142629p:plain

そうすると以下の画面が表示されます。どうやら、windows でネイティブに実行されるようには設計されていないようで、Windows で使用するには Windows Subsystem Linux を使う必要があるとのことです。(または VMなどの仮想環境)

f:id:sennanvolar44:20200226145614p:plain

Windows Subsystem for Linux(以下、WSL) のインストールは以下を参照ください。
docs.microsoft.com

WSL をインストール後、以下のページの通りに DSS をインストールしていきます。

www.dataiku.com

行うことは以下の内容です。

  1. DSS ダウンロードファイルを展開
    tar xzf dataiku-dss-6.0.4.tar.gz

  2. インストールスクリプトの実行
    (Dataiku DSSが構成とデータを保存するディレクトリとポートを指定)
    dataiku-dss-6.0.4/installer.sh -d DATA_DIR -p 11000

CData Salesforce JDBC Driver のインストール

f:id:sennanvolar44:20200228155308p:plain 今回は CData Salesforce JDBC Driver をインストールしていきます。 まずは以下のリンクより評価版ドライバーをダウンロードしてください。

Salesforce JDBC Driver - JDBC | JDBC Drivers | JDBC Connection | JDBC API

ダウンロード後、zip ファイルを DSS が起動しているマシンにもっていきます。 今回の場合でいうと、Windows Subsystem Linux です。

転送が完了しましたら、Windows Subsystem Linux上でSalesforce JDBC Driver をインストールします。インストール方法は「java -jar setup.jar」を行い、インストール先などを指定していきます。

インストールが完了すると、lib ディレクトリに以下のようにjarファイル、licファイルが置かれました。

user@LAPTOP-T1M78GUR:~/cdata/salesforce$ cd lib/
user@LAPTOP-T1M78GUR:~/cdata/salesforce/lib$ ll
total 7556
drwxr-xr-x 1 root root    4096 Feb 28 12:06 ./
drwxr-xr-x 1 root root    4096 Feb 28 12:06 ../
-rw-r--r-- 1 root root 7685088 Feb 27 14:53 cdata.jdbc.salesforce.jar
-rw-r--r-- 1 root root     368 Feb 28 12:06 cdata.jdbc.salesforce.lic
-rw-r--r-- 1 root root     951 Feb 27 14:40 cdata.jdbc.salesforce.remoting.ini

次に、jar ファイルと lic ファイルを Dataikuの DSS から参照できるよう以下のディレクトリに配置します。

user@LAPTOP-T1M78GUR:~/cdata/salesforce/lib$ cp -p cdata.jdbc.salesforce.jar /home/user/DATA_DIR/lib/jdbc/
user@LAPTOP-T1M78GUR:~/cdata/salesforce/lib$ cp -p cdata.jdbc.salesforce.lic /home/user/DATA_DIR/lib/jdbc/
user@LAPTOP-T1M78GUR:~/cdata/salesforce/lib$ ll /home/user/DATA_DIR/lib/jdbc/
total 8064
drwxr-xr-x 1 user user    4096 Feb 28 12:15 ./
drwxr-xr-x 1 user user    4096 Feb 26 17:20 ../
-rw-r--r-- 1 user user 7685088 Feb 27 14:53 cdata.jdbc.salesforce.jar
-rw-r--r-- 1 user user     368 Feb 28 12:06 cdata.jdbc.salesforce.lic
user@LAPTOP-T1M78GUR:~/cdata/salesforce/lib$

これで、DSS に CData Salesforce JDBC Driver を組み込むことができました。

Data Science Studio(DSS)でSalesforce へアクセス

WSL のコンソール画面より起動させていきます。

ユーザ・パスワードを入力しログインします。アカウントがない場合は作成します。
f:id:sennanvolar44:20200226153744p:plain

「NEW PROJECT」→ 「Blank Project」をクリックします。
f:id:sennanvolar44:20200226163915p:plain

データセットを作成していきます。「IMPORT YOUR FIRST DATASET」をクリックします。
f:id:sennanvolar44:20200226165922p:plain

ここでは、「Other SQL」を選択します。
f:id:sennanvolar44:20200227182239p:plain

フリープランでは、Other SQL が使用できないので、2週間限定になりますが Enterprize プランのトライアルを申し込みます。
f:id:sennanvolar44:20200227182533p:plain

そうしますと、登録していたアドレスにトライアルキーが送られてきますのでメールを確認し、どこかにコピーしておきましょう。

また DSS の画面に戻ります。以下の赤枠の順で設定画面を開きます。
f:id:sennanvolar44:20200228103401p:plain

「ENTER LICENSE」をクリックします。
f:id:sennanvolar44:20200228103606p:plain

先ほどコピーしたトライアルキーを貼り付けしアクティベートします。
f:id:sennanvolar44:20200228104028p:plain

では、またプロジェクトのダッシュボードに戻ります。TOP画面から、先ほど作成したプロジェクトを選択します。その後、「IMPORT YOUR FIRST DATASET」をクリックしてください。

f:id:sennanvolar44:20200228104703p:plain

「+ NEW CONNECTION」を選択します。
f:id:sennanvolar44:20200228105607p:plain

「Other SQL databases」をクリックします。
f:id:sennanvolar44:20200228105858p:plain

以下の内容を入力し、接続確認を行います。

  • Connection Name:任意
  • JDBC driver class :cdata.jdbc.salesforce.SalesforceDriver
  • JDBC URL:jdbc:salesforce:User=XXXXX;Password=XXXXX;SecurityToken= XXXXXXXXXXXXX;

f:id:sennanvolar44:20200228113416p:plain

接続ができたら、横の「CREATE」ボタンを押して設定した内容を保存します。

それでは、またプロジェクト画面から「IMPORT YOUR FIRST DATASET」→「Other SQL」で以下の画面を呼び出します。
ここでは、先ほど登録した Salesforce がデータソースとして選べるようになっています。赤枠にあるように、Salesforce のオブジェクトがテーブル一覧になって表示することができました。
f:id:sennanvolar44:20200228114646p:plain

プレビューからデータの中身を参照することもできました。
f:id:sennanvolar44:20200228121830p:plain

Salesforce のデータセットを可視化

プロジェクトから作成したデータセットを選択すると以下の画面が表示されます。ここでは、データセットを使って何をするか設定することができます。

では、SalesforceのAccountオブジェクトのデータをビジュアライズしていきます。データセットから先ほど作成したAccountを選択します。
f:id:sennanvolar44:20200228151643p:plain

Chart タブをクリックします。
f:id:sennanvolar44:20200228152823p:plain

あとは好きなようにChart の種類や項目を選択することで簡単に可視化することができます。
f:id:sennanvolar44:20200228152612p:plain

また、このグラフに対してチャットベースでメッセージでやり取りすることができたりもします。
f:id:sennanvolar44:20200228153458p:plain

さいごに

まだまだやれることはたくさんあるようで、Python や R のコードを自動生成したりだとか、他のコネクションへデータをコピーや、フローを作成したりといったことなど、ほんの少ししか触っていませんが、非常に強力なプラットフォームだという印象を受けました。
そんな DSS の中に今回は CData Salseforce JDBC Driver を組み込んでみました。CData JDBC Driver は30日間、トライアル版として無料で使うことができますので、ご興味がある方は是非一度お試しいただければと思います。

www.cdata.com

トライアル・お問い合わせ

関連コンテンツ