こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。
Tableau といえば、直感的に使えるUI と高度なデータ分析・ダッシュボード構築機能を備えた人気のBI ツールですね。このTableau をCData ODBC Driver for SparkSQL と組み合わせることで、Tableau からリアルタイムでSpark のデータにアクセスできます。本記事では、CData ODBC ドライバのインストールからTableau Desktop でのSpark のデータへの連携、ダッシュボードの構築までをステップバイステップでご紹介します。
CData ODBC ドライバとは?
CData ODBC ドライバは、以下のような特徴を持った製品です。
- Spark をはじめとする、CRM、MA、会計ツールなど多様なカテゴリの270種類以上のSaaS / オンプレデータソースに対応
- Tableau をはじめとする多様なBI・帳票・データ分析ツールにSpark のデータを連携
- ノーコードでの手軽な接続設定
CData ODBC ドライバでは、1.データソースとしてSpark の接続を設定、2.Tableau 側でODBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。
Spark のODBC 接続を構成する
まずは、本記事右側のサイドバーからSparkSQL ODBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。
インストール後自動で開かれるMicrosoft ODBC データソースアドミニストレーターを使って、ODBC DSN を作成および設定できます。
SparkSQL への接続
SparkSQL への接続を確立するには以下を指定します。
- Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port:SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
Databricks への接続
Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、
「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
- Server:Databricks クラスターのサーバーのホスト名に設定。
- Port:443
- TransportMode:HTTP
- HTTPPath:Databricks クラスターのHTTP パスに設定。
- UseSSL:True
- AuthScheme:PLAIN
- User:'token' に設定。
- Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。
Tableau Desktop にODBC 接続を追加する
次に、Tableau Dekstop を開いて先ほど設定したSpark へのODBC 接続を、データソースとして追加しましょう。まずは、Tableau Desktop を起動します。
- 起動後最初に表示される画面で、「接続」パネルから、「その他」→「その他データベース(ODBC)」をクリックします。
- 表示される画面の「DSN」に、先ほど設定したCData Spark Source を指定して、「接続」をクリックします。完了したら、「サインイン」ボタンをクリックします。
Spark のデータへの接続はこれだけで完了です!ここからは実際にSpark のデータを取得して、データを使ったダッシュボードを作っていきましょう。
Tableau でSpark のデータを可視化する
可視化・分析に使用するSpark のデータを選択する
まずはSpark から可視化 / 分析に使うデータを指定します。
- 「データ ソース」の画面が表示されたら、「データベース」ドロップダウンで「CData」を選択します。
- 次に、「スキーマ」ボックスで「🔎」(検索)マークをクリックして、「Spark」を選択します。
- 次に「テーブル」ボックスで、Spark 内の可視化したいテーブル名を検索して選択します。または、「🔎」(検索)マークをクリックしてテーブルを一覧を表示してそこから選択したり、「新しいカスタム SQL」ボタンからSQL ベースでデータをクエリすることもできます。
- テーブルを選択すると右側の画面に選択したテーブルが表示されるので、必要に応じてテーブル間の関連付けを行います。画面下部のペインで選択したテーブルのフィールドやプレビューを参照できます。
- 右上の「接続」メニューで「ライブ」オプションをクリックすると、Tableau へのデータロードをスキップしてリアルタイムでデータを扱うことができます。
これで、可視化に使用するデータの準備が整いました。あとは、Tableau の強力な可視化機能をフル活用してデータを可視化 / 分析できます。
Spark のデータを可視化する
それでは、実際にSpark のデータを可視化してみましょう。ここでは例としてCustomers テーブルのデータを使います。
- データソースからシートタブに移動して、「テーブル」以下に表示されているカラムから可視化したいカラムを選択して行と列にドラッグドロップします。Tableau が自動で適切なグラフを選択くれるので、これだけでデータを可視化できました。
- 複数のワークシートを作成すれば、組み合わせてダッシュボードを構築することもできます。
Spark からTableau へのデータ連携には、ぜひCData ODBC ドライバをご利用ください
このようにCData ODBC ドライバと併用することで、270を超えるSaaS、NoSQL データをTableau からコーディングなしで扱うことができます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。
日本のユーザー向けにCData ODBC ドライバは、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。