こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。
Tableau Bridge は、データソースとのライブ接続を維持したままTableau Cloud にダッシュバードをパブリッシュ可能にします。本記事では、Tableau Bridge を使って、Spark のデータに連携するワークブックをデータ更新可能な状態でパブリッシュする方法を説明します。
CData ODBC drivers は、Tableau Cloud からSpark のデータにノーコードでのアクセスを実現します。ドライバーにはパフォーマンスを向上させるための効率的なデータ処理が組み込まれています。Spark からTableau Cloud に複雑なSQlクエリを発行すると、ドライバーはファイルタリング、集計などのクエリオペレーションでデータソース側でサポートされているものはSpark 側に、JOIN などのサポートされていないクエリはドライバーの内部SQL エンジンにて処理を行います。また、動的なメタデータクエリ機能が実装されており、Tableau からノーコードでSpark のデータのネイティブなデータ型を使ってデータを効率的に分析できます。
CData ODBC ドライバとは?
CData ODBC ドライバは、以下のような特徴を持ったリアルタイムデータ連携ソリューションです。
- Spark をはじめとする、CRM、MA、会計ツールなど多様なカテゴリの270種類以上のSaaS / オンプレミスデータソースに対応
- 多様なアプリケーション、ツールにSpark のデータを連携
- ノーコードでの手軽な接続設定
- 標準 SQL での柔軟なデータ読み込み・書き込み
CData ODBC ドライバでは、1.データソースとしてSpark の接続を設定、2.Tableau Bridge 側でODBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。
CData ODBC ドライバのインストールとSpark への接続設定
まずは、本記事右側のサイドバーからSparkSQL ODBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。
接続プロパティの指定がまだの場合は、DSN (データソース名)で行います。Microsoft ODBC データソースアドミニストレーターを使ってODBC DSN を作成および設定できます。一般的な接続プロパティは以下のとおりです:
SparkSQL への接続
SparkSQL への接続を確立するには以下を指定します。
- Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port:SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
Databricks への接続
Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、
「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
- Server:Databricks クラスターのサーバーのホスト名に設定。
- Port:443
- TransportMode:HTTP
- HTTPPath:Databricks クラスターのHTTP パスに設定。
- UseSSL:True
- AuthScheme:PLAIN
- User:'token' に設定。
- Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。
DSN を設定する際には、Max Rows プロパティを設定することをお勧めします。これにより取得される行数が制限され、パフォーマンスを向上させます。
Spark のデータをTableau ダッシュボードに設定
- 新しいワークブックで、データソース画面で、その他のデータベース(ODBC) を選択します。システムDSN であるCData SparkSQL Sys を選択します。
- [データベース]メニューでCData を選択します。
- [表]ボックスにテーブル名を入力、または[🔎]マーククリックして、テーブル一覧を表示させます。[新しいカスタムSQL]をクリックしてSQL クエリを入力することもできます。この記事ではCustomers テーブルを選択します。
- テーブルをJOIN エリアにドラッグします。複数のテーブルを選択することも可能で、ドライバーにビルトインされたSQL エンジンで複雑なデータリクエストでも処理が可能です。
- ワークシートタブを選択すると、カラムがディメンションとメジャーに区別されて表示されます。これらをダッシュボードで使ってビジュアライズを行います。
Tableau Bridge をサービスとして起動する
- [サーバー]メニューから[Tableau Bridge クライアントを起動]を選択します。
- サイト管理者権限でTableau Bridge にサインインします。
- プロンプトが出たら、データをパブリッシュするTableau Cloud サイトを選択します。Bridge クライアントが開き、システムトレーからアクセスできるようになります。
- デフォルトで、Tableau Bridge クライアントはApplication モードに設定されています。[Switch to service]を選択してライブ接続が扱えるようにします。
- Tableau Cloud サイトに管理者としてログインします。
- [設定]->[Bridge]をクリックします。
- Bridge 設定では、[Enable Clients to Maintain Live Connections]で、[Enable Tableau Bridge clients to maintain live connections to on-premises data.]をチェックして有効化します。
リアルタイムデータソース接続を設定したTableau ダッシュボードをパブリッシュする
Tableau Bridge とTabelau Online 両方のデータ接続設定が完了したら、Tableau Cloud にワークブックをパブリッシュしましょう。
[サーバー]メニューから[ワークブックのパブリッシュ]をクリックし、ワークブックを指定します。
公開するワークブックを選択したら、公開設定でCData ODBC Driver for Spark がワークブックに個別のリアルタイムデータソースとして含まれるようにします。
- [データソース]で、オプションをクリックしてワークブックにデータソースを埋め込む編集を行います。
- パブリッシュタイプを[Publish Separately]に変更し、認証方法を選択します。
- [リアルタイムデータソースへの接続維持]を選択して、パブリッシュボタンを押して完了します。
パブリッシュされたワークブックは、[更新]ボタンを押すことでSpark のデータを更新することができます。
Spark からTableau Bridge へのデータ連携には、ぜひCData ODBC ドライバをご利用ください
このようにCData ODBC ドライバと併用することで、270を超えるSaaS、NoSQL データをコーディングなしで扱うことができます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。
CData ODBC ドライバは日本のユーザー向けに、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。