製品をチェック

Apache Spark Power BI Connector の30日間無償トライアルをダウンロード

 30日間の無償トライアルへ

製品の詳細

Apache Spark アイコン Apache Spark Power BI Connector 相談したい

Power BI からApache Spark データにリアルタイムアクセスする認定コネクタ。ハイパフォーマンス、リアルタイム連携、高度なスキーマ自動検出、SQL -92 をサポート。

Power BI をSpark データに接続して分析・可視化する方法。レポートやダッシュボードでの活用も

ノーコードで使えるCData Power BI Connector で、Spark データを可視化。データ分析やレポーティング、ダッシュボード作成に活用できます。

加藤龍彦
デジタルマーケティング

最終更新日:2023-09-05
spark ロゴ

CData

powerbi ロゴ画像
Power BI ロゴ

こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。

CData Power BI Connectors は、セルフサービスBI であるMicrosoft Power BI のデータソースをSpark を含む270種類以上のSaaS / DB に拡充、分析や可視化を実現します。もちろん、ダッシュボードでSpark のデータをモニタリングしたり、定期更新やリアルタイムでのデータ更新も自在に可能。この記事では、Power BI Connector を使用してPower BI Desktop からSpark の可視化を作成する方法について詳しく説明します。

クラウド提供のPowerBI.com へのSpark レポートの発行(パブリッシュ)方法については、こちらの記事をご参照ください。

CData Power BI Connectors とは?

CData Power BI Connectors は、以下の特徴を持つPower BI とのリアルタイムデータ連携ソリューションです。

  1. Spark をはじめとする、CRM、MA、グループウェア、広告、会計ツールなど多様な270種類以上のSaaS / DB に対応
  2. DirectQuery に対応のため、大容量データの動的な取得・更新も可能
  3. ノーコードでの手軽な接続設定
  4. 標準SQL での柔軟なデータ読み込み

CData Power BI Connectors では、1.データソースとしてSpark の接続を設定、2.Power BI 側でコネクタとの接続を設定、という2ステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。

CData Power BI Connector のインストールとSpark への接続設定

まずは、本記事右側のサイドバーからSparkSQL Power BI Connector の無償トライアルをダウンロード・インストールしてください。30日間無料で製品版の全機能が使用できます。

Power BI のデータソースとしてSpark を設定

CData Power BI Connector をインストールすると完了後にDSN 設定画面が開きます。ここでSpark への接続を設定します。もしDSN 設定画面が開かない場合は、手動で「ODBC データソース アドミニストレータ(DSN)」プログラムを開いてください。

DSN 内の「CData PBI SparkSQL」を選択します。DSN 設定画面で必要な資格情報を入力してSpark データに接続します。入力後に接続のテストを行い、OK をクリックすれば接続は完了です。埋め込みOAuth に対応したデータソースであれば、「接続テスト」をクリックするとログイン画面が立ち上がり、ログインを完了するだけで接続設定が完了します。簡単ですね!

Power BI Connector DSN接続設定画面

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

  • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
  • Port:SparkSQL インスタンスへの接続用のポートに設定。
  • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
  • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

  • Server:Databricks クラスターのサーバーのホスト名に設定。
  • Port:443
  • TransportMode:HTTP
  • HTTPPath:Databricks クラスターのHTTP パスに設定。
  • UseSSL:True
  • AuthScheme:PLAIN
  • User:'token' に設定。
  • Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。

これで、Spark データをPower BI に連携するための準備は完了です!いよいよPower BI からSpark データを取得していきます。

Spark テーブルをPower BI からクエリ

それでは、実際にPower BI からSpark データを取得してみましょう。

  1. Power BI Desktop を開き、「データ」->「データを取得」->「その他」->「CData SparkSQL」を選択して接続を押します。次にサードパーティドライバーのプロンプトが出る場合には、そのまま続行します。
  2. CData PBI SparkSQL を「Data Source Name」欄に入力します。データ接続モードを選択します:
    インポート:データをプロジェクトにインポートする場合。オンデマンドで更新が可能。
    DirectQuery:Spark データとリアルタイムで連携する場合。
  3. ナビゲーターダイアログで使用するテーブルを選択します。選択したら、「読み込み」ボタンをクリックしてデータを取得します。 利用可能なテーブル一覧
  4. (オプション)データをそのまま読み込まず、「データの変換」を使ってデータをカスタマイズすることもできます。例えば、以下の操作が可能です。必要に応じて試してみてください。
    • カラムのデータ型の変更
    • カラムの削除
    • カラムのグルーピング

Power BI は、コネクタが取得・検出したSpark のカラム毎のデータ型をそのまま使えます。データ変換を取得して、指定した条件でクエリを発行し、Spark からデータを取得します。

Spark データを分析・可視化

データをPower BI で取得したら、いよいよ可視化に活用できます!レポートビューで取得したSpark フィールドをドラッグ&ドロップして可視化を作成していきましょう。グラフの種類を可視化ペインから選択し、フィールドのカラムをドラッグして設定します。

Power BI を使ったSparkデータの可視化

「更新」をクリックすると、その時点でのリアルタイムデータをSpark から取得してレポートに反映させることができます。

これで、Spark データのPower BI での可視化ができました!あとは可視化を追加したり、フィルタリングや集計、データ変換などPower BI のパワフルな機能を活用して分析、レポーティング、ダッシュボード構築などさまざまな用途で利用できます。

Spark からPower BI へのデータ連携には、CData Power BI Connector をご利用ください

本記事で紹介したようにCData Power BI Connectors と併用することで、270を超えるSaaS、NoSQL、DB のデータをコーディングなしで扱うことができます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。

CData Power BI Connector は日本のユーザー向けに、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。製品の使用方法、購入方法などについてご質問がありました、お気軽にお問い合わせください。

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。