製品をチェック

Apache Spark Driver の30日間無償トライアルをダウンロード

 30日間の無償トライアルへ

製品の詳細

Apache Spark アイコン Apache Spark JDBC Driver 相談したい

Apache Spark 連携のパワフルなJava アプリケーションを素早く作成して配布。

SnapLogic でSpark を外部サービスに連携

CData JDBC Driver を使用して、SnapLogic と外部サービスを連携。

古川えりか
コンテンツスペシャリスト

最終更新日:2021-11-05
spark ロゴ

CData

jdbc ロゴ画像
SnapLogic ロゴ

こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。

SnapLogic はintegration Platform-as-a-Service(iPaaS)であり、ユーザーはノーコードでデータ連携フローを作成できます。CData JDBC ドライバと組み合わせることで、ユーザーはSnapLogic ワークフローからSpark を含む250を超えるSaaS、ビッグデータ、NoSQL データソースのリアルタイムデータに接続できます。

組み込みの最適化されたデータ処理によって、CData JDBC Driver はリアルタイムSpark のデータを高速に扱えます。プラットフォームがSpark に複雑なSQL クエリを発行すると、ドライバーはフィルタや集計などのサポートされているSQL 操作をSpark に直接プッシュし、サポートされていない操作(主にSQL 関数とJOIN 操作)は組み込みSQL エンジンを利用してクライアント側で処理します。組み込みの動的メタデータクエリを使用すると、ネイティブデータソース型を使用してSpark のデータを操作することができます。

SnapLogic からSpark に接続する

SnapLogic からSpark のデータに接続するには、CData Spark JDBC Driver をダウンロードしてインストールします。インストール画面に従ってください。インストールが完了すると、インストール先のディレクトリ(デフォルトでは、C:/Program Files/CData/CData JDBC Driver for SparkSQL/lib)にJAR ファイルが作成されます。

Spark JDBC Driver をアップロードする

インストール後、JDBC JAR ファイルをSnapLogic 内のディレクトリ(例えば、projects/Jerod Johnson)にManager タブからアップロードします。

アップロードされたJDBC Driver(Salesforce とQuickBooks Online の場合)

接続を設定する

JDBC Driver がアップロードされると、Spark への接続を作成できます。

  1. Designer タブに移動します。
  2. Snaps から「JDBC」を展開して、「Generic JDBC - Select」snap をdesigner にドラッグします。 designer にGeneric JDBC snap を追加
  3. Add Account をクリック(または既存のものを選択)して、「Continue」をクリックします。
  4. 次のフォームでは、JDBC 接続プロパティを設定します。
    • JDBC JARs 以下にアップロードしたJAR ファイルを追加します。
    • JDBC Driver Classcdata.jdbc.sparksql.SparkSQLDriver に設定します。
    • JDBC URL をSpark JDBC Driver 用のJDBC 接続文字列に設定します。例えば、

      jdbc:sparksql:Server=127.0.0.1;RTK=XXXXXX;
      です。

      NOTE: RTK は評価版もしくは製品版のキーです。詳しくは、CData のサポートチームにご連絡ください接続を設定(Salesforce の場合)

      組み込みの接続文字列デザイナー

      JDBC URL の作成の補助として、Spark JDBC Driver に組み込まれている接続文字列デザイナーが使用できます。JAR ファイルをダブルクリックするか、コマンドラインからjar ファイルを実行します。

      java -jar cdata.jdbc.sparksql.jar

      接続プロパティを入力し、接続文字列をクリップボードにコピーします。

      SparkSQL への接続

      SparkSQL への接続を確立するには以下を指定します。

      • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
      • Port:SparkSQL インスタンスへの接続用のポートに設定。
      • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
      • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

      Databricks への接続

      Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

      • Server:Databricks クラスターのサーバーのホスト名に設定。
      • Port:443
      • TransportMode:HTTP
      • HTTPPath:Databricks クラスターのHTTP パスに設定。
      • UseSSL:True
      • AuthScheme:PLAIN
      • User:'token' に設定。
      • Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。

      組み込みの接続文字列デザイナーを使ってJDBC URL を生成(Salesforce の場合)
  5. 接続プロパティの入力後、「Validate」、そして「Apply」をクリックします。

Spark のデータを読み込む

接続を検証、適用後に開くフォームで、クエリを設定します。

  • Schema name を"SparkSQL" に設定します。
  • Table name を、スキーマ名を使用したSpark 用のテーブルに設定します。例えば、"SparkSQL"."Customers" です(ドロップダウンを使用して利用可能なテーブルの全リストを確認できます)。
  • テーブルから、使用したい項目ごとにOutput fields を追加します。
Select snap を設定(Salesforce の場合)

Generic JDBC - Select snap を保存します。

接続とクエリを設定したら、snap の終端部分(以下のハイライト部分)をクリックしてデータをプレビューします。

snap の終端部分をクリックしてデータをプレビュー。

結果が期待どおりのものであることを確認したら、他のsnap を追加してSpark のデータを別のエンドポイントに渡すこともできます。

データをプレビュー(Salesforce の場合)。

Spark のデータを外部サービスにパイプ

本記事では、データをGoogle Spreadsheet にロードします。他のあらゆるサポートされているsnap が使用でき、Generic JDBC snap を他のCData JDBC ドライバと利用してデータを外部サービスに移すこともできます。

  1. まず、「Worksheet Writer」snap を"Generic JDBC - Select" snap の終端部分にドロップします。
  2. Google Sheets に接続するアカウントを追加します。 Google に接続
  3. Worksheet Writer snap を、Spark のデータをGoogle Spreadsheet に書き込むよう設定します。 Google Spreadsheet に書き込み

これで、接続済みのパイプラインを実行してSpark からデータを抽出し、Google Spreadsheet にプッシュできます。

Google Spreadsheets に書き込まれたデータ(Salesforce の場合)

外部データをSpark にパイプ

上述のように、JDBC Driver for SparkSQL をSnapLogic から使用してデータをSpark に書き込むことができます。まずは、Generic JDBC - Insert またはGeneric JDBC - Update snap をダッシュボードに追加します。

  1. 既存の「Account」(接続)を選択するか、新しく作成します。
  2. クエリの設定。
    • Schema name を"SparkSQL" に設定します。
    • Table name をスキーマ名を使用したSpark のテーブルに設定します。例えば、"SparkSQL"."Customers"(ドロップダウンを使用して利用可能な全テーブルの一覧を確認できます)。
    INSERT snap を設定(Salesforce の場合)
  3. Generic JDBC - Insert/Update snap を保存します。

これで、Spark にデータを書き込んだり、新しいレコードを挿入したり、既存のレコードを更新するsnap が設定できました。

詳細情報と無償評価版

CData JDBC Driver for SparkSQL を使えば、Spark のデータを外部サービスに連携するためのパイプラインをSnapLogic で作成できます。Spark への接続に関する詳細については、CData のSpark 連携ページを参照してください。30日の無償評価版をダウンロードして今すぐ使い始めましょう。

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。