製品

ソリューション

コネクタ

サポート

価格

企業情報

事例

ブログ

検索お問い合わせ

製品をチェック

Apache Spark ODBC Driver の30日間無償トライアルをダウンロード

30日間の無償トライアルへ

製品の詳細

Apache Spark ODBC Driver 相談したい

Apache Spark ODBC Driver は、ODBC 接続をサポートするさまざまなアプリケーションからApache Spark データへの接続を実現するパワフルなツールです。

標準SQL とSpark SQL をマッピングして、SQL-92 で直接Apache Spark にアクセス。

Spark データにSQL Server のリンクサーバーとして接続する方法

ODBC Driver のSQL Gateway 機能を使ってSpark のリンクサーバーをセットアップ。

兵藤朋代
コンテンツスペシャリスト
最終更新日：2023-09-07

CData

こんにちは！ドライバー周りのヘルプドキュメントを担当している兵藤です。

本記事では、SQL Server のTDS Remoting 機能を使ってSpark のリンクサーバーをセットアップする方法をご紹介します。リンクサーバーの利用には、CData ODBC ドライバに同梱されているSQL Gateway を使用します。 SQL Server のインターフェースでSpark への読み書き双方向のアクセスが可能になります。

Spark リンクサーバー利用シナリオ

SQL Server に接続しているアプリケーションでSpark データを利用したいがデータ接続を増やしたくない
Spark データをSQL Server のデータや他のリンクサーバーのデータをJOIN などして使いたい
利用したいミドルウェア・BI ツールなどにODBC やJDBC の汎用のインターフェースがないが、SQL Server には接続できる

Spark DSN の設定

まずは、本記事右側のサイドバーからSparkSQL ODBC Driver の無償トライアルをダウンロード・インストールしてください。ODBC ドライバーのインストール完了時にODBC DSN 設定画面が立ち上がります。または、Microsoft ODBC データソースアドミニストレーターを使ってDSN を作成および設定できます。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
Port：SparkSQL インスタンスへの接続用のポートに設定。
TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

Server：Databricks クラスターのサーバーのホスト名に設定。
Port：443
TransportMode：HTTP
HTTPPath：Databricks クラスターのHTTP パスに設定。
UseSSL：True
AuthScheme：PLAIN
User：'token' に設定。
Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。

SQL Gateway でのSpark ODBC DSN を設定

CData ODBC ドライバにはSQL Gateway が同梱されています。このSQL Gateway に、Spark ODBC Driver をサービスとして設定します。

「スタート」画面から「SQL Gateway」を起動します。青い「C」のSQL Gateway ロゴが右下のインジケータに表示されます。アプリケーションコンソールが開かない場合には、SQL Gateway アイコンを右クリックして、「Open Application」をクリックしてください。
アプリケーションコンソールの「Service」タブを開いて、「Add」をクリックして、新しいODBC データソースを設定します。
Spark ODBC の設定を行います。
Service Name]:任意
リモーティングDB 選択:SQL Server を選択
Data Source:ドロップダウンでCData Spark Source Sys を選択
Port:使用していないポートを選択
次に「Users」タブ→「Add」からユーザーを登録します。
ユーザー毎にFull アクセスか、Readonly か、None の権限を選択できます。
複数のODBC データソースがある場合には、データソース毎に権限の設定が可能です。

「OK」を押して、ユーザー登録を完了します。その後「Save Changes」で設定を保存します。
SQL Gateway の「Service」タブで「Start」ボタンを押して、サービスを起動します。サービスの左側の〇が緑色になれば、サービスは起動中です。

SQL Server でSpark リンクサーバーを設定

SQL Gateway 側でサービスの設定が終わったら、SQL Server 側でSpark サービスをリンクサーバーとして使う設定をしましょう。

SQL Server Management Studio (SSMS) を開きます。
オブジェクトエクスプローラーの「サーバーオブジェクト」で「リンクサーバー」を右クリックして、「新しいリンクサーバー」をクリックします。
新しいリンクサーバーの設定画面の「全般」で、以下を入力します。
サーバー種類：その他データソース
プロバイダー：SQL Server Native _Client 11.0
データソース：この例の場合、localhost, 1433 を入力
カタログ：ODBC DSN 名を入力
また、「セキュリティ」では、「このセキュリティコンテキスト」を選択して、リモートログインにSQL Gateway にユーザー設定したUser 名とPassword を入力します。

これで、リンクサーバーの設定は終わりなので、「OK」を押して設定を保存します。

SSMS でデータを見てみる

SSMS のオブジェクトエクスプローラーのリンクサーバー下にSpark のリンクサーバーが作成され、「テーブル」下にSpark のデータがアプリ単位でテーブルが生成されます。
新しいクエリを選択し、Spark データを取得してみます。


SELECT * from リンクサーバー名.CData Spark Source Sys（ODBC DSN 名）.Spark.テーブル名

このように、API のリクエストではなく通常のSQL 構文でデータを扱うことが可能になっています

Visual Studio からSpark リンクサーバーを使う

Visual Studio のサーバーエクスプローラーの「データ接続」を右クリックし、「接続の追加」をクリックして、データソースの選択画面を開きます。データソースの選択画面でデータソースを「Microsoft SQL Server 」に選択して、「続行」を押します。

「接続の追加」画面で、以下を入力します。
サーバー名:SQL Server のサーバー名
認証:任意の認証方式
データベース名の選択または入力:※master など
※リンクサーバーを直接データベース名として入力することはできないようです。なので上位のデータベース名で設定しておきます。

「テスト接続」をして大丈夫であれば、「OK」を押して設定を完了させます。

「新しいクエリ」で、SQL でSELECT 文を書いてデータを取得してみます。


SELECT * from リンクサーバー名.CData Spark Source Sys（ODBC DSN 名）.Spark.テーブル名

このように、通常のSQL Server のリンクサーバーと同じようにVisual Studio 内Spark データを扱うことが可能になります。他のIDE でもSQL Server にアクセスする方法でSpark データにSQL でアクセスが可能になります。
複数データソースのJOIN などを行う場合には大変便利です。

おわりに

このようにCData ODBC ドライバと併用することで、270を超えるSaaS、NoSQL データをSQL Server に連携できます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。

無償トライアルへ

お問い合わせ

CData Software は、データアクセスおよびデータ接続ソリューションのリーディングプロバイダーです。CData の標準コネクタはあらゆるツール・ミドルウェアからのSaaS やDB データの連携を簡単にします。

お問い合わせ

製品概要

データコネクタ

ETL / ELT ソリューション

クラウド & API 接続

OEM & カスタムドライバー開発

お問い合わせ先

製品を知る

データ分析 & BI