製品をチェック

Databricks Data Provider の30日間無償トライアルをダウンロード

 30日間の無償トライアルへ

製品の詳細

Databricks アイコン Databricks ADO.NET Provider 相談したい

Databricks 連携のパワフルな.NET アプリケーションを素早く作成して配布。

Databricks をSSIS 経由でSQL サーバーにバックアップする

Databricks 用のCData ADO.NET プロバイダーを使用して簡単にSQL サーバーへデータをバックアップします。ここでは、Databricks をデータベースに入力する際、SSIS ワークフローを使用します。

加藤龍彦
デジタルマーケティング

最終更新日:2022-04-12

こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。

Databricks 用のCData ADO.NET プロバイダーはDatabricks をバックアップ、レポート、フルテキスト検索、分析などを行うアプリケーションに接続します。

Databricks とのデータ連携について

Databricks のライブデータへのアクセスと統合は、CData を活用することでかつてないほど簡単になります。ユーザーは、CData のコネクティビティを利用して以下のことを実現しています。

  • ランタイムバージョン 9.1 - 13.X 、およびPro またはClassic Databricks SQL バージョンに至るすべてのバージョンのDatabricks にアクセスできます。
  • あらゆるホスティングソリューションと互換性があるため、Databricks を希望する環境で利用できます。
  • 個人用アクセストークン、Azure サービスプリンシパル、Azure AD など、さまざまな方法でセキュアな認証を行います。
  • Databricks ファイルシステム、Azure Blog Storage、AWS S3 Storage を使用してDatabricks にデータをアップロードします。

ユーザーの多くはCData のソリューションを使用して異なるシステムからDatabricks データレイクハウスにデータを移行していますが、CData のリアルタイム接続ソリューションを使ってデータベースとDatabricks 間の接続をフェデレートしているケースもあります。このようなケースでは、SQL Server のリンクサーバーやPolybase を使用して、既存のRDBM 内からDatabricks にリアルタイムアクセスしています。

Databricks の一般的な使用事例と、CData のソリューションがデータに関する問題の解決にどのように役立つのかについては、ブログをご覧ください:What is Databricks Used For? 6 Use Cases

ここでは、SQL サーバー SSIS ワークフロー内でDatabricks 用のプロバイダーを使用して、Databricks をMicrosoft SQL サーバーデータベースに直接転送する方法を説明します。 以下のアウトラインと同じ手順を、CData ADO.NET データプロバイダーにて使用することで、SSIS 経由でSQL サーバーを直接リモートデータに接続できます。

  1. Visual Studio を開き、新しいIntegration サービスプロジェクトを追加します。
  2. ツールボックスからControl Flow 画面へ、新しいData Flow タスクを追加します。
  3. Data Flow 画面で、ツールボックスから[ADO.NET Source] と[OLE DB Destination] を追加します。

    The components used in the data task in this example.
  4. 新しい接続を追加し、Databricks 2015 用の .NET プロバイダー\CData ADO.NET プロバイダーを選択します。
  5. Connection Manager で、Databricks 用に接続の詳細を入力します。下は一般的な接続文字列です。

    Server=127.0.0.1;Port=443;TransportMode=HTTP;HTTPPath=MyHTTPPath;UseSSL=True;User=MyUser;Password=MyPassword;

    Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。

    Note:Databricks インスタンスで必要な値は、クラスターに移動して目的のクラスターを選択し、Advanced Options の下にあるJDBC/ODBC タブを選択することで見つけることができます。

    • Database:Databricks データベース名に設定。
    • Server:Databricks クラスターのサーバーのホスト名に設定。
    • HTTPPath:Databricks クラスターのHTTP パスに設定。
    • Token:個人用アクセストークンに設定(この値は、Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます)。

    Connection properties in the Connection Manager dialog.(Salesforce is shown.)
  6. DataReader editor を開き、次のインフォメーションを設定します。

    • ADO.NET 接続マネージャー:Connection Manager のメニューで、先ほど作成した[Data Connection] を選択します。
    • データアクセスモード:[SQL command] を選択します。
    • SQL command テキスト:DataReader Source editor で、Component Properties タブを開き、下にあるようなSELECT command を入力します。

      SELECT City, CompanyName FROM Customers WHERE Country = 'US'

    The connection and query specified in the source component properties.(Salesforce is shown.)
  7. DataReader editor を閉じ、DataReader Source の下の矢印をドラッグして、OLE DB Destination に接続します。
  8. OLE DB Destination を開き、Destination Component Editor で次のインフォメーションを入力します。

    • コネクションマネージャー:新しい接続を追加します。接続するサーバーおよびデータベースの情報を入力します。ここでは、SQLExpress は他のマシンで運用中です。
    • データアクセスモード:データアクセスモードを[table or view] に設定し、データベースに入力するテーブルまたはビューを選択します。
  9. Mappings 画面で必要なプロパティを設定します。

    Input and destination columns in the OLE DB Destination Editor.
  10. OLE DB Destination Editor を閉じ、プロジェクトを始動します。SSIS タスクの実行が完了すれば、 Databricks から取得したデータが、データベースに入力されます。

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。