各製品の資料を入手。
詳細はこちら →こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。
インターネット上には膨大な数のPostgreSQL クライアントが存在します。標準ドライバーからBI、Analytics ツールまで、PostgreSQL はデータアクセス用の一般的なインターフェースです。 ODBC Drivers に含まれるSQL Gateway を使用することで、どの標準クライアントからでも接続が可能なPostgreSQL エントリポイントを作成することができるようになります。
Windows でPostgreSQL データベースとしてSpark のデータにアクセスするには、CData SQL Gateway およびODBC Driver for SparkSQL、EnterpriseDB のMySQL 外部データラッパーを使用します。この記事では、外部データラッパーをVisual Studio でコンパイルして拡張機能としてインストールし、PostgreSQL Server からSpark のデータをクエリします。
CData ODBC ドライバは、以下のような特徴を持ったリアルタイムデータ連携ソリューションです。
CData ODBC ドライバでは、1.データソースとしてSpark の接続を設定、2.PostgreSQL 側でODBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。
まずは、本記事右側のサイドバーからSparkSQL ODBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。
接続プロパティが未設定の場合は、まずデータソースのODBC DSN で設定します。これはドライバーインストール時の最後の手順にあたります。Microsoft ODBC データソースアドミニストレーターを使ってODBC DSN を作成および設定できます。
SparkSQL への接続を確立するには以下を指定します。
Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
MySQL リモートサービスは、クライアントからのMySQL 接続の受信を待機するデーモンプロセスです。CData SQL Gateway でMySQL リモートサービスを構成するには、SQL Gateway の概要にあるセットアップガイド を参照してください。
外部データラッパー(FDW)は、PostgreSQL を再コンパイルすることなく拡張機能としてインストールできます。Unix ベースのシステムでPostgreSQL を実行している場合、PostgreSQL Extension Network(PGXN)を使用してFDW(mysql_fdw)をインストールできます。Windows でPostgreSQL を実行している場合は、拡張機能をコンパイルして最新バージョンを使用していることを確認してください。以下のステップに従って、Visual Studio から拡張機能を構築するのに必要な編集を行います。
外部データラッパーを構築するために、以下を行います。
必要なソフトウェアとソースコードを取得したら、Visual Studio で拡張機能をコンパイルする準備ができました。以下のステップに従い、mysql_fdw ソースを使用してプロジェクトを作成します。
以下のステップに従ってプロジェクトを構成します。
以下のステップに従って必要な依存関係を追加します。
postgres.lib
libmysql.lib
WS2_32.lib
Secur32.lib
さらに、「Inherit From Parent」または「Project Defaults」がチェックされていることを確認します。
MyMySQLConnectorCInstallation\include
MyPostgreSQLInstallation\MyPostgreSQLVersion\include\server\port\win32_msvc
MyPostgreSQLInstallation\MyPostgreSQLVersion\include\server\port\win32
MyPostgreSQLInstallation\MyPostgreSQLVersion\include\server
MyPostgreSQLInstallation\MyPostgreSQLVersion\include
プロジェクトを設定したら、Visual Studio でmysql_fdw を構築するために以下の変更を加えます。
#define dlsym(lib, name) (void*)GetProcAddress((HMODULE)lib, name)
#define dlopen(libname, unused) LoadLibraryEx(libname, NULL, 0)
mysql_dll_handle = dlopen(_MYSQL_LIBNAME, RTLD_LAZY | RTLD_DEEPBIND);
mysql_dll_handle = dlopen("libmysql.dll", 0);
__declspec(dllexport) extern Datum mysql_fdw_handler(PG_FUNCTION_ARGS);
__declspec(dllexport) extern Datum mysql_fdw_validator(PG_FUNCTION_ARGS);
これで、Release 構成とビルドを選択できるようになりました。
DLL をコンパイルしたら次のステップに従って拡張機能をインストールします。
拡張機能をインストールしたら、次のステップに従ってSpark のデータへのクエリの実行を開始します。
C:\> psql -U postgres
postgres=#CREATE EXTENSION mysql_fdw;
postgres=# CREATE SERVER SparkSQL FOREIGN DATA WRAPPER mysql_fdw OPTIONS (host
'127.0.0.1', port '3306');
postgres=# CREATE USER MAPPING for postgres SERVER SparkSQL OPTIONS (username
'admin', password 'test');
postgres=# CREATE SCHEMA SparkSQL_db;
postgres=# IMPORT FOREIGN SCHEMA "CData SparkSQL Sys" FROM SERVER SparkSQL INTO SparkSQL_db;
これで、Spark へのread/write コマンドを実行することができるようになりました。
postgres=# SELECT * FROM SparkSQL_db."customers";
このようにCData ODBC ドライバと併用することで、270を超えるSaaS、NoSQL データをコーディングなしで扱うことができます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。
CData ODBC ドライバは日本のユーザー向けに、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。