ノーコードでクラウド上のデータとの連携を実現。
詳細はこちら →CData
こんにちは!リードエンジニアの杉本です。
Embulk は、大量のデータをDB、クラウドデータストア、DWH にロードできるオープンソースETL ツールです。近頃のトレンドでは1社で複数のオンプレアプリやSaaS を使っており、データ分析にはETL ツールを使ってデータを丸ごとDB/DWH にロードしてから、分析や可視化をすることが主流になっています。Embulk にはいろいろなプラグインがあり、多様なInput とOutput 処理をサポートしています。この記事では、Embulk のJDBC Input Plugin と CData Driver for IBMCloudObjectStorage を使って、IBM Cloud Object Storage のデータを簡単にDB にロードする方法をご紹介します。この例ではロード先のDB にはMySQL を使います。
次に、EmbulkとCData JDBC Driverをつなぎこむための、JDBC Input Plugin をインストールします。以下のリンクからダウンロードできます。
https://github.com/embulk/embulk-input-jdbc/tree/master/embulk-input-jdbcインストール用のコマンドはこちら:
embulk gem install embulk-input-jdbc
今回はロード先DB としてMySQL を使います。ほかにもSQL Server、PostgreSQL、Google BigQuery などを使うことも可能です。ロードに必要な以下のプラグインをインストールしましょう。
https://github.com/embulk/embulk-output-jdbc/tree/master/embulk-output-mysqlコマンドはこちら。
embulk gem install embulk-output-mysql
in:
type: jdbc
driver_path: C:\Program Files\CData\CData JDBC Driver for IBMCloudObjectStorage 2024J\lib\cdata.jdbc.ibmcloudobjectstorage.jar
driver_class: cdata.jdbc.ibmcloudobjectstorage.IBMCloudObjectStorageDriver
url: jdbc:ibmcloudobjectstorage:ApiKey=myApiKey;CloudObjectStorageCRN=MyInstanceCRN;Region=myRegion;OAuthClientId=MyOAuthClientId;OAuthClientSecret=myOAuthClientSecret;
table: "Objects"
out:
type: mysql
host: localhost
database: DatabaseName
user: UserId
password: UserPassword
table: "Objects"
mode: insert
Cloud Object Storage に接続する前に、Cloud Object Storage インスタンスを登録してCloud Object Storage API キーとCRN を取得していきます。
IBM Cloud アカウントにCloud Object Storage がまだない場合は、以下の手順に従ってアカウントにSQL Query のインスタンスをインストールできます。
API キーは以下の手順で取得できます。
デフォルトでは、CData 製品はCloud Object Storage CRN を自動で取得します。ただし、複数のアカウントがある場合は、CloudObjectStorageCRN を明示的に指定する必要があります。この値は、次の2つの方法で取得できます。
これで準備は完了です。以下の接続プロパティを設定してください。
プロパティを設定したら、これで接続設定は完了です。
embulk run ibmcloudobjectstorage-mysql.yml
ちなみに、上記の例ではテーブル名を直接指定しましたが、以下のようにSQL クエリを書いてもいいです。 WHERE 句で作成日や修正日を指定すれば、最新のデータだけを対象にすることも可能です。
in:
type: jdbc
driver_path: C:\Program Files\CData\CData JDBC Driver for IBMCloudObjectStorage 2019J\lib\cdata.jdbc.ibmcloudobjectstorage.jar
driver_class: cdata.jdbc.ibmcloudobjectstorage.IBMCloudObjectStorageDriver
url: jdbc:ibmcloudobjectstorage:ApiKey=myApiKey;CloudObjectStorageCRN=MyInstanceCRN;Region=myRegion;OAuthClientId=MyOAuthClientId;OAuthClientSecret=myOAuthClientSecret;
query: "SELECT Key, Etag FROM Objects WHERE [RecordId] = 1"
out:
type: mysql
host: localhost
database: DatabaseName
user: UserId
password: UserPassword
table: "Objects"
mode: insert
CData JDBC Driver for IBMCloudObjectStorage をEmbulk で使うことで、IBM Cloud Object Storage と連携して簡単にデータを取得できます。ぜひ、30日の無償評価版をお試しください。