製品をチェック

Azure Data Lake Storage Driver の30日間無償トライアルをダウンロード

 30日間の無償トライアルへ

製品の詳細

Azure Data Lake Storage アイコン Azure Data Lake Storage JDBC Driver 相談したい

Azure Data Lake Storage データに連携するJava アプリケーションを素早く、簡単に開発できる便利なドライバー。

Apache Camel を使用してAzure Data Lake Storage データと連携

Apache Camel のルーティングとCData JDBC Driver を使用してAzure Data Lake Storage データをディスク上のJSON ファイルにコピーするシンプルなJava アプリを作成。

加藤龍彦
デジタルマーケティング

最終更新日:2022-01-13

こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。

Apache Camel は、データを消費または生成するさまざまなシステムを統合できる、オープンソースの統合フレームワークです。CData JDBC Driver for ADLS と組み合わせることで、リアルタイムAzure Data Lake Storage データと連携するCamel ルートを使用するJava アプリを作成できます。この記事では、Azure Data Lake Storage データをJSON ファイルに接続、クエリ、及びルーティングするアプリをNetBeans で作成する方法について説明します。

ビルトインの最適化されたデータ処理により、CData JDBC Driver は、リアルタイムAzure Data Lake Storage データとやり取りする際に比類のないパフォーマンスを提供します。Azure Data Lake Storage に複雑なSQL クエリを発行すると、ドライバーはフィルタや集計などのサポートされているSQL 操作をAzure Data Lake Storage に直接プッシュし、組み込まれたSQL エンジンを利用してサポートされていない操作(主にSQL 関数とJOIN 操作)をクライアント側で処理します。組み込みの動的メタデータクエリを使用すると、ネイティブデータソース型を使用してAzure Data Lake Storage データを操作および分析することができます。

新しいMaven/Java プロジェクトを作成する

以下の手順に従って、新しいJava プロジェクトを作成し、適切な依存関係を追加します。

  1. NetBeans を開き、新しいプロジェクトを作成します。
  2. カテゴリリストからMaven を選択し、プロジェクトリストからJava Application を選択して、「Next」をクエリします。
  3. プロジェクトに名前を付け、他のプロパティを調整して「Finish」をクリックします。
  4. ソースパッケージで新しいJava クラス(ここではApp.java を使用)を作成し、クラスにmain メソッドを追加します。

プロジェクトの依存関係を追加する

プロジェクトが作成されたら、アプリからリアルタイムAzure Data Lake Storage データを操作するために必要な依存関係を追加できるようになります。まだMaven を環境にインストールしていない場合、CData JDBC ドライバのJAR ファイルをプロジェクトに追加するのに必要なため、インストールしてください。

Maven を使用してCData JDBC Driver for ADLS をインストールする

  1. Azure Data Lake Storage 用のCData JDBC Driver をダウンロードしてパッケージを解凍し、JAR を実行してドライバーをインストールします。
  2. Maven を使用し、コネクタとしてJDBC Driver をインストールします。
    mvn install:install-file 
    	-Dfile="C:\Program Files\CData\CData JDBC Driver for ADLS 2019\lib\cdata.jdbc.adls.jar" 
    	-DgroupId="org.cdata.connectors" 
    	-DartifactId="cdata-adls-connector" 
    	-Dversion="19" 
    	-Dpackaging=jar
    

JDBC Driver をインストールしたら、プロジェクトに依存関係を追加できます。依存関係を追加するには、pom.xml を編集するか、依存関係にあるフォルダを右クリックして「Add Dependency」をクリックします。各依存関係のプロパティは以下の通りですが、「Add Dependency」ウィザードの「Query」ボックスに依存関係の名前を入力することで使用可能なライブラリを検索できます。

Selecting a dependency

必要な依存関係

DependencyGroup IDArtifact IDVersion
camel-coreorg.apache.camelcamel-core3.0.0
camel-jacksonorg.apache.camelcamel-jackson3.0.0
camel-jdbcorg.apache.camelcamel-jdbc3.0.0
camel-jsonpathorg.apache.camelcamel-jsonpath3.0.0
cdata-adls-connectororg.cdata.connectorscdata-salesforce-connector19
commons-dbcp2org.apache.commonscommons-dbcp22.7.0
slf4j-log4j12org.slf4jslf4j-log4j121.7.30
log4jorg.apache.logging.log4jlog4j2.12.1

Camel を使用してJava アプリでAzure Data Lake Storage データにアクセスする

必要な依存関係を追加したら、Java DSL(Domain Specific Language)を使用してリアルタイムAzure Data Lake Storage データにアクセスできるルートを作成できます。以下はコードの一部です。サンプルプロジェクト(zip ファイル)をダウンロードして以下を実行してください。(TODO コメントに注意してください。)

必要なクラスをメインクラスにインポートすることから始めます。

import org.apache.camel.CamelContext;
import org.apache.camel.builder.RouteBuilder;
import org.apache.camel.impl.DefaultCamelContext;
import org.apache.camel.support.SimpleRegistry;
import org.apache.commons.dbcp2.BasicDataSource;
import org.apache.log4j.BasicConfigurator;

次に、main メソッドでロギングを構成し、新しいBasicDataSource を作成してレジストリに追加し、新しいCamelContext を作成して、最後にコンテクストへのルートに追加します。この例では、Azure Data Lake Storage データをJSON ファイルにルーティングします。

ロギングを構成する

BasicConfigurator.configure();

BasicDataSource を作成する

BasicDataSource を作成し、ドライバークラス名(cdata.jdbc.salesforce.SalesforceDriver)とURL(必要な接続プロパティを使用)を設定します。

Azure Data Lake Storage 接続プロパティの取得・設定方法

Azure Data Lake Storage Gen 2 への接続

Gen 2 Data Lake Storage アカウントに接続するには、以下のプロパティを設定します。

  • Account:ストレージアカウントの名前。
  • FileSystem:このアカウントに使用されるファイルシステム名。例えば、Azure Blob コンテナの名前。
  • Directory(オプション):レプリケートされたファイルが保存される場所へのパス。パスが指定されない場合、ファイルはルートディレクトリに保存されます。

Azure Data Lake Storage Gen 2 への認証

本製品は、次の4つの認証方法をサポートします:アクセスキーの使用、共有アクセス署名の使用、Azure Active Directory OAuth(AzureAD)、Managed Service Identity(AzureMSI)。

アクセスキー

アクセスキーを使用して接続するには、はじめにADLS Gen2 ストレージアカウントで利用可能なアクセスキーを取得する必要があります。

Azure ポータルで:

  1. ADLS Gen2 ストレージアカウントにアクセスします。
  2. 設定でアクセスキーを選択します。
  3. 利用可能なアクセスキーの1つの値をAccessKey 接続プロパティにコピーします。
  4. 接続の準備ができたら、次のプロパティを設定します。

    • AuthSchemeAccessKey
    • AccessKey:先にAzure ポータルで取得したアクセスキーの値。

共有アクセス署名(SAS)

共有アクセス署名を使用して接続するには、はじめにAzure Storage Explorer ツールを使用して署名を生成する必要があります。

接続の準備ができたら、次のプロパティを設定します。

  • AuthSchemeSAS
  • SharedAccessSignature:先に生成した共有アクセス署名の値。

AzureAD、AzureMSI での認証方法については、ヘルプドキュメントの「Azure Data Lake Storage Gen 2 への認証」セクションを参照してください。

BasicDataSource basic = new BasicDataSource();
basic.setDriverClassName("cdata.jdbc.adls.ADLSDriver");
basic.setUrl("jdbc:adls:Schema=ADLSGen2;Account=myAccount;FileSystem=myFileSystem;AccessKey=myAccessKey;InitiateOAuth=GETANDREFRESH");

CData JDBC ドライバには、接続URL の構成に役立つ組み込みの接続文字列デザイナーが含まれています。

組み込みの接続文字列デザイナ

JDBC URL の構築については、Azure Data Lake Storage JDBC Driver に組み込まれている接続文字列デザイナーを使用してください。JAR ファイルをダブルクリックするか、コマンドラインからjar ファイルを実行します。

java -jar cdata.jdbc.adls.jar

接続プロパティを入力し、接続文字列をクリップボードにコピーします。

Using the built-in connection string designer to generate a JDBC URL (Salesforce is shown.)

BasicDataSource をレジストリに追加し、CamelContext を作成する

SimpleRegistry reg = new SimpleRegistry();
reg.bind("myDataSource", basic);

CamelContext context = new DefaultCamelContext(reg);

CamelContext にルーティングを追加する

以下のルーティングでは、timer コンポーネントを使用して一度実行し、SQL クエリをJDBC Driver に渡します。結果はJSON として整理され、(きれいに印刷できるようにフォーマットされて)file コンポーネントに渡され、JSON ファイルとしてディスクに書き込まれます。

context.addRoutes(new RouteBuilder() {
	@Override
	public void configure() {
		from("timer://foo?repeatCount=1")
			.setBody(constant("SELECT * FROM Account LIMIT 10"))
			.to("jdbc:myDataSource")
			.marshal().json(true)
			.to("file:C:\\Users\\USER\\Documents?fileName=account.json");
	}
});

CamelContext ライフサイクルを管理する

ルートを定義したら、CamelContext を開始してライフサイクルを始めます。この例では、10 秒待機してからコンテクストをシャットダウンします。

context.start();
Thread.sleep(10000);
context.stop();

無償トライアル、サンプルプロジェクト、テクニカルサポート

これで、Camel を使用してAzure Data Lake Storage からJSON ファイルにデータをルーティングするJava アプリケーションを使用できるようになりました。CData JDBC Driver for ADLS の30日の無償評価版と、サンプルプロジェクトをダウンロードして(TODO コメントに注意して)、Apache Camel でリアルタイムAzure Data Lake Storage データの操作を開始します。ご不明な点があれば、サポートチームにお問い合わせください。

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。