各製品の資料を入手。
詳細はこちら →こんにちは!プロダクトスペシャリストの宮本です。
CData Sync は、いろいろなシナリオのデータレプリケーション(同期)を行うことができるスタンドアロンのアプリケーションです。例えば、sandbox および本番インスタンスのデータをデータベースに同期することができます。CData Sync のウェブインターフェースは複数のAzure Data Lake Storage コネクションを簡単に管理できます。本記事では、複数のAzure Data Lake Storage アカウントを一つのデータベースに同期する方法を説明します。
CData Sync では、Azure Data Lake Storage データ を何台のデータベースにでも複製できます。データベースはクラウドおよびオンプレミスの双方に対応しています。レプリケーションの同期先の設定には、[接続]タブから行います。
データソース側にAzure Data Lake Storage を設定します。[接続]タブをクリックします。
Gen 2 Data Lake Storage アカウントに接続するには、以下のプロパティを設定します。
本製品は、次の4つの認証方法をサポートします:アクセスキーの使用、共有アクセス署名の使用、Azure Active Directory OAuth(AzureAD)、Managed Service Identity(AzureMSI)。
Azure ポータルで:
接続の準備ができたら、次のプロパティを設定します。
共有アクセス署名を使用して接続するには、はじめにAzure Storage Explorer ツールを使用して署名を生成する必要があります。
接続の準備ができたら、次のプロパティを設定します。
AzureAD、AzureMSI での認証方法については、ヘルプドキュメントの「Azure Data Lake Storage Gen 2 への認証」セクションを参照してください。
Data Sync はレプリケーションをコントロールするSQL クエリを簡単なGUI 操作で設定できます。 レプリケーションジョブ設定には、[ジョブ]タブに進み、[ジョブを追加]ボタンをクリックします。 次にデータソースおよび同期先をそれぞれドロップダウンから選択します。
テーブル全体をレプリケーションするには、[テーブル]セクションで[テーブルを追加]をクリックします。表示されたテーブルリストからレプリケーションするテーブルをチェックします。.
SQL クエリを使って、レプリケーションをカスタマイズできます。REPLICATE 構文はデータベースのテーブルにデータをキャッシュし、保存するハイレベルコマンドです。Azure Data Lake Storage API がサポートするSELECT クエリを定義することができます。レプリケーションのカスタマイズにはテーブルセクションで[カスタムクエリの追加]をクリックして、クエリステートメントを記述します。
Azure Data Lake Storage データ のテーブルを差分更新でキャッシュするステートメントは次のとおり:
REPLICATE Resources;
使用するレプリケーションクエリを含むファイルを指定することで特定のデータベースを更新することが可能です。レプリケーションステートメントをセミコロンで区切ります。次のオプションは一つのデータベースに複数のAzure Data Lake Storage アカウントのデータを同期する例です:
REPLICATE SELECT ステートメントで異なるtable prefix を使用する:
REPLICATE PROD_Resources SELECT * FROM Resources;
別の方法として、異なるスキーマを使うことも可能です:
REPLICATE PROD.Resources SELECT * FROM Resources;
[スケジュール]セクションでは、レプリケーションジョブの自動起動スケジュール設定が可能です。反復同期間隔は、15分おきから毎月1回までの間で設定が可能です。
レプリケーションジョブを設定したら、[変更を保存]します。このように複数のAzure Data Lake Storage アカウントのデータを複製するジョブを作成することができました。