こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。
Azure Data Factory(ADF)は、フルマネージドのサーバーレスデータ統合サービスです。
CData Connect Server と組み合わせると、ADF はデータフローでGoogle Data Catalog データにクラウドベースで即座にアクセスできます。
この記事では、Connect Server を使用してGoogle Data Catalog に接続し、ADF でGoogle Data Catalog データにアクセスする方法を紹介します。
CData Connect Server は、Google Data Catalog にクラウドベースインターフェースを提供し、ネイティブにサポートされているデータベースにデータを複製することなく、Azure Data Factory でのリアルタイムGoogle Data Catalog データへのアクセスを実現します。
CData Connect Server は、最適化されたデータ処理により、サポートされているすべてのSQL 操作(フィルタ、JOIN など)をGoogle Data Catalog に直接プッシュし、サーバー側の処理を利用して要求されたGoogle Data Catalog データを高速で返します。
ホスティングについて
ADF からCData Connect Server に接続するには、利用するConnect Server インスタンスをネットワーク経由での接続が可能なサーバーにホスティングして、URL での接続を設定する必要があります。CData Connect がローカルでホスティングされており、localhost アドレス(localhost:8080 など)またはローカルネットワークのIP アドレス(192.168.1.x など)からしか接続できない場合、ADF はCData Connect Server に接続することができません。
クラウドホスティングでの利用をご希望の方は、AWS Marketplace やGCP Marketplace で設定済みのインスタンスを提供しています。
Google Data Catalog データの仮想データベースを作成する
CData Connect Server は、シンプルなポイントアンドクリックインターフェースを使用してデータソースに接続し、データを取得します。まずは、右側のサイドバーのリンクからConnect Server をインストールしてください。
- Connect Server にログインし、「CONNECTIONS」をクリックします。
- 一覧から「Google Data Catalog」を選択します。
-
Google Data Catalog に接続するために必要な認証プロパティを入力します。
Google Data Catalog 接続プロパティの取得・設定方法
認証プロパティを追加する前に、次の接続プロパティを設定してください。
- OrganizationId:接続するGoogle Cloud Platform の組織リソースに関連付けられたID。これはGCP コンソールに移動して確認してください。
「プロジェクト」ドロップダウンメニューを開き、リストから組織へのリンクをクリックします。このページから組織ID を取得できます。
- ProjectId:接続するGCP のプロジェクトリソースに関連付けられたID。GCP
コンソールのダッシュボードに移動し、「プロジェクトを選択」のメニューからお好みのプロジェクトを選択して確認してください。プロジェクトID は、「プロジェクト情報」項目に表示されます。
Google Data Catalog への認証
CData 製品は、認証にユーザーアカウント、サービスアカウント、およびGCP インスタンスアカウントの使用をサポートします。
OAuth の設定方法については、ヘルプドキュメントの「OAuth」セクションを参照してください。
- 「 Test Connection」をクリックします。
- 「Permission」->「 Add」とクリックし、適切な権限を持つ新しいユーザー(または既存のユーザー) を追加します。
仮想データベースが作成されたら、Azure Data Factoro を含むお好みのクライアントからGoogle Data Catalog に接続できるようになります。
Azure Data Factory からリアルタイムGoogle Data Catalog データにアクセス
Azure Data Factory からCData Connect Server の仮想SQL Server API への接続を確立するには、以下の手順を実行します。
- Azure Data Factory にログインします。
- まだData Factory を作成していない場合は、「New -> Dataset」をクリックします。
- 検索バーにSQL Server と入力し、表示されたら選択します。次の画面で、サーバーの名前を入力します。
Linked service フィールドで「New」を選択します。
-
接続設定を入力します。
- Name - 任意の名前を入力。
- Server name - Connect Server のURL とポートをカンマで区切って入力。例:CONNECT_SERVER_URL,1433
-
Database name - 接続したいCData Connect Server データソースのConnection Name を入力。例:GoogleDataCatalog1
-
User Name - CData Connect Server のユーザー名を入力。ユーザー名はCData Connect Server のインターフェースの右上に表示されています。
例:[email protected]
- Password - Password(Azure Key Vault ではありません)を選択してConnect Server のパスワードを入力。
- 「Create」をクリックします。
-
Set properties で、Name を設定し、続けて先ほど作成したLinked service、利用可能なTable name、Import schema のfrom connection/store を選択します。
「OK」をクリックします。
- リンクされたサービスを作成すると、以下の画面が表示されます。
- Preview data をクリックすると、インポートされたGoogle Data Catalog テーブルが表示されます。
Azure Data Factory でデータフローを作成する際、このデータセットを使用できるようになりました。
CData Connect Server の入手
CData Connect Server の30日間無償トライアルを利用して、クラウドアプリケーションから直接100を超えるSaaS、ビッグデータ、NoSQL データソースへのSQL アクセスをお試しください!