こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。
Azure Data Factory(ADF)は、フルマネージドのサーバーレスデータ統合サービスです。
CData Connect Server と組み合わせると、ADF はデータフローでBitbucket データにクラウドベースで即座にアクセスできます。
この記事では、Connect Server を使用してBitbucket に接続し、ADF でBitbucket データにアクセスする方法を紹介します。
CData Connect Server は、Bitbucket にクラウドベースインターフェースを提供し、ネイティブにサポートされているデータベースにデータを複製することなく、Azure Data Factory でのリアルタイムBitbucket データへのアクセスを実現します。
CData Connect Server は、最適化されたデータ処理により、サポートされているすべてのSQL 操作(フィルタ、JOIN など)をBitbucket に直接プッシュし、サーバー側の処理を利用して要求されたBitbucket データを高速で返します。
ホスティングについて
ADF からCData Connect Server に接続するには、利用するConnect Server インスタンスをネットワーク経由での接続が可能なサーバーにホスティングして、URL での接続を設定する必要があります。CData Connect がローカルでホスティングされており、localhost アドレス(localhost:8080 など)またはローカルネットワークのIP アドレス(192.168.1.x など)からしか接続できない場合、ADF はCData Connect Server に接続することができません。
クラウドホスティングでの利用をご希望の方は、AWS Marketplace やGCP Marketplace で設定済みのインスタンスを提供しています。
Bitbucket データの仮想データベースを作成する
CData Connect Server は、シンプルなポイントアンドクリックインターフェースを使用してデータソースに接続し、データを取得します。まずは、右側のサイドバーのリンクからConnect Server をインストールしてください。
- Connect Server にログインし、「CONNECTIONS」をクリックします。
- 一覧から「Bitbucket」を選択します。
-
Bitbucket に接続するために必要な認証プロパティを入力します。
ほとんどのクエリでは、ワークスペースを設定する必要があります。唯一の例外は、Workspacesテーブルです。このテーブルはこのプロパティの設定を必要とせず、クエリを実行すると、Workspaceの設定に使用できるワークスペーススラッグのリストが提供されます。このテーブルにクエリを実行するには、スキーマを'Information'に設定し、SELECT * FROM Workspacesクエリを実行する必要があります。
Schemaを'Information'に設定すると、一般的な情報が表示されます。Bitbucketに接続するには、以下のパラメータを設定してください。
- Schema: ワークスペースのユーザー、リポジトリ、プロジェクトなどの一般的な情報を表示するには、これを'Information'に設定します。それ以外の場合は、クエリを実行するリポジトリまたはプロジェクトのスキーマに設定します。利用可能なスキーマの完全なセットを取得するには、sys_schemasテーブルにクエリを実行してください。
- Workspace: Workspacesテーブルにクエリを実行する場合を除き、必須です。Workspacesテーブルへのクエリにはこのプロパティは必要ありません。そのクエリはWorkspaceの設定に使用できるワークスペーススラッグのリストのみを返すためです。
Bitbucketでの認証
BitbucketはOAuth認証のみをサポートしています。すべてのOAuthフローからこの認証を有効にするには、カスタムOAuthアプリケーションを作成し、AuthSchemeをOAuthに設定する必要があります。
特定の認証ニーズ(デスクトップアプリケーション、Webアプリケーション、ヘッドレスマシン)に必要な接続プロパティについては、ヘルプドキュメントを必ず確認してください。
カスタムOAuthアプリケーションの作成
Bitbucketアカウントから、以下のステップを実行します。
- 設定(歯車アイコン)に移動し、ワークスペース設定を選択します。
- アプリと機能セクションで、OAuthコンシューマーを選択します。
- コンシューマーを追加をクリックします。
- カスタムアプリケーションの名前と説明を入力します。
- コールバックURLを設定します。
- デスクトップアプリケーションとヘッドレスマシンの場合、http://localhost:33333または任意のポート番号を使用します。ここで設定するURIがCallbackURLプロパティになります。
- Webアプリケーションの場合、信頼できるリダイレクトURLにコールバックURLを設定します。このURLは、ユーザーがアプリケーションにアクセスが許可されたことを確認するトークンを持って戻るWebの場所です。
- クライアント認証情報を使用して認証する予定の場合、これはプライベートコンシューマーですを選択する必要があります。ドライバーでは、AuthSchemeをclientに設定する必要があります。
- OAuthアプリケーションに与える権限を選択します。これにより、読み取りおよび書き込みできるデータが決まります。
- 新しいカスタムアプリケーションを保存するには、保存をクリックします。
- アプリケーションが保存された後、それを選択して設定を表示できます。アプリケーションのKeyとSecretが表示されます。これらを将来の使用のために記録してください。Keyを使用してOAuthClientIdを設定し、Secretを使用してOAuthClientSecretを設定します。
- 「 Test Connection」をクリックします。
- 「Permission」->「 Add」とクリックし、適切な権限を持つ新しいユーザー(または既存のユーザー) を追加します。
仮想データベースが作成されたら、Azure Data Factoro を含むお好みのクライアントからBitbucket に接続できるようになります。
Azure Data Factory からリアルタイムBitbucket データにアクセス
Azure Data Factory からCData Connect Server の仮想SQL Server API への接続を確立するには、以下の手順を実行します。
- Azure Data Factory にログインします。
- まだData Factory を作成していない場合は、「New -> Dataset」をクリックします。
- 検索バーにSQL Server と入力し、表示されたら選択します。次の画面で、サーバーの名前を入力します。
Linked service フィールドで「New」を選択します。
-
接続設定を入力します。
- Name - 任意の名前を入力。
- Server name - Connect Server のURL とポートをカンマで区切って入力。例:CONNECT_SERVER_URL,1433
-
Database name - 接続したいCData Connect Server データソースのConnection Name を入力。例:Bitbucket1
-
User Name - CData Connect Server のユーザー名を入力。ユーザー名はCData Connect Server のインターフェースの右上に表示されています。
例:[email protected]
- Password - Password(Azure Key Vault ではありません)を選択してConnect Server のパスワードを入力。
- 「Create」をクリックします。
-
Set properties で、Name を設定し、続けて先ほど作成したLinked service、利用可能なTable name、Import schema のfrom connection/store を選択します。
「OK」をクリックします。
- リンクされたサービスを作成すると、以下の画面が表示されます。
- Preview data をクリックすると、インポートされたBitbucket テーブルが表示されます。
Azure Data Factory でデータフローを作成する際、このデータセットを使用できるようになりました。
CData Connect Server の入手
CData Connect Server の30日間無償トライアルを利用して、クラウドアプリケーションから直接100を超えるSaaS、ビッグデータ、NoSQL データソースへのSQL アクセスをお試しください!