製品

ソリューション

コネクタ

サポート

価格

企業情報

事例

ブログ

検索お問い合わせ

製品をチェック

Google Data Catalog Driver の30日間無償トライアルをダウンロード

30日間の無償トライアルへ

製品の詳細

Google Data Catalog JDBC Driver 相談したい

Google Data Catalog データに連携するJava アプリケーションを素早く、簡単に開発できる便利なドライバー。

Google Data Catalog データをDatabricks にロードして分析処理を行う方法：CData JDBC Driver

CData JDBC ドライバを使って、クラウドデータ処理基盤のDatabricks で Google Data Catalog データを分析処理。

杉本和也
リードエンジニア
最終更新日：2023-09-07

CData

こんにちは！リードエンジニアの杉本です。

Databricks https://databricks.com/はオープンソースのビッグデータ処理基盤である Apache Spark をクラウドベースで提供しているサービスです。

通常Databricks では、Azure Blob Storage や Data Lakeに存在しているCSV、JSON、Parquetなどのバイナリベースの構造データ、ないしSQL ServerやCosmos DBといったRDB・NoSQLサービスからデータを取り込んで、分析するというアプローチが多いかと思います。しかしながら、今や分析対象となるデータソースはそういったバイナリデータやRDB・NoSQLのdataにとどまらず、SalesforceやDynamics 365といったクラウドサービス上にも数多く存在しています。そこで CData JDBC Driverを活用することにより、Databricks からシームレスにクラウドサービスのデータソースをロード、分析できるようになります。
この記事では、クラウドサービスのビッグデータ処理サービスである Databricks で CData JDBC Driverを利用してGoogle Data Catalog データを扱う方法を紹介します。

Databricks に JDBC Driver for GoogleDataCatalogをインストールする

Databricks の管理画面に移動し、対象のクラスターを選択します。

「Libraries」タブから「Install New」をクリックします。ここから接続に必要なJDBC jarファイルをアップロードします。

CData JDBC ドライバのインストールディレクトリ（デフォルト：C:\Program Files\CData\CData JDBC Driver for GoogleDataCatalog 2019J\lib）に配置されている「cdata.jdbc.googledatacatalog.jar」ファイルをドラッグ・アンド・ドロップして、対象のクラスターにインストールします。

これでドライバーの配置などの準備は完了です。

Notebook で Google Data Catalog データデータにアクセスする：Python

それでは Notebook を立ち上げて、Google Data Catalog データデータにアクセスしましょう。今回は Python を使いますが、Scalaでも同様に実行可能です。

LangauageはPythonを選択し、先程JDBCをインストールしたクラスターを選択します。

Notebook が立ち上がったら、以下のコードをそれぞれ実行していきます。

最初に接続情報を定義します。 URLはGoogle Data Catalog データのログイン情報とセキュリティトークンを指定します。CData JDBC Driver用の特殊ライセンスをRTKとして指定します。RTK の入手方法については、CData サポートまでご連絡ください。


            # Step 1: Connection Information

            driver = "cdata.jdbc.googledatacatalog.GoogleDataCatalogDriver"
            url = "jdbc:googledatacatalog:ProjectId=YourProjectId;InitiateOAuth=GETANDREFRESH"
            table = "Schemas"

次に先程の接続情報をもとに、CData JDBC Driver経由でGoogle Data Catalog データのデータをデータフレームとして読み込みます。


            # Step 2: Reading the data

            remote_table = spark.read.format("jdbc")\
            .option("driver", driver)\
            .option("url", url)\
            .option("dbtable", table)\
            .load()

読み込んだ結果は以下のコマンドで確認できます。これでDatabricks上でGoogle Data Catalog データのデータを扱えるようになりました。


            # Step 3: Querying the data

            display(remote_table.select("name"))

Databricks の SparkSQLでデータを処理したい場合は、Temp Viewとして登録します。


            # Step 4: (Optional) Create a view or table

            remote_table.createOrReplaceTempView("SAMPLE_VIEW")

以下のように SparkSQLでデータを取得し、分析することができます。


            %sql

            SELECT Name,AnnualRevenue FROM SAMPLE_VIEW Order by AnnualRevenue desc limit 5

なお、データフレームは対象のNotebook内だけのデータなので、他のユーザーと一緒に利用する場合はテーブルとして保存しておきましょう。


    remote_table.write.format("parquet").saveAsTable("SAMPLE_TABLE")

このようにCData JDBC ドライバをアップロードすることで、簡単にDatabricks でGoogle Data Catalog データデータをノーコードで連携し、分析に使うことが可能です。

是非、CData JDBC Driver for GoogleDataCatalog 30日の無償評価版をダウンロードして、お試しください。

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。

無償トライアルへ

お問い合わせ

CData Software は、データアクセスおよびデータ接続ソリューションのリーディングプロバイダーです。CData の標準コネクタはあらゆるツール・ミドルウェアからのSaaS やDB データの連携を簡単にします。

お問い合わせ

製品概要

データコネクタ

ETL / ELT ソリューション

クラウド & API 接続

OEM & カスタムドライバー開発

お問い合わせ先

製品を知る

データ分析 & BI

企業情報

ニュース & 事例

ソリューション

サポート

ブログへ →

ナレッジベース

製品をチェック

目次

Google Data Catalog データをDatabricks にロードして分析処理を行う方法：CData JDBC Driver

CData JDBC ドライバを使って、クラウドデータ処理基盤のDatabricks で Google Data Catalog データを分析処理。

Databricks に JDBC Driver for GoogleDataCatalogをインストールする

Notebook で Google Data Catalog データデータにアクセスする：Python

関連コンテンツ

トライアル・お問い合わせ

ソリューション

サポート

ブログへ →

ナレッジベース

製品をチェック

目次

Google Data Catalog データをDatabricks にロードして分析処理を行う方法：CData JDBC Driver

CData JDBC ドライバを使って、クラウドデータ処理基盤のDatabricks で Google Data Catalog データ を分析処理。

Databricks に JDBC Driver for GoogleDataCatalogをインストールする

Notebook で Google Data Catalog データ データにアクセスする：Python

関連コンテンツ

トライアル・お問い合わせ

CData JDBC ドライバを使って、クラウドデータ処理基盤のDatabricks で Google Data Catalog データを分析処理。

Notebook で Google Data Catalog データデータにアクセスする：Python