Databricks Python Connector

Python からDatabricks データを自在に読み・書き・更新

Databricks データをPython ベースのデータアクセス、ビジュアライゼーション、ORM、ETL、AI/ML、カスタムアプリから自在に連携・操作。

Databricks データ接続用のPython コネクタライブラリ。Pandas、SQLAlchemy、Dash & petl など人気のPython ツールとDatabricks を連携。 Python や各種ツールからDatabricks データに連携できるPython データベース API（DB-API）モジュール。

機能紹介

Databricks データにリアルタイムアクセス
BI、帳票、ETL ツールやカスタムアプリへのシームレスなデータ連携
データ集計、複雑なJOIN クエリなどのSQL をフルサポート
TLS 1.2、SHA-256、ECC を含むモダンな暗号化技術によるセキュアな通信。

製品仕様

Databricks 用のPython Database API（DB-API）モジュール。
SQL でDatabricks データ連携。
Databricks に標準のPython データベース接続でアクセス。
Pandas、SQLAlchemy、Dash & petl など人気のPython ツールと連携。
データ、パラメータ、メタデータでUnicode をフルサポート。

CData Python Connectors の紹介動画

CData Python Connectors の基本的な使い方を紹介する動画でシンプルかつパワフルな連携をご覧ください。

Python Connector 動画を見る

Python からDatabricks にデータ連携

サポートされたデータソースにわたり統一されたSQL アクセスを実現するPyton Connector

Python からDatabricks への標準連携
Databricks データに以下のPython ベースのフレームワークから連携を実現：
- データ分析/ビジュアライゼーション：Jupyter Notebook、pandas、Matplotlib
- ORM：SQLAlchemy、SQLObject、Storm
- ウェブアプリケーション：Dash、Django
- ETL：Apache Airflow、Luigi、Bonobo、Bubbles、petl
Python 標準ツールへの統合

Databricks Connector は、Anaconda、Visual Studio Python IDE、PyCharm などの人気のデータサイエンスおよび開発ツールに統合して利用可能です。
レプリケーションとキャッシング

CData のレプリケーションやキャッシングコマンドにより、簡単にローカルおよびクラウドデータストア（Oracle、SQL Server、Google Cloud SQL、etc.）へのデータのコピーができます。レプリケーションコマンドはインテリジェントな差分更新によるデータのキャッシュを行う機能を備えています。
文字列型、日付型、数値型のSQL 関数群

Databricks Connector は50以上の関数ライブラリを持ち、カラムと出力フォーマットを操作します。代表的な例では正規表現、JSON、およびXML 処理機能があります。

コラボラティブクエリ処理

Python Connector はクライアント側における追加処理を実現することにより、接続するデータソースの機能を高め、SUM、AVG、MAX、MIN などの分析集計を可能にします。
容易なスキーマのカスタマイズ

Databricks Connector のデータモデルはテーブル / カラムの追加や削除、データ型の変更などのカスタマイズが簡単に行えます。追加ビルドは不要です。カスタマイズは、human-readable スキーマを使ってランタイムで編集ができます。
セキュアな接続

すべてのクライアント - サーバー間接続において、TLS / SSL データ暗号化などのエンタープライズレベルのセキュリティ機能が備わっています。

Python でDatabricks データに連携

CData Python Connectors は、標準化されたデータベースAPI（DB-API）インターフェースでDatabricks にアクセスすることができます。幅広いPython データツールからのデータ連携が簡単に実現します。Python からのデータ連携をデータソース固有のインターフェースを意識することなくベーシックなパターンで連携を行うことができます：:

Databricks に接続する接続プロパティを設定
Databricks をクエリしてデータを取得・更新
Python データツールからDatabricks データに連携

Python からDatabricks にデータ連携する方法

Python からデータに接続するには、エクステンションをインポートして接続を作ります：

import cdata.databricks as mod
conn = mod.connect("[email protected]; Password=password;")

#Create cursor and iterate over results
cur = conn.cursor()
cur.execute("SELECT * FROM Cluster")
 
rs = cur.fetchall()
 
for row in rs:
print(row)

エクステンションをインポートすると、使い慣れたPython モジュールやツールキットからあらゆるエンタープライズデータに連携が可能になり、データ活用のためのPython アプリケーションをすばやく構築できます。

pandas でDatabricks データをビジュアライズ

Databricks Python Connector はデータセントリックなインターフェースを備え、pandas やSQLAlchemy をはじめとするツールに統合して利用してデータを分析しビジュアライズすることができます。

engine = create_engine("databricks///Password=password&User=user")

df = pandas.read_sql("SELECT * FROM Cluster", engine)

df.plot()
plt.show()

フルCRUD サポート

読み込み書き込み双方に対応、Databricks Connector は、フルCRUD（Create、Read、Update、Delete）処理をサポートします。ユーザーは、データベーステーブルにアクセスするように、Databricks Connector にアクセスして、自在にデータを処理することができます。