Azure Data Lake Storage Python Connector

Python からSQL でAzure Data Lake Storage データ連携を実現

Azure Data Lake Storage データをPython ベースのデータアクセス、ビジュアライゼーション、ORM、ETL、AI/ML、カスタムアプリから自在に連携・操作。

Azure Data Lake Storage データ連携用のPython コネクタライブラリ。Azure Data Lake Storage データをpandas、SQLAlchemy、Dash、petl などの人気のPython ツールにシームレスに統合。 Python や各種ツールからAzure Data Lake Storage データに連携できるPython データベース API（DB-API）モジュール。

機能紹介

Azure Data Lake Storage NoSQL データへのSQL-92 でのクエリを実現。
フレキシブルなNoSQL のフラット化 - 自動スキーマ生成、フレキシブルなクエリなど。
Azure Data Lake Storage データにリアルタイムアクセス
BI、帳票、ETL ツールやカスタムアプリへのシームレスなデータ連携
データ集計、複雑なJOIN クエリなどのSQL をフルサポート
TLS 1.2、SHA-256、ECC を含むモダンな暗号化技術によるセキュアな通信。

製品仕様

Azure Data Lake Storage 連携用のPython Database API (DB-API) モジュール。
使い慣れたSQL でAzure Data Lake Storage データにアクセス。Azure Data Lake Storage に使い慣れたPython Database Connectivity でデータ連携。
Pandas、SQLAlchemy、Dash、petl などの人気のPython ツールにシームレスに統合。
データ、パラメータ、メタデータでUnicode をフルサポート。

CData Python Connectors の紹介動画

CData Python Connectors の基本的な使い方を紹介する動画でシンプルかつパワフルな連携をご覧ください。

Python Connector 動画を見る

Python からAzure Data Lake Storage にデータ連携

サポートされたデータソースにわたり統一されたSQL アクセスを実現するPyton Connector

Python からAzure Data Lake Storage への標準連携
Azure Data Lake Storage データに以下のPython ベースのフレームワークから連携を実現：
- データ分析/ビジュアライゼーション：Jupyter Notebook、pandas、Matplotlib
- ORM：SQLAlchemy、SQLObject、Storm
- ウェブアプリケーション：Dash、Django
- ETL：Apache Airflow、Luigi、Bonobo、Bubbles、petl
Python 標準ツールへの統合

Azure Data Lake Storage Connector は、Anaconda、Visual Studio Python IDE、PyCharm などの人気のデータサイエンスおよび開発ツールに統合して利用可能です。
レプリケーションとキャッシング

CData のレプリケーションやキャッシングコマンドにより、簡単にローカルおよびクラウドデータストア（Oracle、SQL Server、Google Cloud SQL、etc.）へのデータのコピーができます。レプリケーションコマンドはインテリジェントな差分更新によるデータのキャッシュを行う機能を備えています。
文字列型、日付型、数値型のSQL 関数群

Azure Data Lake Storage Connector は50以上の関数ライブラリを持ち、カラムと出力フォーマットを操作します。代表的な例では正規表現、JSON、およびXML 処理機能があります。

コラボラティブクエリ処理

Python Connector はクライアント側における追加処理を実現することにより、接続するデータソースの機能を高め、SUM、AVG、MAX、MIN などの分析集計を可能にします。
容易なスキーマのカスタマイズ

Azure Data Lake Storage Connector のデータモデルはテーブル / カラムの追加や削除、データ型の変更などのカスタマイズが簡単に行えます。追加ビルドは不要です。カスタマイズは、human-readable スキーマを使ってランタイムで編集ができます。
セキュアな接続

すべてのクライアント - サーバー間接続において、TLS / SSL データ暗号化などのエンタープライズレベルのセキュリティ機能が備わっています。

Python でAzure Data Lake Storage データに連携

CData Python Connectors は、標準化されたデータベースAPI（DB-API）インターフェースでAzure Data Lake Storage にアクセスすることができます。幅広いPython データツールからのデータ連携が簡単に実現します。Python からのデータ連携をデータソース固有のインターフェースを意識することなくベーシックなパターンで連携を行うことができます：:

Azure Data Lake Storage に接続する接続プロパティを設定
Azure Data Lake Storage をクエリしてデータを取得・更新
Python データツールからAzure Data Lake Storage データに連携

Python からAzure Data Lake Storage にデータ連携する方法

Python からデータに接続するには、エクステンションをインポートして接続を作ります：

import cdata.azure data lake storage as mod
conn = mod.connect("[email protected]; Password=password;")

#Create cursor and iterate over results
cur = conn.cursor()
cur.execute("SELECT * FROM ADLSData")
 
rs = cur.fetchall()
 
for row in rs:
print(row)

エクステンションをインポートすると、使い慣れたPython モジュールやツールキットからあらゆるエンタープライズデータに連携が可能になり、データ活用のためのPython アプリケーションをすばやく構築できます。

pandas でAzure Data Lake Storage データをビジュアライズ

Azure Data Lake Storage Python Connector はデータセントリックなインターフェースを備え、pandas やSQLAlchemy をはじめとするツールに統合して利用してデータを分析しビジュアライズすることができます。

engine = create_engine("azure data lake storage///Password=password&User=user")

df = pandas.read_sql("SELECT * FROM ADLSData", engine)

df.plot()
plt.show()