Apache Airflow でSnowflake のデータに連携したワークフローを作る

CData JDBC Driver を使ってApache Airflow からSnowflake のデータにアクセスして操作します。

古川えりか
コンテンツスペシャリスト
最終更新日：2022-09-07

CData

こんにちは！ドライバー周りのヘルプドキュメントを担当している古川です。

Apache Airflow を使うと、データエンジニアリングワークフローの作成、スケジューリング、および監視を行うことができます。CData JDBC Driver for Snowflake と組み合わせることで、Airflow からリアルタイムSnowflake のデータに連携できます。この記事では、Apache Airflow インスタンスからSnowflake のデータに接続してクエリを実行し、結果をCSV ファイルに保存する方法を紹介します。

最適化されたデータ処理が組み込まれたCData JDBC Driver は、リアルタイムSnowflake のデータを扱う上で高いパフォーマンスを提供します。 Snowflake にSQL クエリを発行すると、CData ドライバーはフィルタや集計などのSnowflake 側でサポートしているSQL 操作をSnowflake に直接渡し、サポートされていない操作（主にSQL 関数とJOIN 操作）は組み込みSQL エンジンを利用してクライアント側で処理します。組み込みの動的メタデータクエリを使用すると、ネイティブのデータ型を使ってSnowflake のデータを操作および分析できます。

Snowflake への接続を構成する

組み込みの接続文字列デザイナー

JDBC URL の作成の補助として、Snowflake JDBC Driver に組み込まれている接続文字列デザイナーが使用できます。JAR ファイルをダブルクリックするか、コマンドラインからjar ファイルを実行します。


java -jar cdata.jdbc.snowflake.jar

接続プロパティを入力し、接続文字列をクリップボードにコピーします。

Snowflake への接続には以下の情報が必要となります。

User およびPassword をSnowflake ユーザーに設定し、AuthScheme をPASSWORD もしくはOKTA に設定します。
URL をSnowflake インスタンスのURL に設定します(i.e.: https://myaccount.snowflakecomputing.com)。
Warehouse をSnowflake warehouse に設定します。
(Optional) Account URL が上記の形式に当てはまらない場合、Snowflake のアカウントに設定します。
(Optional) Database およびSchema は、参照できるテーブルやビューを制限する場合に指定します。

詳細はヘルプドキュメントを参照してください。

組み込みの接続文字列デザイナーを使ってJDBC URL を生成（snowflake の場合）

クラスタ環境またはクラウドでJDBC ドライバーをホストするには、ライセンス（フルまたはトライアル）およびランタイムキー（RTK）が必要です。本ライセンス（またはトライアル）の取得については、こちらからお問い合わせください。

以下は、JDBC 接続で要求される必須プロパティです。

プロパティ	値
Database Connection URL	`jdbc:snowflake:RTK=5246...;User=Admin;Password=test123;Server=localhost;Database=Northwind;Warehouse=TestWarehouse;Account=Tester1;`
Database Driver Class Name	cdata.jdbc.snowflake.SnowflakeDriver

Airflow でJDBC 接続を確立する

Apache Airflow インスタンスにログインします。
Airflow インスタンスのナビゲーションバーで、「Admin」にカーソルを合わせ、「Connections」をクリックします。
次の画面で「+」マークをクリックして新しい接続を作成します。
Add Connection フォームで、必要な接続プロパティを入力します。
- Connection Id：接続の名前：snowflake_jdbc
- Connection Type：JDBC Connection
- Connection URL：上記のJDBC 接続URL：jdbc:snowflake:RTK=5246...;User=Admin;Password=test123;Server=localhost;Database=Northwind;Warehouse=TestWarehouse;Account=Tester1;
- Driver Class：cdata.jdbc.snowflake.SnowflakeDriver
- Driver Path：PATH/TO/cdata.jdbc.snowflake.jar
フォームの下にある「Test」ボタンをクリックし、新規の接続をテストします。
新規接続を保存すると、新しく表示される画面に、接続リストに新しい行が追加されたことを示す緑のバナーが表示されます。

DAG を作成する

Airflow におけるDAG は、ワークフローのプロセスを格納するエンティティであり、DAG にトリガーを設定することでワークフローを実行することができます。今回のワークフローでは、シンプルにSnowflake のデータに対してSQL クエリを実行し、結果をCSV ファイルに格納します。

はじめに、Home ディレクトリにある「airflow」フォルダに移動します。その中に新しいディレクトリを作成し、タイトルを「dags」とします。ここに、UI に表示されるAirflow のDAG を構築するPython ファイルを格納します。

次に新しいPython ファイルを作成し、タイトルをsnowflake_hook.py にします。この新規ファイル内に、次のコードを挿入します。

		import time
		from datetime import datetime
		from airflow.decorators import dag, task
		from airflow.providers.jdbc.hooks.jdbc import JdbcHook
		import pandas as pd

		# Dag の宣言
		@dag(dag_id="snowflake_hook", schedule_interval="0 10 * * *", start_date=datetime(2022,2,15), catchup=False, tags=['load_csv'])

		# Dag となる関数を定義（取得するテーブルは必要に応じて変更してください）
		def extract_and_load():
		# Define tasks
			@task()
			def jdbc_extract():
				try:
					hook = JdbcHook(jdbc_conn_id="jdbc")
					sql = """ select * from Account """
					df = hook.get_pandas_df(sql)
					df.to_csv("/{some_file_path}/{name_of_csv}.csv",header=False, index=False, quoting=1)
					# print(df.head())
					print(df)
					tbl_dict = df.to_dict('dict')
					return tbl_dict
				except Exception as e:
					print("Data extract error: " + str(e))

			jdbc_extract()

		sf_extract_and_load = extract_and_load()

このファイルを保存し、Airflow インスタンスをリフレッシュします。DAG リストの中に、「snowflake_hook」というタイトルの新しいDAG が表示されるはずです。
このDAG をクリックし、新しく表示される画面で一時停止解除スイッチをクリックして青色にし、トリガー（＝play）ボタンをクリックしてDAG を実行します。この操作で、snowflake_hook.py ファイルのSQL クエリを実行し、結果をCSV としてコード内で指定したファイルパスにエクスポートします。
新規のDAG を実行後、Downloads フォルダ（またはPython スクリプト内で選択したフォルダ）を確認し、CSV ファイルが作成されていることを確認します（本ワークフローの場合はaccount.csv です）。
CSV ファイルを開くと、Apache Airflow によってSnowflake のデータがCSV 形式で利用できるようになったことが確認できます。