Apache Airflow でMonday.com データに連携したワークフローを作る

CData JDBC Driver を使ってApache Airflow からMonday.com データにアクセスして操作します。

古川えりか
コンテンツスペシャリスト
最終更新日：2022-09-07

CData

こんにちは！ドライバー周りのヘルプドキュメントを担当している古川です。

Apache Airflow を使うと、データエンジニアリングワークフローの作成、スケジューリング、および監視を行うことができます。CData JDBC Driver for Monday と組み合わせることで、Airflow からリアルタイムMonday.com データに連携できます。この記事では、Apache Airflow インスタンスからMonday.com データに接続してクエリを実行し、結果をCSV ファイルに保存する方法を紹介します。

最適化されたデータ処理が組み込まれたCData JDBC Driver は、リアルタイムMonday.com データを扱う上で高いパフォーマンスを提供します。 Monday.com にSQL クエリを発行すると、CData ドライバーはフィルタや集計などのMonday.com 側でサポートしているSQL 操作をMonday.com に直接渡し、サポートされていない操作（主にSQL 関数とJOIN 操作）は組み込みSQL エンジンを利用してクライアント側で処理します。組み込みの動的メタデータクエリを使用すると、ネイティブのデータ型を使ってMonday.com データを操作および分析できます。

Monday.com への接続を構成する

組み込みの接続文字列デザイナー

JDBC URL の作成の補助として、Monday.com JDBC Driver に組み込まれている接続文字列デザイナーが使用できます。JAR ファイルをダブルクリックするか、コマンドラインからjar ファイルを実行します。


java -jar cdata.jdbc.monday.jar

接続プロパティを入力し、接続文字列をクリップボードにコピーします。

Monday.com への接続には、API Token 認証またはOAuth 認証のいずれかを使用します。

API Token による接続

APIToken を指定してMonday.com に接続します。AuthScheme をToken に設定し、次の手順でAPIToken を取得します。

Monday.com アカウントにログインして、左ペインのManage Applications に移動します。
トークンを作成するアプリケーションを選択します。最初にアプリケーションを作成する必要がある場合があります。
Create token ボタンをクリックしてAPIToken を生成します。

OAuth

代わりに、OAuth で接続を確立できます。詳しくはヘルプドキュメントの「OAuth 認証の使用」セクションを参照してください。

組み込みの接続文字列デザイナーを使ってJDBC URL を生成（monday.com の場合）

クラスタ環境またはクラウドでJDBC ドライバーをホストするには、ライセンス（フルまたはトライアル）およびランタイムキー（RTK）が必要です。本ライセンス（またはトライアル）の取得については、こちらからお問い合わせください。

以下は、JDBC 接続で要求される必須プロパティです。

プロパティ	値
Database Connection URL	`jdbc:monday:RTK=5246...;APIToken=eyJhbGciOiJIUzI1NiJ9.yJ0aWQiOjE0MTc4NzIxMiwidWlkIjoyNzI3ODM3OSwiaWFkIjoiMjAyMi0wMS0yMFQxMDo0NjoxMy45NDFaIiwicGV;`
Database Driver Class Name	cdata.jdbc.monday.MondayDriver

Airflow でJDBC 接続を確立する

Apache Airflow インスタンスにログインします。
Airflow インスタンスのナビゲーションバーで、「Admin」にカーソルを合わせ、「Connections」をクリックします。
次の画面で「+」マークをクリックして新しい接続を作成します。
Add Connection フォームで、必要な接続プロパティを入力します。
- Connection Id：接続の名前：monday_jdbc
- Connection Type：JDBC Connection
- Connection URL：上記のJDBC 接続URL：jdbc:monday:RTK=5246...;APIToken=eyJhbGciOiJIUzI1NiJ9.yJ0aWQiOjE0MTc4NzIxMiwidWlkIjoyNzI3ODM3OSwiaWFkIjoiMjAyMi0wMS0yMFQxMDo0NjoxMy45NDFaIiwicGV;
- Driver Class：cdata.jdbc.monday.MondayDriver
- Driver Path：PATH/TO/cdata.jdbc.monday.jar
フォームの下にある「Test」ボタンをクリックし、新規の接続をテストします。
新規接続を保存すると、新しく表示される画面に、接続リストに新しい行が追加されたことを示す緑のバナーが表示されます。

DAG を作成する

Airflow におけるDAG は、ワークフローのプロセスを格納するエンティティであり、DAG にトリガーを設定することでワークフローを実行することができます。今回のワークフローでは、シンプルにMonday.com データに対してSQL クエリを実行し、結果をCSV ファイルに格納します。

はじめに、Home ディレクトリにある「airflow」フォルダに移動します。その中に新しいディレクトリを作成し、タイトルを「dags」とします。ここに、UI に表示されるAirflow のDAG を構築するPython ファイルを格納します。

次に新しいPython ファイルを作成し、タイトルをmonday.com_hook.py にします。この新規ファイル内に、次のコードを挿入します。

		import time
		from datetime import datetime
		from airflow.decorators import dag, task
		from airflow.providers.jdbc.hooks.jdbc import JdbcHook
		import pandas as pd

		# Dag の宣言
		@dag(dag_id="monday.com_hook", schedule_interval="0 10 * * *", start_date=datetime(2022,2,15), catchup=False, tags=['load_csv'])
	
		# Dag となる関数を定義（取得するテーブルは必要に応じて変更してください）
		def extract_and_load():
		# Define tasks
			@task()
			def jdbc_extract():
				try:
					hook = JdbcHook(jdbc_conn_id="jdbc")
					sql = """ select * from Account """
					df = hook.get_pandas_df(sql)
					df.to_csv("/{some_file_path}/{name_of_csv}.csv",header=False, index=False, quoting=1)
					# print(df.head())
					print(df)
					tbl_dict = df.to_dict('dict')
					return tbl_dict
				except Exception as e:
					print("Data extract error: " + str(e))
            
			jdbc_extract()
    
		sf_extract_and_load = extract_and_load()

このファイルを保存し、Airflow インスタンスをリフレッシュします。DAG リストの中に、「monday.com_hook」というタイトルの新しいDAG が表示されるはずです。
このDAG をクリックし、新しく表示される画面で一時停止解除スイッチをクリックして青色にし、トリガー（＝play）ボタンをクリックしてDAG を実行します。この操作で、monday.com_hook.py ファイルのSQL クエリを実行し、結果をCSV としてコード内で指定したファイルパスにエクスポートします。
新規のDAG を実行後、Downloads フォルダ（またはPython スクリプト内で選択したフォルダ）を確認し、CSV ファイルが作成されていることを確認します（本ワークフローの場合はaccount.csv です）。
CSV ファイルを開くと、Apache Airflow によってMonday.com データがCSV 形式で利用できるようになったことが確認できます。