こんにちは。CData Software Japan リードエンジニアの杉本です。
本記事では 分析基盤向けデータ統合の自動化ツールである CDataSync を使って、MRCのデータを Google BigQuery に連携し、分析する方法を紹介したいと思います。
MRC(マーケライズクラウド) とは?
マーケライズクラウド(Markerise Cloud、以下MRC)は、株式会社マーケライズ が開発・販売を手掛ける、完全国産の製造業向けMA(マーケティングオートメーション)ツールです。
WEBトラッキング機能やメール配信、イベント・セミナー管理機能を備え、有望見込客発掘/抽出するノウハウが凝縮されています。
MRCでは顧客データや顧客に紐づくマーケティングデータ(スコアやクリック履歴、資料ダウンロード履歴)といったデータの取得や、顧客情報の追加・更新・削除を行うためのAPIが提供されています。
この記事ではこのAPIを使って、GCPのBigQueryにデータを連携します。
※API仕様書の閲覧にはMRCのアカウントが必要です。
実現イメージ
本記事ですすめるシナリオはMRCの顧客データをBigQueryに移行する仕組みを構成することだけですが、少し背景をおさえておきたいと思います。
以下の記事でも紹介していますが、現在私達の周りには数多くの SaaS が溢れ、10数年前のようなRDBだけ連携していればいいという時代は過ぎ去っています。
https://www.cdata.com/jp/blog/2019-12-10-231629
アメリカでは一つの企業で平均10~20程度の SaaS を使っているというレポートも存在し、多種多様なアプリケーションを活用しながら企業のビジネスプロセスが動いていることがわかります。
そのような状況では、たとえば「受注データを切り口として分析したい」といった要望があったとしても、ディメンション(BIによる分析でよく用いられるようなスタースキーマ文脈における)が各種アプリケーション・SaaSに分散され、「受注データはこのサービスにあるけれど、ディメンションとして使いたい顧客属性は違うサービスに存在する」ということが頻発してしまいます。
https://docs.microsoft.com/ja-jp/power-bi/guidance/star-schema
そのようなビジネス環境で今求められているのが、ELTの考え方です。多種多様なデータソースから、一度DWHにデータをロードし、DWHで分析や変換処理を回していきます。
引用元:https://docs.microsoft.com/ja-jp/power-bi/guidance/star-schema
CDataSyncでは、そのような分析基盤向けデータ統合の自動化をノンコーディングで実現することができるようになっています。
そういった背景を踏まえ、本記事ではデータ分析基盤・DWHとして現在多く使われている Google BigQuery にMRCのデータを連携する方法を紹介します。
必要なもの
- Google BigQuery・Data Portalが利用可能な GCPアカウント
- MRC アカウント
- CData Sync
MRC API のAPI Key・MRC IDの取得
MRC APIに接続するためには、予めAPI KeyとMRC IDを取得する必要があります。
API KeyとMRC IDは「設定」→「MRC API情報」の画面に移動することで書くにできます。
Google BigQuery の準備
続いて、データの格納先となる Google BigQueryのプロジェクトとデータセットを構成しておきます。
なお、今回はあらかじめ専用のアカウントを作って対応しています。
手順は特に難しくありません。GCPの管理コンソールへ移動し、新しいプロジェクトを作成
BigQuery に移動し、プロジェクト配下にデータセットを作っておきます。ここに連携結果がテーブルとして格納されます。
以上で BigQuery 側の準備は完了です。
CDataSyncのインストール
それでは、取得した情報を元にCDataSyncの設定を行っていきましょう。
CDataSyncはインストール型のソフトウェアなので、以下のURLからダウンロードして、任意のPCやサーバーでセットアップを行います。今回はWindows版で実施しました。
https://www.cdata.com/jp/sync/
セットアップ後、CData Syncの画面がブラウザで立ち上がるので、セットアップ時に入力したパスワードとユーザー名「admin」を入力して、ログインします。
ログイン後「情報」タブに移動し、「30日間の評価版をアクティベート」を行えば、CDataSyncの初期設定は完了です。
MRC データソースの設定
次にデータの同期を行うためのデータソースの設定を行っていきましょう。
CDataSyncでは任意のデータソースを自由に追加して、連携することが可能です。
デフォルトでは MRCに接続するための汎用コネクタである「API」が データソースが含まれていないため、「接続」に移動し「+ Add More」をクリックし、追加を行います。
※MRC Connector正式リリース後は、この手順が異なります。
一覧の中からAPIを検索し
「Download & Install」をクリックして追加します。
続いて、Markerise Cloud接続用の設定ファイルをSyncに追加します。
設定ファイルを追加するためのフォルダ「C:\Program Files\CData\CData Sync\www\app_data」に移動し「profiles」というフォルダを作成します。
そこにMRC用の設定ファイルを以下のURLからダウンロードして、配置してください。
https://cdatajbuilds.s3-ap-northeast-1.amazonaws.com/APIProfiles/MarkeriseCloud.apip
追加後、一度CDataSyncをタスクバーのアプリケーションから再起動させてください。
これで接続画面に移動することで、Markerise Cloudの接続が利用可能になります。
MRC 接続設定は以下のように設定します。
プロパティ名 |
値 |
備考 |
ProfileSettings |
APIKey=YOUR_API_KEY;MRCID=YOUR_MRC_ID;User=YOUR_USER_NAME;Password=YOUR_PASSOWRD; |
予め取得したAPI KeyとMRCIDをそれぞれ入力します。またUserとPasswordにはMRCログイン時に利用しているアカウントを指定してください。 |
入力後、「接続のテスト」をクリックして、接続に成功すればOKです。変更を保存します。
BigQueryへの同期先設定
続いて、同期先となるBigQueryへの接続を構成します。
「接続」→「同期先」から「Google BigQuery」を選択し
あらかじめ作成しておいた、「ProjectId」と「Dataset Id」を入力し、「接続」をクリックします。
クリックすると、OAuthの認証プロセスが開始されますので、対象アカウントでログインし、アクセス許可を承認してください。承認後、設定を保存すれば準備完了です。
ジョブの作成
それでは実際にジョブを作成し、データをBigQueryに連携してみましょう。
ジョブのタブから「ジョブを作成」をクリックし
事前に構成した「MarkeriseCloud」と「BigQuery」を、ソースと同期先としてそれぞれ構成します。
次に連携するデータを決定するために、「テーブルを追加」をクリックし
顧客データが含まれるCustomersテーブルを選択します。
あとはスケジュールタブから定期的に処理にするためにスケジューラーを設定します。以下の設定ですと1日1回、BigQueryへ最新のデータが同期されます。
対象データのレプビュー
取得するデータはプレビュー機能で確認することも可能です。
対象のテーブルをクリックし
データレプリケーション設定の「プレビュー」タブに移動して、「Execute」をクリックします。
以下のようにデータが正常に取得できているかどうか確認できます。
テスト実行
テスト実行はテーブルタブから対象となるテーブルを選択し、「実行」ボタンをクリックすることで実施可能です。
以下のように成功のメッセージが表示されればOKです。
正常に同期されると、以下のようにBigQuery上でデータが閲覧できるようになります。
Google Data Portal でビジュアライズ
BigQueryに登録したデータはそのままGoogle Data Portal で分析することが可能です。
テーブルのエクスポートから「データポータルで調べる」をクリックするだけでOKです。
これでGoogle Data Portal に取り込まれるので、あとは任意のグラフでビジュアライズすることが可能です。
さいごに
本記事では、MRC のデータを BigQueryに連携しましたが、CDataSyncではBigQuery以外にも AmazonRedShiftやAzure SQL Serverといった多様な連携先をサポートしています。
是非普段皆さんの会社でお使いのDWH・データベースに同期してみてください。
関連コンテンツ