こんにちは、CData でウェブサイト周りの開発や分析を担当している加藤です。今回はデータ同期、ETL ツールであるCData Sync を使って、Snowflake 上にウェブサイトのデータ分析基盤を構築する方法をご紹介します!これからウェブサイトのデータ分析とかやっていきたいけどどうやって分析基盤を作っていけばいいかわからない、といった方の参考になれば嬉しいです。
これによってさまざまなサービス・システム上にあるデータをSnowflake にまとめることができるので、全社員が同じインターフェースを使って、これまでバラバラだったさまざまなデータにアクセスして分析、活用することができるようになります。
Google Analytics のデータをSnowflake に移行
Google Analytics はウェブサイトのデータ分析に欠かせないサービスですね。CData Sync なら、旧バージョンであるUniversal Analytics と新しいGA4、どちらのプロパティにも簡単に接続してデータを同期することができます。それでは、Google Analytics をCData Sync に追加してみましょう。3ステップで簡単に完了します。
- まずは、CData Sync の「接続」タブに移動して「Add More」ボタンをクリックします。
- すると対応しているデータソースの一覧が出てくるので、「google」などで検索するとGoogle Analytics のコネクターが表示されます。アイコンをクリックするとインストールできます。
- さて、コネクタが追加されると接続設定の画面が表示されます。ここでは「Auth Schema」として「OAuth」を指定して、「Schema」としては取得したいバージョンに応じてUniversal Analytics もしくはGA4 を選択します。「Property Id」には、取得したいGA アカウントのプロパティID を指定します。
最後に「次に接続 Google Analytics」をクリックすると、ブラウザベースで認証ができるので、成功すれば接続設定は完了です。ノーコードで簡単にGoogle Analytics のデータを移行するための設定が完了しました。CData Sync は400以上のデータソースに対応していますが、どのデータソースについても接続設定の手順は同様の3ステップで完了します。
ウェブサイトサーバー上のCSV ログデータに接続
ウェブサイトでログを収集してサーバー上に格納する、というのはよくあるケースかと思います。CData Sync ならFTP サーバー上のファイルに直接アクセスできるので、FTP サーバー上にあるログデータに直接アクセスして定期的にその中身をSnowflake に同期する、といったことも可能です。実際に接続を設定してみましょう。
接続設定までの手順は、Google Analytics の場合と同様です。「接続」タブからデータソースとして「CSV」を追加しましょう。ローカルにあるCSV ファイルを同期するには、URI として同期したいCSV ファイルへのパスを指定すれば完了です。今回のようにFTP 上のファイルに接続する場合には、URI にサーバー上のログデータへのパス(ファイル単位、またはディレクトリ単位での指定も可能です)を指定して、「Advanced」タブの「Authentication」で、FTP サーバーのユーザー名、パスワードを指定します。
あとは、「保存およびテスト」で接続テストに成功すれば、それで完了です。
上記で紹介した2つのデータソース以外にも、CData Sync はGoogle Ads やTwitter、Instagram などウェブマーケティングに欠かせないさまざまなデータソースに対応しています。対応データソースの一覧は以下からご確認ください。
データレプリケーションを拡張する全コネクタ製品 | CData Software Japan
同期先としてSnowflake を追加
同期したいデータソースを追加できたら、いよいよ同期先としてSnowflake を追加しましょう。といっても、基本的な手順はデータソースの追加と同じで、違いとしては「データソース」ではなく「同期先」タブから「Snowflake」を追加する、という点だけです。
あとは接続の設定ページで利用したいSnowflake インスタンスのクレデンシャルを指定します。認証方法としては、以下の画像で使用したパスワード認証以外にもキーペアやOAuth での認証にも対応しています。
設定したデータソースのデータをSnowflake に同期
それでは、設定したデータソースのデータをSnowflake に移行してみましょう。データ移行の設定は「ジョブ」タブから行います。「ジョブ」タブに移動したら、「ジョブを作成」から任意のジョブ名を指定して、データソースと同期先に先ほど設定したデータソースとSnowflake の接続を指定します。
「作成」をクリックするとジョブが作成され、設定画面が開きます。ここからデータソース内のテーブルを指定して、実際に移動したいデータのマッピングやスケジュール実行などを設定できます。
それでは、実際にデータを同期するための設定をしていきましょう。ここではGA4 の例で説明します。「ジョブ設定」内の「タスクを追加」をクリックすると、GA4 のAPI で取得できるテーブルの一覧が表示されます。必要なテーブルを選択して、「追加」をクリックします。「ジョブ設定」に先ほど選択したテーブルが表示されるので、ここから同期先で使うスキーマやテーブル名の設定、カラムマッピングの設定などが可能です。
タスクの設定が完了したら、データを同期したいテーブルを選択して「実行」ボタンをクリックすると、データの同期が開始します。「Records affected: <レコード数>」のような表示が出てきたら、タスクの実行は成功です。
実際にSnowflake にログインしてみると、GA4 のデータが同期されていることが確認できました!
無事同期が完了したら、お好みのBI ツールでSnowflake に接続してデータ分析、ダッシュボード化に使用できます。
おわりに
いかがでしたか?これからウェブサイトのデータ分析基盤を整えたい皆さん、30日間無償トライアルでぜひ一度CData Sync をお試しください。
関連コンテンツ