Google BigQuery とCData Sync を使用したデータウェアハウジング
ビジネスインテリジェンス(BI)、人工知能(AI)、および機械学習(ML)のツールが企業のデータから新しいビジネス価値を生み出していると認識されるにつれて、データウェアハウジングの人気が高まり続けています。データウェアハウジングとそれに続くツールの進化により、大規模なデータを処理することができています。
そのメリットは明らかですが、組織のデータを共通のリポジトリに集約するは難しい場合があります。給与計算、会計からマーケティングオートメーションやCRM まで、それぞれ独自のAPI やインターフェースを備えた多くのアプリケーション、プラットフォーム、サービスを利用している可能性があります。さらに、データの取り込みが自動で継続的な方法でなされるべき中で、データダンプは実用的ではありません。
CData Sync は、データ統合におけるこのような課題を解決するために設計されています。CData Sync のデータレプリケーションツールは、重要な組織データをすべてバックエンドデータベースまたはデータウェアハウスに自動的に取り込むことができるよう構成されています。非常に簡単で、ポイントやクリックする使い慣れたインターフェイスとSaaS、Big Data、およびNoSQL など100 以上のデータソース をサポートしているので、CData Sync を使うことで迅速にデータパイプラインを構成しカスタマイズできるようになります。
この記事では、CData Sync の同期先として人気のデータウェアハウスであるGoogle BigQuery の設定から構成方法について、順を追って解説します。まったく同じ基本構成は、あらゆるサポートされているデータの接続先で利用可能です。
Google BigQuery 構成する
Google BigQuery はサーバレスでスケール化に非常に優れています。つまり、データアナリストや開発者が、予算を超えることなくBigQuery のデータを扱いやすくなります。データテーブルとビューをプロジェクトとデータセットにスコーピングすると、データが多数のところから供給されている場合でも、データを論理的に構造化できます。データソース(Salesforce、QuickBooks、Facebookなど)ごとに異なるデータセットを構成すると、クロスソース分析を有効にしつつ、異なる分析ドメインが分離した状態を保つことができます。データウェアハウスとしてBigQuery の利用をご検討の場合、Google 社の記事をご覧ください BigQuery for Data Warehouse Practitioners 。
CData Sync を利用し企業データをGoogle BigQuery へ複製するには、Goolge Cloud Platform(GCP)にプロジェクトを用意し、プロジェクトにデータセットが必要になります。これら両方を配置すると、CData Sync が、テーブルの新規作成から既存テーブルの新しいデータエントリでの更新まで、残りのレプリケーションを管理します。
Google Cloud Platform でプロジェクトを作成する
もしプロジェクトがまだなく新しく作りたい場合、Google Cloud Platform へログインし、Google Cloud Platformの右にある下矢印をクリック、New Project をクリックします。
New Project のウィザードで、名前をつけ、場所を指定し、Create をクリックします。
Google BigQuery データセットを作成する
プロジェクトが作成され選択されたら、データを保存するためのデータセットを新しく作ることができます。Menu からBigQuery を選択します(または[BigQuery Console](https://console.cloud.google.com/bigquery)に直接移動します)。
Create Dataset をクリックし、Dataset ID、Data location、Default table expiration(有効期限)を設定します。新規データセットを作成するためボタンをクリックします。新規データセットを作成するためボタンをクリックします。
プロジェクトとデータセットが構成されると、CData Sync からレプリケーションウェアハウスとしてGoogle BigQuery に接続する準備が整います。
CData Sync からGoogle BigQuery へ接続する
CData Sync は、データ同期先としてGoogle BigQuery のデータセットへ直接接続します。CData Sync がサポートする100以上のデータソースと組み合わせることで、マーケティングオートメーションやCRM からERP、経理、ソーシャルメディア(SNS)、コラボレーションプラットフォームなど、すべてのエンタープライズデータの統合データウェアハウスとしてBigQuery を迅速に構成できます。
Google BigQuery に接続するには、Connections ページへ行き、Destinations タブをクリック、そしてGoogle BigQuery を選択します。
コネクションに名前をつけ、データセットプロジェクトID をつけます。Connect をクリックすると、CData Sync がGoogle BigQuery へアクセスできるようGoogle へ自動で認証します。Save Changes をクリックするとコネクションが保存されます。
データをGoogle BigQuery へ複製する
Google BigQuery が構成されCData Sync が接続されると、データをGoogle BigQuery へレプリケーションする準備が完了します。複製したいそれぞれのデータソースのために、ソースの接続設定をします。いくつかのデータソースがそのままCData Sync に組み込まれていますが、新しいデータソース連携を簡単にダウンロードできます(CData Syncアプリのリンクをクリックします)。もしくは、Data Source Connections のダウンロードページ をご覧ください。
Job タブで、レプリケーションを作成しスケジュールします。ジョブ作成は、CData Sync 2019 の概要 で見ることができます:
VIDEO
Google BigQuery を超えて
データを複製すると、エンタープライズデータを最大限活用できます: BI ツール(たとえば、Tableau )で分析し、Google Data Studio](https://datastudio.google.com/overview) に組み込まれたビジュアル化されたデータからインサイトを取得し共有します。そして、BigQuery ML で予測を行います。
CData Sync の重要機能
CData Syncは、あらゆるデータソースからあらゆる同期先まで、エンタープライズデータの集約プロセスを劇的にシンプルします。たとえば、下記の機能があります:
すべての主要なデータベースとデータウェアハウスの同期先を含む、100 を超えるデータソースのサポート。
簡単な構成: 必要に応じて、元のデータソースの各テーブル(エンティティ)に対して、レプリケーション先にテーブルが作成されます。
データ複製の差分更新: 最後の複製以降に追加または更新されたエントリーのみが複製ジョブに含まれます。
完全にカスタマイズ可能なレプリケーションとデータ変換: 特定の列(フィールド)の選択、データのフィルター、集計の作成など、多数あります!
すぐに始めませんか?30 日間の無償トライアル を今ダウンロードしましょう。
関連コンテンツ