Azure Synapse からApache Cassandra へのデータ連携

CData Sync は、Apache Cassandra を含む400種類以上のSaaS / DB のデータをノーコードでデータ基盤に連携できるETL / ELT ツールです。Azure Synapse からApache Cassandra へのデータパイプラインを簡単に作成できます。

レポーティング用のダッシュボード構築、データ分析・活用のための分析基盤構築、クラウドへのリフトアンドシフトなど、CData Sync がAzure Synapse データの活用ニーズに応えるデータ基盤の構築を強力に支援します。

主要機能を5分で体験する 30日間の無償トライアルへ
データソースから同期先への連携
Azure Synapse ロゴ
Apache Cassandra ロゴ
Azure Synapse ロゴ

Azure Synapse とは
Azure Synapse Analytics は、Microsoft Azure が提供するクラウドベースの分析サービスです。データ ウェアハウスとビッグ データ分析の機能を統合し、ユーザーが馴染みのある SQL ベースのクエリを使用して大量の構造化および非構造化データを分析することを可能にします。Azure Synapse は、データ統合、ウェアハウジング、分析のための統合プラットフォームを提供し、組織がデータから価値ある洞察を得ることを可能にします。

Apache Cassandra ロゴ

Apache Cassandra とは
Apache Cassandra は、複数のサーバーにわたって大量のデータを処理するように設計された、高度にスケーラブルな分散型 NoSQL データベース管理システムです。高可用性と耐障害性を提供し、高速な読み取りと書き込み操作を必要とするミッションクリティカルなアプリケーションに理想的です。Cassandra はシームレスなスケーラビリティとパフォーマンスのために分散アーキテクチャを使用しています。

Azure Synapse とApache Cassandra をCData Sync で連携・統合

CData Sync を使えば、Azure Synapse のデータをあらゆるデータベース、データレイク、データウェアハウスへ継続的に同期することができるので、データ分析、レポーティング、AI / 機械学習などの用途で簡単に利用できます。

  • Apache Cassandra を含むあらゆるデータベース・データウェアハウス(DWH)にデータを同期。
  • Azure Synapse のデータをDB / DWH に同期してレポーティング業務、BI、データ分析に活用。
  • 3ステップの画面操作で手軽にETL / ELT パイプラインを構築。シンプルな操作感とはじめやすい価格設定で、データ統合を手軽にスタート。
  • SQL でのシンプルな変換から、dbt Core、dbt Cloud と連携した高度なETL / ELT 処理までをサポート。
  • Azure Synapse のデータをアーカイブしてディザスタリカバリに活用。

Azure Synapse をApache Cassandra に連携
CData Sync の同期先のコネクションを表示するスクリーンショット

CData Sync によるAzure Synapse データ連携の特徴


icon

シンプル・ノーコードのAzure Synapse データ連携

カスタムコーディングや複雑な設定なしで、より多くのデータを高速に移動。Azure Synapse をあらゆるDB / DWH にノーコードで連携できます。

icon

高度なデータパイプラインを数分で構築

Azure Synapse データ連携のお悩みを差分更新とスキーマの自動検出で解消。Apache Cassandra 上に常に最新のデータを用意できます。

icon

始めやすい価格設定

コネクション数に基づく始めやすく、透明性の高い価格設定で、Azure Synapse とApache Cassandra のデータを無制限に同期できます。

3ステップで簡単にETL / ELT パイプラインを構築


データソース設定画面

1. データソースに接続する

CData Sync なら、必要な業務データに簡単に接続できます。まずはSync にログインして、人気のSaaS / DB を含む400以上のデータソースからお好みのアプリケーションを選択してください。 他に必要なデータソースがあれば、後からすぐに追加できます。

Sync は、データソース側にネイティブでテーブルやスキーマが存在しない場合でも、スキーマとテーブル、ビューを動的に構築します。 そのため、どのデータソースでも共通の簡単な操作でデータとの接続を設定できます。

同期先設定画面

2. 同期先を設定する

接続先の設定と同様、同期先の設定も簡単です。定番のリレーショナルデータベースやNoSQL データベース、データウェアハウスを含む 同期先一覧から接続したいDB / DWH を選択して、クレデンシャルを入力、接続をテストすれば準備完了です。

ジョブ作成画面

3. データレプリケーション用のジョブを作る

データソース・同期先との接続を設定したら、スケジュール実行機能を使ってお好みの実行間隔でレプリケーションを実行することもできますし、 変更データキャプチャ(CDC)機能を使ってリアルタイムでレプリケーションを実行することもできます。オプションで、ジョブの実行途中(ETL)または実行後(ELT)にデータ変換のステップを追加することもできます。

CData Sync は業界トップ企業の
データパイプラインを支えています


CData Sync でデータ分析基盤を再構築。経営・スタッフ全員がダッシュボードを使ってデータの分析ができるように

「CData Sync により素早くデータ収集できる仕組みを内製化でき、経営層やスタッフにも『このプロジェクトは成功する』と確信してもらうことができました。」

佐藤久 様
グロービス経営大学院 CRM チーム


導入事例はこちら
Globis ロゴ

最新データに​基づいた​業務運営を​支える​データ同期の​仕組みを​構築

「プログラムを書くことなくノーコードで設定ができ、またデータ同期のスケジュールを設定すれば放っておいても定期的にデータ同期が行われるなどそれだけで独立して動作するため、作業効率がとても良いなと思いました。」

池田邦広 様
菊正宗酒造株式会社


導入事例はこちら
菊正宗ロゴ

SAP ByDesign のデータをDWH に複製し、経営・社員による共通データ基盤でのデータ活用を実現

「『生データ・粒度の細かいデータ』をそのままDWH であるPostgreSQL に複製できました。CData Sync は、ELT(Extract、Load、Transfer)方式で、加工を間に行う必要がないデザインで、シンプルにSAP ByDeSign データをDWH にロードしてくれるところを評価しました。」

中沢透 様
株式会社トプコン 経営推進本部


導入事例はこちら
トプコンロゴ

エンタープライズに欠かせない機能を搭載

多くのデータソースで差分更新に対応しているので、前回のレプリケーション後のデータの追加・更新分だけを高速・低コストで転送できます。 差分更新は、大規模なデータセット、低速なAPI、転送容量制限など多様な課題を解決します。差分更新の手法として、CData Sync ではカラムベースの方法と変更データキャプチャ(CDC)を用意しています。 カラムベースの差分更新では、前回同期したレコードの最終更新日時やバージョンを参照して差分レコードを抽出し、同期先DBを更新します。CDC では、データソースのログファイルをスキャンしてデータの変更を検出・同期します。 これらの手法を利用することで、使用する帯域幅およびレイテンシを大幅に抑えた上でデータウェアハウスのデータを常に最新で分析可能な状態に保つことができます。差分更新を使ったCData Sync の高度なデータレプリケーション機能は、高い柔軟性とパフォーマンスを持つETL / ELT パイプラインを実現します。

CData Sync の包括的なコネクタラインナップを活用すれば、データの活用範囲を大幅に拡大できます。 400以上のコネクタを用意しているので、SaaS アプリケーション、データベース、Web API、CSV ファイルなど多様なデータソースをDB / DWH に統合でき、社内で利用するSaaS が増えてもすぐに対応できます。 コネクタはCData Sync のGUI からすぐに追加することができるので、幅広いSaaS / DB コネクタを手軽に利用して、社内のデータ活用を促進できます。

SaaS / DB のテーブルスキーマはことあるごとに変更されます。CData Sync の動的なスキーマ変更機能を使えば、スキーマ変更への対応に煩わされることはありません。CData Sync は、ジョブ実行時に毎回データソースと同期先DB のスキーマを比較して変更を検出します。 テーブルに新しいカラムが追加された、データ型のサイズが増加した、といった場合には、正確なデータを反映できるよう同期先テーブルのスキーマを自動で変更します。同期先テーブルのカラムを削除したりカラムサイズを削減したりといった削除に関する操作は自動では行わないので、CData Sync がクリティカルなデータを消去することはありません。 CData Sync はデータの変化に適応するツールなので、データをツールに合わせて変更する必要はありません。

CData Sync はETL / ELT 機能としてシンプルにカスタムSQL クエリを書けるクエリビルダー、および高度なETL パイプラインの管理・構築が可能なdbt™ 連携の機能を搭載。手軽にデータ統合をはじめることができるのはもちろん、高度な機能が必要なユーザーのニーズにも応えます。 dbt は、エンジニアリングに欠かせないモジュール性、ポータビリティ、CI / CD 機能、ドキュメントを用意したデータエンジニアリングの人気ツールで、データを分析に最適な形にSQL で加工・整形できます。CData Sync を使えば、dbt と連携してレプリケーションの開始前、または開始後に同期先データベース上でSQL スクリプトを実行し、データを変換できます。 SQL クエリの作成と実行、およびプロジェクト・依存関係の管理をdbt 連携で実現。さらに、カラムの名前変更、追加、削除、結合、フィルタの適用、集計、データの分割をETL / ELT 機能で実行。スケジュール実行、通知といった管理面での機能も充実しているので、データをいつでも分析とレポーティングに最適な状態に保つことができます。

CData Sync なら、貴社のデータ処理を高度なパフォーマンス機能で大幅強化できます。CData Sync はクラスタ構成をサポートしているので、複数のSync インスタンスを並列で利用してジョブを分散することで、スケーラビリティを改善し、可用性を向上できます。並列処理を使えば、各ジョブが複数のワーカースレッドを利用でき、データ転送を高速化して効率的にデータを処理できます。複数のタスクを同時に実行することで、CData Sync はより多くのデータをより短時間で確実に転送します。最高度の生産性と信頼性を実現するCData Sync が、パフォーマンスの新たなスタンダードを打ち立てます。

CData Sync のデータ統合機能は、多様な形式、構造を持つあらゆるデータソースの基幹データベース / データウェアハウスへの統合・レプリケーションを実現します。CData Sync はニアリアルタイムでデータを更新して整形・統合を行うので、データ分析・レポーティング・ダッシュボード構築といった業務でデータをすぐに活用できます。さらに、一度設定してしまえば手作業は不要。CData Sync が自動でデータを最新に保ちます。

CData Sync は、ジョブ実行の前後で外部システムからの情報を利用したさまざまなカスタム処理を実行できる、イベント機能を搭載しています。 この機能を使えば、データ変換のフローに簡単に外部システムとの連携を組み込んで、業務自動化に活かせます。CData Sync のカスタムスクリプト用言語(APIScript)を利用することで、クエリパラメータの追加、外部システムと連携した処理の実行、バッチファイルの実行やメール送信などの業務に欠かせないタスクを、簡単にデータ処理タスクと連携・自動化できます。 ジョブ作成時に設定できる環境変数を使えば、動的な処理を組み込んでジョブ実行を精緻に制御でき、カスタムのETL / ELT パイプラインを自在に構築できます。

CData Sync はロギングおよびジョブ履歴のトラッキング機能を搭載しているので、ジョブ実行、接続エラー、レプリケーションに関する異なる詳細度のログを簡単に保存することができます。 job-history テーブルが実行したジョブのレコードをすべて保持するので、結果を確認してその変化をトラッキングする、といったプロセスも簡単に実現できます。データソース、同期先、レプリケーションエンジン間の連携に関する特定のログを取得することもできるので、エラーが発生した場合にはすぐに原因を調査できます。 また、ログをローカルおよびAmazon S3 バケットに保存することもできるので、長期での保存や監査に活用できます。Sync の強力なロギング・ヒストリー機能を使えば、包括的な監査やデータリネージのトラッキングを実現できます。

いくつかのデータソースでは、分析・レポーティング業務ですぐに使えるカスタムのディメンションや指標を用意しています。これらのビューを使えば、Google Analytics(GA4)、Google 広告、Facebook 広告などのデータをデータ分析やレポーティングにすぐに使えるビューとしてDB / DWH にレプリケートし、データモデルの知識がなくても簡単に業務で利用できます。

CData Sync はオンプレミス・クラウド双方の環境へのデプロイをサポートしているので、貴社の環境にベストフィットするデプロイオプションを選択できます。クラウド運用であれば、AWS やAzure のマーケットプレイスから設定済みのインスタンスを利用することができます。オンプレミス運用であれば、ポートやファイアウォールの開放、VPN 接続の設定といった作業を行う必要なく、オンプレミス環境にデプロイして社内のセキュリティプロトコルに則った運用をすることもできます。 CData Sync はデータソースや同期先の運用環境に合わせて柔軟にデプロイできるので、レイテンシの低下やパフォーマンスの向上に繋がり、データ保護やデータレジデンシーなど、データガバナンス面での対応にも役立ちます。

CData Sync のスケジュール実行機能を使えば、ETL / ELT 処理を簡単に自動化できます。1時間ごとの更新からcron 式を使ったカスタム設定まで、お好みのタイミングでジョブをスケジュールできます。 手動実行いらずでレプリケーションが実行でき、クエリのステータスやジョブの成功 / 失敗に応じた通知を受け取ることもできます。アラートはエラー時だけ受け取ることもできますし、すべてのジョブ実行で受け取ることもでき、Microsoft Teams やSlack に連携できます。 重要な処理を通知する機能をETL / ELT パイプラインに組み込むことで、効率的で可用性が高く、正確にデータをレプリケートできるパイプラインを構築できます。

データウェアハウスや分析基盤から業務システムへのデータの付加・強化を実現するリバースETL(Reverse ETL)は、業務でのデータ活用の幅をさらに広げたい企業にとって欠かせない機能です。CData Sync なら、DB やDWH にあるデータを直接Salesforce に転送できます。Salesforce に他のSaaS やマスタのデータを統合・集計したデータを追加することで、Salesforce での顧客管理をさらに有効に実施できます。

CData Sync で
データ連携を手軽にスタート