各製品の資料を入手。
詳細はこちら →CData
こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。
CData の幅広い製品ラインアップを使えば、いろいろな方法でHDFS とSQL Server のデータ連携を実現できます。
など、多様なニーズに応じて最適な製品を用意しています。すべての製品に30日間無償トライアルを用意していますので、気軽にお試しいただけます。この記事では、ODBC Driver とPowershell(またはカスタムアプリ)の合わせ技、SQL Gateway(リンクサーバー)、SSIS、CData Sync の4種類の方法をそのメリット・デメリットと共に紹介します。
CData Arc は、CData 製品の中で「データ連携の自動化」を担うサーバーアプリケーションです。SaaS とのAPI 連携はもちろん、ファイル連携やDB 連携もノーコード・ローコードで自動化することができます。クラウドでもオンプレミスでも場所を選ばず、とかく複雑になりがちなB2B 連携を、これまでよりもっとシンプルに実現することを目指した製品です。
CData Arcは、業界最多級の接続先を誇るCData Drivers をシームレスに利用出来るCData コネクタを備えており、HDFS 以外のデータソースにも同じ使用感で数多く対応することができます。
すべてのEdition で共通な強力な連携エンジンを、利用する規模に応じた柔軟なライセンス体系で提供していますので、はじめてデータ連携ツールを使う方や、利用の規模に応じた価格感でローコードツールを利用したい方には最適です。SaaS との連携以外に、オンプレミスとの連携や、ファイル連携のニーズがある場合には、CData Arc 1つですべて実現することができます。
どのような連携ロジックを実現するかは、CData Arc のフローデザイナーで設定する形になります。
必要な製品:CData Arc
kintone での連携実装例はこちら:CData Arc を使ってHDFS とSQL Server を双方向にデータ連携する方法
SQL Server にはリンクサーバーといって、他のDB をSQL Server から呼び出せる統合機能があります。CData ODBC Driver for HDFS に付属しているSQL Gateway を使えば、HDFS のデータをSQL Server のリンクサーバーとして扱うことができます。物理的にHDFS のデータがSQL Server に保存されるわけではありませんが、SQL Server のインターフェースでHDFS のデータがSQL を使って呼び出すことができます。
詳しくはこちら:HDFSデータにSQL Server のリンクサーバーとして接続
通常のODBC Driver for HDFS のDSN 設定の後にSQL Gateway を立ち上げ、HDFS DSN をSQL Server のサービスとして設定します。SSMS でこのサービスをリンクサーバーとして登録すると、SQL クエリでHDFS のデータをリンクサーバー経由で使用することができます。 複数の.NET クライアントアプリからのHDFS のデータ参照や、SQL Server データとのJOIN などに最適です。
SELECT * from リンクサーバー名.CData HDFS Source Sys(ODBC DSN 名).HDFS.テーブル名
SQL Server のリンクサーバーに慣れ親しんだ方には一番使いやすい利用方法です。常に最新のHDFS のデータをリアルタイムにクエリできる点も優れています。SQL Server 側からのSQL で双方向連携(書き込みを含む)ができる点が大変便利です。
手間としては、SQL Gateway をサーバーにホスティングして稼働させなければならない点があります。またサーバーホスティングのため、コストは高めです。
SQL Server ユーザーでは、データ統合・ワークフローにSSIS(SQL Server Integration Services)を使っている方も多いのではないでしょうか?CData では、SSIS 向けにHDFS への連携が可能なSSIS Component for HDFSを提供しています。
詳しくはこちら:HDFSデータをSSIS を使ってSQL Server にインポート
SSIS ユーザーであれば、HDFS Component さえあれば簡単にSQL Server へのインポートフローを組むことができます。コンポーネントはドライバーと同程度の価格で、リーズナブルです。
SSIS 以外のETL / EAI ツールをご利用であれば、CData Drivers をETL / EAI ツールで使うだけで簡単にデータ連携が可能です。ASTERIA Warp、DataSpider、Informatica、Waha! Transformer、RACCOON、Talend など多様なETL ツールから利用できます。HDFS とETL の連携記事は、こちらに一覧としてまとまっています(HDFS のETL、レプリケーション & DWH 接続ガイド)。すでに利用しているツールにHDFS Driver をアドオンするだけで連携が組めるので、ETL ツールを使っているユーザーはこちらのオプションがコスト・技術の両面で使いやすいでしょう。
ノーコードでHDFS とSQL Server を繋いでデータを統合、SQL Server を分析基盤として使いたい、という場合にはCData Sync というETL / ELT ツールを使う方法がおすすめです。CData Sync はサーバーアプリケーションになっており、インストール後3ステップで手軽にレプリケーションジョブが設定できます。定期実行や細かいレプリケーションの項目設定までをGUI 操作だけで実行可能です。
詳しくはこちら:SQL Server にHDFS のデータを連携・統合する方法
DB への同期専用のノーコードツールであり、他の方法に比べて使いやすさや拡張性の高さが特徴です。他の方法に比べると、コスト面は高めになります。
CData では、HDFS とSQL Server のデータ連携を実現するための幅広い製品を用意しています。まとめると:
どの製品も日本語オンラインドキュメントおよびテクニカルサポートを用意していますので、安心してご利用いただけます。製品選定について記事だけではわからない部分がありましたら、お気軽にお問い合わせください。