こんにちは、CData ウェブ担当の加藤です。
業務データの活用や分析がますます求められる昨今ですが、CRM にSalesforce、MA にはMarketo 基幹システムとしてはSAP など、さまざまなサービスにデータが分散してしまって活用に困る、というのはどの企業でも悩みの種です。
そんな課題を解決して、大量のデータを統合して単一のデータベースやデータウェアハウスに集約するのに便利なのが、ETL / ELT ツール(またはデータパイプラインツール)です。でもETL ツールは多種多様で多くて、どれをどういった観点で選べばいいのかわからない、という方も多いのではないでしょうか?この記事ではそんな悩みにお答えします。
データパイプラインツールはさまざまなアプリケーションとデータソースから、チームが営業活動の集計データとして活用するデータウェアハウスへの、データの移行を最適化します。データ移行用の技術が多数存在する一方、もっとも広く使用される統合の手法はETL(抽出:Extract、変換:Transform、ロード:Load)です。
ETL ツールは部署間の処理の架け橋であり、業務の効率化に欠かせない役割を果たします。
ETL ツールで大事な要素
さて、皆さんならETL ツールに何を求め、どのように評価するでしょうか?
業務にピッタリなETL サービスを調査する上でカギとなる要素を、次にまとめました。
- サポートされるデータソース数。幅広いデータとの連携
- 拡張性と将来にわたる製品の継続性と成長性
- 使いやすさ
- ドキュメントとサポート
- セキュリティとコンプライアンス
- バッチ処理とストリーム処理
- 信頼性と安定性
- 価格
- サードパーティーツールとの互換性
- データ変換
- 差分更新
サポートされるデータソース
利用している重要なツールやSaaS、DB をできる限り多くサポートするETL サービスを探しましょう。企業内でさまざまなチームが多種のSaaS ツールやデータベースを使っている場合、この選定は難しくなります。
選定したETL ツールの制限によっては、未対応の一部の連携用にカスタムソリューションを作成する必要があるかもしれません。これはさまざまな観点から望ましくないですが、避けられない場合もあります。
連携は欠かせない機能なので、幅広いデータソースをサポートするライブラリを持った、ユニバーサルなデータプラットフォームの選定は最優先事項です。
拡張性と将来にわたる製品の継続性と成長性
データ量の増加に合わせて、サービスを劣化させることなくニーズの増加に対応できるツールが求められます。評価中のデータパイプラインツールが大量のデータをどのようにサポートするのか、チェックすると良いでしょう。
通常、ETL プロバイダー側で追加のデータソースを加えることもできますが、自社でデータソースを追加できればなお良いでしょう。
使いやすさ
UI が理解しやすく、連携のセットアップやレプリケーションタスクのスケジュールとモニタが簡単にできる製品がよいでしょう。
- 問題が起きたときのエラーメッセージは明確か?
- 問題は簡単に解決できるか、あるいはベンダーのサポートチームに頼る必要があるか?
ドキュメントとサポート
サポートチームについては徹底的に調査しましょう。各ベンダーのサポートチームに問い合わせ、いろいろな質問をして専門性を評価しましょう。
- サポートチームは十分に問題を扱えるか?
- 素早く回答を提供してくれるか?
- E メール、電話、オンラインチャットなど、どのサポートチャネルが利用できるか?
最後に確認すべき点は、ベンダーのドキュメントが明確で完成度が高く、ツールの利用者に合わせた技術レベルで書かれていることです。
セキュリティとコンプライアンス
あらゆるIT システムにとってセキュリティは極めて重要ですが、クラウドベースのデータパイプラインの場合に考慮すべき点がいくつかあります。
- ベンダーがデータを、移行中と処理後にアプリケーション内でネイティブに暗号化している。
- セキュリティ設定をユーザー側でカスタマイズできるか?
- データソースと同期先に接続する方法にはどのようなものがあるか?
- セキュアDMZ アクセスを有効化して、内部ファイアウォールを保護できるか?
- 強力かつセキュアな認証方法を提供しているか?
- ベンダーはユーザーのデータのコピーを作っているか?ベンダーのシステムにコピーすることなくデータを自社のデータベースに移行したり、そこから取り出すことができるセキュアなソリューションが望ましいでしょう。
- GDPR コンプライアンスに則り、ファイル転送ガバナンスをサポートしているか?
価格
多くのETL ソフトウェアプロバイダーは独自の価格体系を設定しています。複製したデータ量、データソース数、許可するユーザー数などに基づいて価格が決まります。
無償版や、全機能が使用可能な無償評価版を使えばリスクなくプラットフォームを体験できるので、こうしたオプションのある製品は素晴らしい選択肢です。スケーラビリティの考慮や、データ量の増加に合わせて料金がどう変わるか、といった点も重要です。
高性能ELT という選択肢
データウェアハウスはこれまで高価な内製アプリケーションで、データパイプライン内でデータをロードする前に変換する必要がありました。これがETL(抽出:Extract、変換:Transform、ロード:Load)方式ですが、今では状況が違います。
企業が新しいデータウェアハウスをクラウドプラットフォームに組み込むようになり、データチームはデータがシステムにロードされたあとで、変換を実行できるようになりました。これが、ELT(抽出:Extract、ロード:Load、変換:Transform)方式です。データを移す先のデータウェアハウスやデータベースの処理能力を活用したい、という場合もあります。現代のデータレプリケーションソリューションではより素早い抽出、ロード、変換の処理が可能で、データ移行のパイプライン処理を大幅に高速化します。
柔軟性―SQL クエリでのフィルタリングや差分更新
製品が自分のニーズを捉えた手法を用意している、という点も重要です。
例えば差分更新機能です。大量のレコードを持つテーブルを利用していると、テーブルに更新がありそれをデータベースに追加したいというとき、毎回テーブル全体をレプリケートしていると時間がかかってしまいます。そんなときに役立つのが差分更新機能で、最終更新日時を保持してそれ以降に変更されたレコードのみを更新する、あるいはINSERT、DELETE といったSQL コマンドのログを保持してそれをもとに更新する、といった方法で、変更があったレコードだけを更新する手法です。こうした手法が用意されていれば、大量のレコードを扱う場合に便利です。
ハンズオンでの評価
次の項目について、ELT ソリューションを自社のデータと環境で試してみましょう。
- 使いやすさ:今は必要ないが今後ワークフローに取り入れるかもしれない機能も含め、あらゆる機能を試してみましょう。
- 同期と連携:データソースを設定する際の難易度や、ETL ツールがデータを希望する頻度で送信するのに耐えられるかどうか試しましょう。
- タイムライン:すべてのデータを、アナリストのニーズに合うようスケジュール通りに同期先できることを確認しましょう。
- 精度:さまざまなデータソースからいくつかデータセットを作成して、送信したデータが正確かどうか確認しましょう。
CData Sync:ETL を簡単に
CData Sync は、オンプレミスとクラウドデータソースのデータを、従来型のデータベースから新興のものまで幅広いデータベースに、ユーザーが直感的な操作で同期できるようにします。CData Sync は簡単にデータをデータベースに追加したりそこから取り出すことができ、データをCData のシステムにコピーする必要もない、セキュアなソリューションを実現します。CData Sync はデータを複製して業務レポートを支援し、GDPR コンプライアンスとファイル転送ガバナンスに則り、さらに内部ファイアウォールを保護するセキュアなDMZ アクセスを提供します。
CData Sync の30日間無償評価版をダウンロードして、モダンなETL ソリューションをお試しください。
関連コンテンツ