データ活用やDX が推進されるなかで、データは企業が活動する上で切っても切り離せない存在となっています。業務に活用されるデータはその種類、量ともに増加し、データの増加とともにデータレイクにあらゆるデータをまずは集約する、といった企業も増えてきました。
そこで生まれるのが、以下の 1~3のサイクルです。
- データが絶え間なく収集・集約される
- 集約されたデータを活用するため、ツールやアプリケーションがデータセットに依存するようになる
- データセットにさらに多様なサービスのデータが集約される
本記事では、このデータグラビティと呼ばれる現象について詳しく解説し、その影響、デメリット、そしてデータグラビティを抑えるにはどうしたらいいのか、までを紹介します。
※本記事はCData US ブログ What is Data Gravity? の翻訳です。
データグラビティってどんな現象?
データグラビティは、その名の通り惑星間の重力の関係を大規模データの管理に当てはめたものです。大規模なデータセットが存在する場所(データレイクやデータウェアハウス)を「惑星「と呼びましょう。惑星であるデータレイクの周りには、データを活用するサービス、アプリケーション、外部から追加されるデータなどの「衛星」が存在します。
惑星の体積(データレイクの規模)が大きくなるにつれ惑星の「重力」が増加し、より多くの衛星を引き寄せ(あらゆるデータが集積されている場所にツールやアプリを最適化していくため)、それがさらに惑星の重力を増大させることになります。これがデータグラビティと呼ばれる現象です。
アプリやサービスがデータを生成して、データレイクやDWH にそのデータを集積する。すると集積されたデータがさらに多くのアプリやサービスを引き寄せて、そのデータを活用して運用を強化する、というサイクルが発生する、ということですね。
データグラビティには、多様なデータが一ヵ所に集積されており、それらのデータにすぐにアクセスできる、というメリットがありますが、同時にデータ管理の問題も生み出します。
データグラビティの影響
かつては、データを保存してアクセスする唯一の方法はオンサイトにサーバーを置くことでしたが、ビッグデータと言われるように近年収集されるデータは急増し、すぐにストレージ容量以上のデータが蓄積されてしまうという課題が生まれました。
現在ではクラウドのデータストアを活用することが一般化し、データをオフサイトで保管できます。しかし、クラウドストレージが出現したからと言ってデータグラビティの現象や課題がなくなるわけではありません。
クラウドストレージに保管されるデータは依然として「重力」を持ち(他のデータを引き寄せ)、データ管理の責任は依然としてデータを所有する企業にあります。また、現在所有しているデータを管理するだけでなく、将来的に収集するデータをどのように管理するかを計画する必要もあります。
データグラビティに関する最大規模のレポートであるData Gravity Index (DGX) 2.0 によると、世界中の企業がDX に取り組む中でデジタルワークフローへの依存度を高めています。この変化によって、2023年から2025年までの3年間でパブリッククラウドおよびプライベートデータセンターで作成・使用される企業データは、約120万エクサバイト(1エクサバイトは10億ギガバイト(!)に相当)にのぼると予想されています。
さらに、こうして生成された大量のデータにアクセス・分析することができない状態になっている、という企業も増加しています。増えすぎたデータソースとデータ管理の計画不足がこうした状況を生み出します。いくらデータが多くあっても、モデル作成や意思決定など、実業務に活用できなければ宝の持ち腐れになってしまいます。
データグラビティのデメリット
データセットの増大は、アプリケーションやツールで扱う際のアクセシビリティやデータの多様化など良い面もありますが、同時にさまざまなデメリットがあります。1つには、データは蓄積すればするほど扱いにくくなります。ある場所から別の場所にデータを移行する作業は、ますます複雑になるわけです。
さらに、多様なデータソースから収集した大量のテーブルやビューが格納されたRDB、構造化データ・非構造化データ・生データが混在するデータレイクなど、データが肥大化して整理されていない場合、データセットを探索して必要な情報を取得するのは、時間、リソース、収益の面で負担となります。膨大なデータがIT リソースを圧倒し、タイムリーな分析や意思決定を阻害することになります。
こうしたデメリットの影響範囲は、全社のオペレーションに及びます。保存、移動、共有、転送されるデータが肥大化すれば、そのデータに依存するすべてのシステムや業務を遅延させてしまいます。
集約されたデータセット内のデータに依存している部署や業務は、こうしたデータアクセスの遅延によって業務が完全に停止してしまうことも考えられます。例えば、データアナリストやデータサイエンティストのようにデータが必須の業務には特に、影響範囲が大きいでしょう。
データグラビティを管理して、デメリットを最小化するには?
現代のビッグデータの世界では、データの肥大化とそれによるデータグラビティの拡大を避けることはできないでしょう。ここまで見たように、データグラビティが適切に管理されていない場合、アクセス・整理・検証から、統合・移行・分析に至るまでのプロセスが大幅に遅延するかもしれません。では、データグラビティのデメリットを最小化するにはどうすればよいのでしょうか?
データグラビティは、データがオンプレミスに存在するかクラウドに存在するかに関わらず、データ移行・データ統合プロジェクトに多大な影響を与えるため、適切な計画にはデータセットの規模(「重さ」)を管理する方法と、それらを統合・移行する際のプロセスを管理する方法を決めておくとよいでしょう。
データファブリックのアプローチは、異なる場所にある大規模なデータセットを管理し、データグラビティのデメリットを打ち消すために役立ちます。データファブリックは、データエコシステム全体で多用なデータを接続し、データ接続とデータ管理を簡素化するのに役立ちます。データが効果的に管理され、社内の技術スタックとシームレスに連携できる状態を整えておくことで、業務効率を大幅に向上できるでしょう。
CData の連携製品でデータグラビティのデメリットを最小化
データ管理、統合、移行、分析の効率性を向上するには、全社的に使用されるシステム間の連携が肝心です。CData では、社内の技術スタックのあらゆるデータを接続する、すぐに使える数百のデータ接続用ドライバーを提供しています。
CData のドライバーやコネクターを使えば、ビジネスユーザーがCRM、ERP、人事システム、データベース、データウェアハウスなどのデータにノーコード、またはSQL 経由でExcel、Access、Power BI、Tableau などのBI ツールを含む150種類以上のツールからすぐに接続できます。API を叩いたり、データパイプラインのメンテナンスは不要です。
また、クラウド型のデータ接続サービスであるCData Connect Cloud では、270種類以上のクラウドアプリケーション、データベース、データウェアハウスへのスムーズな接続をノーコード・クラウド完結で手軽に実現できます。
全製品で30日間の無償トライアルを用意していますので、お気軽にご利用ください。
関連コンテンツ