Areeba 社がCData Virtuality で機械学習(ML)モデル構築を高速化

アジャイルで使いやすいデータ仮想化ソリューションにより、Areeba 社の機械学習(ML)モデル構築を大きくレベルアップ。

データ待ち状態を解消
データサイエンティストは、アナリストにデータ依頼をしてデータを待つ必要がありません。
複数ソースからのリアルタイムアクセス
データアクセスを単一の場所に集約することにより、Areeba 社では簡単に予測分析のためのビュー作成や集計が可能に。
プロセスのオートメーション
スケジュールされた自動化プロセスにより、データは常に最新のものが利用可能に。

Areeba  社は、中東地域の銀行、店舗、政府に高速で革新的な決済ソリューションを提供するレバノンの大手金融テクノロジー企業です。同社は、生体認証カードやモバイル決済から SmartPOS  まで、より良い決済エクスペリエンスとより安全なソリューションを提供する新しい機能とテクノロジーに投資することに注力しています。

Areeba  社は常に最先端のソリューションを目指しており、トランザクション データと運用データにデータ サイエンスのルールを適用して、サービスのパフォーマンスを向上させています。Areeba  社のデータ サイエンティストは、時系列、回帰、ディシジョンツリー、ランダムフォレスト、さまざまなクラスタリング アルゴリズムなどの機械学習 (ML)モデルを使用して、さまざまな顧客と店舗のセグメンテーション、店舗のパフォーマンス、チャーンについて学習をしています。Areeba 社は、イノベーションを可能にする最適なデータ管理ソリューションを見つけるまで、多くのの課題に直面しましたが、最終的に CData Virtuality でこれらのボトルネックを克服しました。

課題: 散在したデータによる CSV のカオス

Areeba 社は、トランザクションデータとオペレーションデータに ML モデルを適用するために、膨大な量のデータを処理します。データは MemSQL、MariaDB、Oracle などのさまざまなソースから取得されるため、実用的なインサイトを得るために情報にアクセスして統合することが困難です。

多くのデータ サイエンティストと同様に、Areeba チームは最初に、CSV やテキスト ファイルなどのさまざまな形式で複数のソースから必要なデータを収集しようとしました。次に、そのデータを使用して、Python、R、Scala などの言語を使用して予測とモデルを構築しました。ただし、このプロセスは非常に時間・手間がかかり、エラーが発生しやすいものでした。同社は、この種のアプローチが近い将来にリアルタイム分析の課題となってしまうことに気づきはじめました。

「ML プロセスを開始したときに、最初から CData Virtuality を知っていればよかったと思います。これにより、多くの時間と労力を節約できたはずです。CData Virtuality は、データ サイエンティストとしての私たちの日常生活に不可欠なものになりました。これにより、さまざまなソースからのデータを簡単に取得、統合、および使用することができます。これにより、時間を節約し、最終結果にさらに集中できます。今後が楽しみです!」

– Khaled Eid, Data Scientist, Areeba


ソリューション: 大規模な高速データアクセス

結局のところ、データこそが ML アルゴリズムをトレーニングするための主な要素です。データ エコシステムが適切に管理および接続されていない場合、Areeba 社の ML 戦略は効果を発揮しません。Areeba 社は、従来のデータ ウェアハウス システムが非効率で拡張が難しいことを認識していたため、データ仮想化を可能にするソリューションを探しはじめました。

Areeba 社は良い品質のデータを収集できていましたが、予測モデルの構築を開始する前に、CSV ファイルからデータをコピーして中央レポジトリのフォーマットされた形で貼り付けることに多くの時間を使っていました。そのときに、データ アーキテクチャ チームが CData Virtuality を見つけました。

Areeba 社のデータ アーキテクチャ チームとデータ サイエンス チームは協力して、CData Virtuality で効率的でスケーラブル、そしてかつてないほど高速な基盤とプロセスを構築しました。

「このプロジェクトで得た最も重要な教訓の 1 つは、データ仮想化が機械学習プロセスにとっていかに重要であるかということです。これは、データ アーキテクチャチームとデータ サイエンスチームを含むすべての関係者に当てはまります。CData Virtuality は、単調な作業を減らし、アイドル時間を排除するのに役立ちました。」

– Bernard Bardawil, Development Lead, Areeba


結果: より高速で効率的なデータ アクセス

CData Virtuality を使用して、Areeba 社のデータ アーキテクチャチームは既存のデータ ランドスケープ上に仮想アクセス レイヤーを構築しました。JDBC および REST API コネクタを使用することで、データウェアハウスにすべてを移動することなく、1 か所でデータにアクセスできるようになりました。モジュールは権限ごとに分離できるため、異なる要件を持つ複数のチームにサービスを提供できます。すべて、コードを書くことや編集することなしに実現できます。

CData Virtuality を使用する前は、Areeba 社はデータベース、データ ソース、データ サイエンス / ML ツールへの個々の接続をコーディングして定義する必要がありました。これは手間と時間のかかる作業であり、常に注意とメンテナンスが必要でした。現在、彼らは CData Virtuality を使用して一元化されたビュー定義を構築し、API を使用して一元化されたデータ モデルに接続してデータを取得しています。プロセス全体が自動化されスケジュールされているため、データは常に最新の状態になり、すぐに使用できます。このようにSSOT(Single Source of Truth、単一の真実のソース)が整備されているため、データアーキテクチャチームはすべての受信リクエストをタイムリーに管理し、高品質のデータを提供できます。

最後に、ネットワーク経由で CSV ファイルを転送する必要がなくなったため、セキュリティリスクの問題を解決することができました。データアーキテクチャ チームは、すべてのシステムのデータを使用して、すべてのサービスとアプリからアクセスできる仮想レイヤーで利用できる、CData Virtuality に Data as a Service (DaaS)コンセプトを構築しました。

Areeba 社のデータ サイエンティストは、仮想アクセス レイヤーで予測モデルを構築するために必要なビューと集計を構築できるようになりました。Python やR から最高のパフォーマンスでデータを利用できるようになりました。また、ソフトウェア開発者の助けを借りずに、CData Virtuality で Tableau への接続も構築しました。データ アーキテクチャ チーム以外ではほとんどプログラミングは必要ありませんでした。現在、Java で SQL クエリを記述し、結合して JSON を作成し、最終的にそれを公開するという通常の手順は時代遅れの過去のものとなりました。

近い将来、データ サイエンス チームは、ニューラルネットワーク ML とディープラーニングに拡張したいと考えています。データ サイエンスチームが構築するモデルは、ビジネス ユーザーと共有してフィードバックを受け取り、既存の ML モデルにフィードしてモデルを強化し、さらに学習します。

CData Virtuality でデータを素早く利活用

CData Virtuality は、データ ソースを統合するためのエンタープライズ レベルのパフォーマンスを提供します。手動タスクでチームを混乱させることなく、より速く正確な洞察を得ることができます。今すぐ無償のトライアルをお試しください。

CData でデータ連携・データ活用をはじめましょう