使い慣れたツールからApache Impala への接続を可能としたデータサイエンスプラットフォームの構築を実現

加盟店向けのデータ分析サービス「Custella」のサービスレベル向上を目的にCData ODBC Driver for Impala を採用。データアナリスト、データサイエンティストがパフォーマンスを最大限発揮できるデータサイエンスプラットフォームの構築を実現

三井住友カード株式会社は、2019年にクレジットカードの加盟店などに向けて同社が保有するキャッシュレスデータを活用したデータ分析サービス「Custella」(カステラ)を開始しました。

また、同サービスのリリースを機にHadoop エコシステムをベースとしたデータサイエンスプラットフォームを本格的に稼働しました。

同社では、ODBC Driver for Impala を採用することで在籍しているデータアナリストやデータサイエンティストが使い慣れたSQL クライアントやアナリティクスツールからHadoop への接続を可能としたデータサイエンスプラットフォームの構築を実現しました。


Before | 課題

  • Impala と標準接続できるSQL クライアントやアナリティクスツールが限定的であった
  • Impala に標準接続可能なひとつのツールに絞ることはデータアナリストやデータサイエンティストのパフォーマンスやイノベーションを阻害する懸念があった

After | CData 製品を導入した効果

  • CData ODBC Driver for Impala で各種ツールからHadoop へのクエリが可能に
  • データアナリストやデータサイエンティストがパフォーマンスを最大限発揮できるように使い慣れたツールで利用可能なプラットフォームを提供

Custellaの構築とCData ODBC Driver for Impala のご導入ご担当者にお話をお伺いしました。

Q:今回のプロジェクトの背景や経緯を教えてください。

当社では2019年からクレジットカードの加盟店様などに向けて、当社が保有するキャッシュレスデータを活用したデータ分析サービス「Custella」の提供を開始しました。

具体的にはカード会員様の個人情報を統計化する前提で、マーケティング分析レポート、商圏分析レポートなどに加えて当社の会員様に向けたダイレクトメールによる送客サービスなどを提供しております。

Custella のサービスリリースを機に当時実証実験を進めていたHadoop エコシステムをベースとした「データサイエンスプラットフォーム」を本格的に活用することを決めました。

特徴としては従来の分析プラットフォームに比べて処理性能が劇的に向上した点と簡単なクロス集計から機械学習、およびディープラーニングを用いた高度な分析まで幅広く対応するために「データサイエンスワークベンチ」を導入している点になります。

Q:プロジェクトの実現に向けての課題・ボトルネックはありましたか?

当社に在籍するデータアナリスト、データサイエンティストはAlteryx、SPSS、Hue、SAS、Tableau など様々なアナリティクスツール、およびA5:SQL Mk-2 などのSQL クライアントツールを利用していますがImpala と標準接続ができるツールが限定的でした

Q:CData 製品に期待したことは?

私たちは、データアナリスト、データサイエンティストのパフォーマンスを最大限発揮できるようにインフラの整備を進めております。

そのため、当社のデータアナリストから自身が使い慣れた他のツールを利用したいと要望が上がったことをきっかけに当社が利用している各種ツールからImpala に直接接続できる方法としてCData ODBC Driver for Impala の導入を検討しました。

Q:実際に CData 製品を使われた感想は?

実際の導入については初期設定が非常に手軽なこともあり、ライセンスを購入してからすぐに本番利用を開始することが出来ましたので非常に助かりました。

引き続きCustella を支えるインフラとしてCData ODBC Driver for Impala を活用していきたいと考えています。

CData でデータ連携・データ活用をはじめましょう