Alteryx Designer でHive のデータを準備、ブレンディング、分析する

リアルタイムHive のデータにアクセスしてセルフサービスデータ分析を行うワークフローを構築します。

古川えりか
コンテンツスペシャリスト
最終更新日：2022-12-15

CData

こんにちは！ドライバー周りのヘルプドキュメントを担当している古川です。

CData ODBC Driver for ApacheHive はODBC 標準のHive からのリアルタイムデータへのアクセスを可能にし、使い慣れたSQL クエリを用いて、さまざまなBI、レポート、ETL ツールでHive のデータを直接扱うことができます。この記事では、Alteryx Designer でODBC 接続を使ってHive のデータに接続し、セルフサービスBI、データプレパレーション、データブレンディングから高度な分析までを実行する方法を紹介します。

CData ODBC ドライバーには最適化されたデータ処理が組み込まれており、Alteryx Designer でリアルタイムHive のデータを扱う上で高いパフォーマンスを提供します。Alteryx Designer からHive にSQL クエリを発行すると、CData ドライバーはフィルタや集計などのHive 側でサポートしているSQL 操作をHive に直接渡し、サポートされていない操作（主にSQL 関数とJOIN 操作）は組み込みSQL エンジンを利用してクライアント側で処理します。組み込みの動的メタデータクエリを使用すると、ネイティブのAlteryx データフィールド型を使ってHive のデータを可視化および分析できます。

CData ODBC ドライバとは？

CData ODBC ドライバは、以下のような特徴を持った製品です。

Hive をはじめとする、CRM、MA、会計ツールなど多様なカテゴリの270種類以上のSaaS / オンプレデータソースに対応
多様なアプリケーション、ツールにHive のデータを連携
ノーコードでの手軽な接続設定
標準SQL での柔軟なデータ読み込み・書き込み

CData ODBC ドライバでは、1.データソースとしてHive の接続を設定、2.Alteryx Designer 側でODBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。

CData ODBC ドライバのインストールとHive への接続設定

まずは、本記事右側のサイドバーからApacheHive ODBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。

必要な接続プロパティの値がまだ未設定の場合は、データソース名（DSN）を設定します。組み込みのMicrosoft ODBC データソースアドミニストレーターを使ってDSN を構成できます。これは、ドライバーのインストールの最後のステップでも可能です。Microsoft ODBC データソースアドミニストレーターを使ってDSN を作成および設定する方法については、ヘルプドキュメントの「はじめに」を参照してください。

Apache Hive への接続を確立するには以下を指定します。
- Server：HiveServer2 をホストするサーバーのホスト名またはIP アドレスに設定。
- Port：HiveServer2 インスタンスへの接続用のポートに設定。
- TransportMode：Hive サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
- CData 製品においてTLS/SSL を有効化するには、UseSSL をTrue に設定します
DSN を構成する際、Max Rows 接続プロパティも設定することができます。これを設定すると返される行数が制限されるため、レポートやビジュアライゼーションを作成する際のパフォーマンスが向上します。

Alteryx Designer を開いて新しいワークフローを作成します。
新規のデータ入力ツールをワークフローにドラッグ＆ドロップします。

「ファイルまたはデータベースを接続」の下のドロップダウンをクリックし、続けて「データソース」タブを選択します。

ページの最後に移動し、「Generic connection」の下の「ODBC」をクリックします。
Alteryx で使用するために設定したDSN （CData Hive Source）を選択します。

ウィザードが開いたら、クエリを実行するテーブルを「クエリビルダ」ボックスにドラッグ&ドロップします。クエリに含めるチェックボックスをオンにしてフィールドを選択します。可能な場合、フィルタと集計によって生成されたクエリはHive に渡され、サポートされていない操作（SQL 関数とJOIN 操作を含む）は、コネクタに組み込まれたCData SQL エンジンによってクライアント側で管理されます。

データセットをさらにカスタマイズする場合は、SQL エディタを開いてクエリを手動で変更し、句や集計などの操作を追加して、必要なHive のデータを正確に取得できるようにします。

クエリを定義したら、Alteryx Designer でHive のデータを操作できるようになります。

Hive のデータに対してセルフサービス分析を実行

これで、Hive のデータを準備、ブレンディング、分析するためのワークフローを作成する準備ができました。CData ODBC ドライバは動的なメタデータ検出を実行し、Alteryx データフィールドタイプを使用してデータを表示し、Designer ツールを活用して必要に応じてデータを操作し、意味のあるデータセットを構築できるようにします。以下の例では、データをクレンジングして参照します。