製品をチェック

Apache Spark Data Provider の30日間無償トライアルをダウンロード

 30日間の無償トライアルへ

製品の詳細

Apache Spark アイコン Apache Spark ADO.NET Provider 相談したい

Apache Spark 連携のパワフルな.NET アプリケーションを素早く作成して配布。

Entity Framework 6 からSpark データに連携

この記事は、Entity Framework のcode-first アプローチを使って、Spark に接続する方法を説明します。Entity Framework 6 は.NET 4.5 以上で利用可能です。

加藤龍彦
デジタルマーケティング

最終更新日:2022-04-04
spark ロゴ

CData

ado ロゴ画像
Entity Framework ロゴ

こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。

Entity Framework はobject-relational mapping フレームワークで、データをオブジェクトとして扱うために使われます。Visual Studio のADO.NET Entity Data Model ウィザードを実行するとEntity Model を作成できますが、このモデルファーストアプローチでは、データソースに変更があった場合やエンティティ操作をより制御したい場合は不都合があります。この記事では、CData ADO.NET Provider を使いコードファーストアプローチでSpark にアクセスします。

  1. Visual Studio を起動し、新しいWindows Form アプリケーションを作成します。ここでは、.NET 4.5 のC# プロジェクトを使います。
  2. Visual Studio の [パッケージ マネージャー コンソール]から'Install-Package EntityFramework' コマンドを実行し、最新のEntity Framework をインストールします。
  3. プロジェクトのApp.config ファイルを修正して、Spark Entity Framework 6 アセンブリおよびコネクションストリングへの参照を追加します。

    SparkSQL への接続

    SparkSQL への接続を確立するには以下を指定します。

    • Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
    • Port:SparkSQL インスタンスへの接続用のポートに設定。
    • TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
    • AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

    Databricks への接続

    Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

    • Server:Databricks クラスターのサーバーのホスト名に設定。
    • Port:443
    • TransportMode:HTTP
    • HTTPPath:Databricks クラスターのHTTP パスに設定。
    • UseSSL:True
    • AuthScheme:PLAIN
    • User:'token' に設定。
    • Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。

    <configuration> ... <connectionStrings> <add name="SparkSQLContext" connectionString="Offline=False;Server=127.0.0.1;" providerName="System.Data.CData.SparkSQL" /> </connectionStrings> <entityFramework> <providers> ... <provider invariantName="System.Data.CData.SparkSQL" type="System.Data.CData.SparkSQL.SparkSQLProviderServices, System.Data.CData.SparkSQL.Entities.EF6" /> </providers> <entityFramework> </configuration> </code>
  4. インストールディレクトリの[lib] > 4.0 サブフォルダにあるSystem.Data.CData.SparkSQL.Entities.EF6.dll を設定し、プロジェクトを作成してEntity Framework 6 を使うためのセットアップを完了します。
  5. この時点でプロジェクトを作成し、すべてが正しく動作していることを確認してください。これで、Entity Framework を使ってコーディングを開始できます。
  6. プロジェクトに新しい.cs ファイルを追加し、そこにクラスを追加します。これがデータベースのコンテキストとなり、DbContext クラスを拡張します。この例では、クラス名はSparkSQLContext です。以下のサンプルコードは、OnModelCreating メソッドをオーバーライドして次の変更を加えます:
    • PluralizingTableNameConvention をModelBuilder Conventions から削除。
    • MigrationHistory テーブルへのリクエストを削除。
    using System.Data.Entity; using System.Data.Entity.Infrastructure; using System.Data.Entity.ModelConfiguration.Conventions; class SparkSQLContext :DbContext { public SparkSQLContext() { } protected override void OnModelCreating(DbModelBuilder modelBuilder) { // To remove the requests to the Migration History table Database.SetInitializer<SparkSQLContext>(null); // To remove the plural names modelBuilder.Conventions.Remove<PluralizingTableNameConvention>(); } }
  7. もう一つ.cs ファイルを作成し、ファイル名を呼び出そうとしているSpark のエンティティ、例えばCustomers にします。このファイルでは、エンティティとエンティティ設定の両方を定義します。以下に例を示します。 using System.Data.Entity.ModelConfiguration; using System.ComponentModel.DataAnnotations.Schema; public class Customers { [DatabaseGeneratedAttribute(DatabaseGeneratedOption.Identity)] public System.String Id { get; set; } public System.String City { get; set; } } public class CustomersMap :EntityTypeConfiguration<Customers> { public CustomersMap() { this.ToTable("Customers"); this.HasKey(Customers => Customers.Id); this.Property(Customers => Customers.City); } }
  8. エンティティの作成が済んだので、コンテキストクラスにエンティティを追加します: public DbSet<Customers> Customers { set; get; }
  9. コンテキストとエンティティの作成が完了したら、別クラスでデータをクエリできます。例: SparkSQLContext context = new SparkSQLContext(); context.Configuration.UseDatabaseNullSemantics = true; var query = from line in context.Customers select line;

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。