こんにちは。CData技術ディレクター桑島です。
弊社のパートナーでもあるnehan 社がQiita上にユニークなデータ分析のブログ記事を掲載されていたので本サイトでもご紹介させていただきます。nehan 社は「誰でも簡単にデータ分析ができる未来を創る」をモットーにプログラミング不要のデータ分析ツールnehanを提供しています。
製品ページはこちら↓↓↓
nehan.io
nehan 社ではデータ分析ツールに必要なデータを集めるところでCData Drivers製品をご活用いただいております。
プレスリリースの記事はこちら↓↓↓
prtimes.jp
今回、nehanの中の人(@マンボウ!?)がTwitter上のコロナ関連のワードを取得してnehanでテキスト分析した結果をシリーズ化されています。
まず、CData Driver製品をご活用いただいている以下の記事をみていきましょう。
qiita.com
nehanでは、データ蓄積(データレイク)用のストレージとしてS3を使用しておりTwitterから取得したツイート情報をnehanのワークフローを通して蓄積していきます。
nehanには接続可能なデータソース として弊社のCData Drivers製品をご採用頂いており多種多様なデータソースにシームレスに接続することが出来ます。一般的には「データ分析作業の約7割がデータ準備」と言われることがありますが、nehanを利用するとデータ準備作業を大幅に削減出来てメインの分析作業に注力出来ます!
更にTwitterなどのクラウドサービスのAPIに対してRDBMSへのアクセスと同様にSQLでデータを取得することが出来ます。Twitterの場合は「WEHRE SearchTerm = 'コロナ'」でコロナ関連のキーワードのツイート情報を取得します。
Twitterから取得したデータをnehanではノーコードでS3にエクスポートして蓄積するワークフローを作成出来ます。これは本当に便利です!
さて蓄積したコロナ関連のツイート情報をnehanで分析する記事をみていきましょう。
qiita.com
「クラスター」という単語が、8/9に飛び抜けてツイートされていて、その日付が渋谷のクラスターフェスが要因だろうという考察は、nehan様のオフィスは渋谷にあるので、nehanさんならではの気付きだと思いました。
「アベノマスク」あんなに盛り上がっていたのに、直近(9月末)には、一日のツイート数が一桁と、話題性があるものは、過ぎ去るのも早いのを感じさせられる結果ですね...
次の記事からはデータ分析がより高度なものになっていきます。特徴的なキーワードを抽出して、トレンドや比較を行っています。
qiita.com
qiita.com
Twitterならではだなと思ったのが、ツイートの中には顔文字で笑顔(😁)や泣き顔(😭)が含まれています。
この顔文字を比較することで、いわゆる、簡易的なネガポジ判定(ネガディブやポジティブな感情の判定)が簡単に出来るというのが良いですね!
また分析ツールnehanでは、GUI上でデータ分析に必要なデータ加工処理をノーコード で組み立てられるのですが、組み立てたフローからPythonのコードをエクスポートできます!
これが出来ると、nehanのGUI上で分析に必要なデータを加工をトライ&エラーで行って、nehanの可視化機能を使って分析結果を確認した後に、分析フローの自動化は、pythonのコードをAWSのLambdaなどのPythonの実行環境にデプロイして実現することができます。
以上がnehan 社のブログ記事「コロナ関連tweet分析シリーズ」のご紹介でした。
最後に @マンボウさんの今後の記事を期待してフォローしちゃいましょう ↓↓↓
qiita.com
関連コンテンツ