Amazon Redshift (日本語)
Amazon Redshift DatabaseからExploratoryに素早くデータをインポートすることができます。
Redshiftについて詳しく紹介したブログ記事はこちらです。
1. 使用するデータコネクションを作成する
この手順に従って、接続を作成します。
2. Redshift インポートダイアログを開く
データフレームの横にある「+」ボタンをクリックし、「Database Data」を選択します。
Amazon Redshiftをクリックして選択します。
3. プレビューとインポート
実行ボタンをクリックすると、Redshift データベースから取得してきたデータを確認することができます。
問題ないようであれば、「インポート」をクリックしてExploratoryにデータをインポートします。
4. ランダムサンプルデータのクエリ
分析に適したサイズのデータからランダムにサンプルを取りたい場合があります。
md5関数を使って乱数を生成し、以下のように使用することでデータのランダムサンプルを得ることができます。
5. SQLでパラメータを使用する
まず、SQL データインポートダイアログのパラメータリンクをクリックします。
次に、パラメータを定義し、[保存]ボタンをクリックします。
最後に、クエリ内の変数名を@{}で囲むと、以下のようになります。
を入力すると、以下のようなパラメータが表示されます。
詳しくはこちらのブログ記事をご覧ください。
6. AWSセキュリティグループの設定
データベース接続エラーが発生した場合は、AWSコンソールにアクセスし、Redshiftクラスタに関連付けられたセキュリティグループ(Inbound側に)にクライアントPCのIPアドレスが追加されていることを確認してください。
7. 実際の行数
パフォーマンスの観点から、クエリ全体を再実行しないと取得できない、実際の行数を表示しないようにしました。
それでもクエリの結果の実数を表示したい場合は、システム設定により表示させることができます。
そして、"SQLデータインポートダイアログで実際の行数を表示"を「はい」に設定します。
これにより、以下のように実際の行数が表示されます。
8. Rとdplyrを使ったAmazon Redshiftの探索的データ分析
ブログ記事R & dplyrによるAmazon Redshiftの探索的データ分析へのリンクはこちらです。
Last updated