Amazon Redshift (日本語)

Amazon Redshift DatabaseからExploratoryに素早くデータをインポートすることができます。

Redshiftについて詳しく紹介したブログ記事はこちらです。

1. 使用するデータコネクションを作成する

この手順に従って、接続を作成します。

データフレームの横にある「＋」ボタンをクリックし、「Database Data」を選択します。

をクリックします。

Amazon Redshiftをクリックして選択します。

実行ボタンをクリックすると、Redshift データベースから取得してきたデータを確認することができます。

問題ないようであれば、「インポート」をクリックしてExploratoryにデータをインポートします。

分析に適したサイズのデータからランダムにサンプルを取りたい場合があります。

md5関数を使って乱数を生成し、以下のように使用することでデータのランダムサンプルを得ることができます。

SELECT *
   FROM airline_2016_01
   ORDER BY md5('randomSeed' || flight_num)
   LIMIT 100000

まず、SQL データインポートダイアログのパラメータリンクをクリックします。

をクリックします。

次に、パラメータを定義し、[保存]ボタンをクリックします。

最後に、クエリ内の変数名を@{}で囲むと、以下のようになります。

select *
from airline_2016_01
where carrier = @{carrier}

を入力すると、以下のようなパラメータが表示されます。

のようになります。

詳しくはこちらのブログ記事をご覧ください。

データベース接続エラーが発生した場合は、AWSコンソールにアクセスし、Redshiftクラスタに関連付けられたセキュリティグループ（Inbound側に）にクライアントPCのIPアドレスが追加されていることを確認してください。

パフォーマンスの観点から、クエリ全体を再実行しないと取得できない、実際の行数を表示しないようにしました。

それでもクエリの結果の実数を表示したい場合は、システム設定により表示させることができます。

そして、"SQLデータインポートダイアログで実際の行数を表示"を「はい」に設定します。

これにより、以下のように実際の行数が表示されます。

ブログ記事R & dplyrによるAmazon Redshiftの探索的データ分析へのリンクはこちらです。

Last updated 3 years ago

Was this helpful?