プレイヤーズ・ハイ

 雑多な日記

エンタープライズ DWH 移行セミナーのメモ / Micro Strategy とか Redshift とか

先日,AWS さまのオフィスにて開催された,エンタープライズ DWH 移行セミナーに参加してまいりましたのでそのメモ.

エンタープライズDWH移行セミナー(2016 年 9 月 21 日開催) https://aws.amazon.com/jp/about-aws/events/2016/DWHmigration_20160921/

僕が質問したかったこととその回答

  • Redshift のリーダーノードが死んだら?

    • マネージドなので死んだら自動復旧します.
  • Redshift の監視は?

    • CloudWatch 一択. 必要に応じてカスタムメトリックスを作成.Zabbix などと連携させるメリットはない.あるっちゃあると僕は思う.Zabbix に寄せるとアラーティングのルールなどが Zabbix のものを使える.
    • 詳細はこちら.Amazon Redshift パフォーマンスデータの概要 http://docs.aws.amazon.com/ja_jp/redshift/latest/mgmt/metrics-listing.html

講演内容

AWS の人 (相澤さん)

  • Redshift は I/O を削減する.列志向型 (カラムナ)
  • 従来は行志向型
  • 分析作業には縦 (列) でデータを収集し分析することが多い.
  • 行志向の DB で集計するとテーブルフルスキャンがかかり,I/O が増える.
  • 列単位でディスクに格納.よってカラムナでの検索が早い

  • 圧縮

    • 圧縮アルゴリズムは列ごとに指定が可能
  • ゾーンマップ

    • ブロック単位で格納されたデータをソーティングし,不要なブロックを読み飛ばすことが可能.
  • 細かい insert や update が発生するものには向いていない.

  • Workload Management WLM

    • デフォルトは 5 であり,5 並列で処理可能,増やすこともできる.
  • S3 や Kinesis などでデータを受け,Redshift で分析

インフォマティカの人

  • ETL = Extract, Transform, Load = 抽出・変換・ロード
  • Sales Force -> Informatica Cloud -> Redshift, Web ブラウザーで数ステップで構築可能
  • 他に PowerCenter, DataSpider Servista など
  • これを行うことで,データ解析時間が短縮される.

マイクロストラテジーの人

  • 最近はモバイル端末上での BI ツールに力を入れている.
  • ネイティブアプリの操作感.PC + Web ブラウザーでなくとも分析業務がある程度可能に.

  • EMR の導入も多い

  • マイクロストラテジー,色んな機能が 1 つの製品で使えるよ! (宣伝) しかしデモ見てるとかなりよさげです.

今度のマイクロストラテジーさまのセミナーにも参加したい!

ドコモの人

Redshift 活用事例

  • IDAP

    • Integrated Data Analysis Platform, 自社開発,データ解析基盤
    • 内製!! 英断です.
  • 歴史

    • Netezza Twinfin ◎
    • Greenplum ◯
    • Hadoop △
    • からの Redshift
      • 1.6 PB, dw1.8xlarge ◎
  • S3 にデータ保存

  • Redshift には 4 PB

  • 内部犯行すら不可能なデータ漏洩防止策の実装

  • 徹底的に分離したアカウント権限の配置
  • クラウド上には複合データが存在しない暗号化方法の考案
  • あらゆる活動を記録・保存
  • Direct Connect
  • Transparency (利用者からはそれが AWS とか GCP とか分からない)
  • No provisioning
  • Sandbox (マーケットプレイスで色んなソフトウェアをつまみ食い)
    • 何百というツールをテスト

セキュリティ対策

  • データベースのアクセス権限設定

    • ユーザーには必要なスキーマしか見せない.
  • システムテーブル権限制御

    • 自分のテーブルだけが見える権限設定
  • UNLOAD

    • これを付与すると,任意のバケットにデータを出力させることができるため,禁止する.していた,が,VPC Endpoint で制御可能になった.VPC flow log で監査もバッチリ.

なるほどと思ったこと

  • ある会社が困っていることは,大体他の会社も困っている.

    • 自分たちだけが困っている場合,使い方が間違っている可能性が高い.
  • テーブル数・スキーマ数枯渇問題 9,900/256

    • 1 ユーザー 1 スキーマにしてたらリミットに達した.リミテーション監視をしっかりやろう.
  • 非データサイエンティストが書くへたくそクエリによるディスクフルや再起動が発生.クエリのレビューが必要.スロークエリーの監視.勉強会をやる.

  • CTAS = create table as select でテーブル作ると,圧縮オプション付けないとデータ肥大化.

  • ETL, BI ツールは一切使わず,ほぼすべて内製.データがでかすぎて,1 プロダクトに寄せてしまうと後で色々大変になる.

  • セキュリティとかビッグデータ・システム構築のコンサルティングをやる部署がある.

    • イノベーション統括部クラウドソリューション担当
    • 外販サービス
      • docomo cloud package
      • Cost Visualizer

相澤さんまとめ

  • AWS Database Migration Service データ移行ツール,オンプレの RDB から Redshift にもデータ移せる.

  • AWS Schema Conversion Tool (SCT)

    • 業務に合わせた微調整は必要
  • STEP 1

    • DDL, スキーマ,プロシージャの移行
  • STEP 2

    • データの移行 DMS を使う
  • 大容量データの移行には Snowball, 80 TB, 10Gbps 暗号化される.

  • Redshift PoC アクセラレーションプログラム.費用がお得に.

以上です.大変に有意義なイベントでした.関係者の皆様,ありがとうございました!!

Amazon Web Services 定番業務システム12パターン 設計ガイド

Amazon Web Services 定番業務システム12パターン 設計ガイド

Amazon Web Services企業導入ガイドブック -企業担当者が知っておくべきAWSサービスの全貌から、セキュリティ概要、システム設計、導入プロセス、運用まで-

Amazon Web Services企業導入ガイドブック -企業担当者が知っておくべきAWSサービスの全貌から、セキュリティ概要、システム設計、導入プロセス、運用まで-

  • 作者: 荒木靖宏,大谷晋平,小林正人,酒徳知明,高田智己,瀧澤与一,山本教仁,吉羽龍太郎
  • 出版社/メーカー: マイナビ出版
  • 発売日: 2016/06/10
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログを見る

Amazon Web Services パターン別構築・運用ガイド

Amazon Web Services パターン別構築・運用ガイド