Cloud Data Warehouse Benchmark Redshift vs Snowflake vs BigQuery (2)

youtu.be

概要
  • 我々は100GBオーダーのデータセットベンチマークした。顧客のDWHがそれぐらいの規模感だから。
  • TPC-DSを使って、現実のDWHで発行されてるような、複雑な述語, 集約, 複数のサブクエリを含むクエリを投げてテストした。
  • また特定の製品に有利にならないように、以下の条件を設定した。
    • 同一クエリを2回実行しない
      • 理由は、リザルトキャッシュが効かないように
    • dist keyを使わない
      • 理由は、dist keyはいつでも利用できるわけではないから。我々の測定では、dist keyのようなトリックが利用できないときのパフォーマンスが重要と考えた
    • sort key, partitionを使わない