2021-01-14 Cloud Data Warehouse Benchmark Redshift vs Snowflake vs BigQuery (2) youtu.be 概要 我々は100GBオーダーのデータセットでベンチマークした。顧客のDWHがそれぐらいの規模感だから。 TPC-DSを使って、現実のDWHで発行されてるような、複雑な述語, 集約, 複数のサブクエリを含むクエリを投げてテストした。 また特定の製品に有利にならないように、以下の条件を設定した。 同一クエリを2回実行しない 理由は、リザルトキャッシュが効かないように dist keyを使わない 理由は、dist keyはいつでも利用できるわけではないから。我々の測定では、dist keyのようなトリックが利用できないときのパフォーマンスが重要と考えた sort key, partitionを使わない 理由は 1)dist keyと同じ理由 2)日付でパーティションを割ったデータセットでTPC-DSを流すと効果がありすぎるから