Cloud Data Warehouse Benchmark Redshift vs Snowflake vs BigQuery (3)

youtu.be

概要
  • まずパフォーマンスの比較。
  • 結果は(BigQueryがちょっと速いが)3つともあまり変わらなかった。
    • 「3つとも変わらない」ということは我々のベンチマークがまともなものであったことのサイン。
  • 次にコストを比較した。
    • Snowflake, Redshiftは時間課金なので単純だが、BigQueryはクエリに課金するのでトリッキー。
      • うちの顧客のデータウェアハウスを調べたら、稼働時間中にクエリを実行している割合はわずか20%だった。
      • この20%という数字を使って、Snowflake/Redshiftの料金をBigQuery風の課金体系に変換して比較すると、BigQueryが他の2倍ぐらい高価だった。
      • これは、BigQueryは止めなさいということではない。あなたの会社のデータウェアハウスが一日の8割の時間でクエリを実行するのであればBQは向いていない、逆に一日の5%しかクエリを流さないのであればBQは最高の選択、という話。
  • AmazonがRedshift vs BigQueryのベンチマークを公開しているが、当然Redshiftの圧勝という結果だった。
    • Redshiftのクラスターが巨大だから... これは高価なはず。
  • 我々より前に、Periscopeも3製品の比較をしている。
    • 当時のSnowflakeは今より遅かったので...
    • 彼らは巨大な2テーブルをJOINしただけの単純なクエリを使った。これではscanの性能比較をしているようなもの。
    • Redshiftがノード内にデータを持つのに対し、Snowflakeは初物のデータをS3から読み出さなくてはならないので、cold startではSnowflakeが不利。
  • Taxiベンチマーク。これは非正規化された単一の超巨大テーブルへのクエリを使っている。
    • ベンチ取った人は、そういうのがDWHの理想的なシナリオだと思っているとのこと。
  • 大事なことは使いやすさ。いまのRedshiftはこの点であとの2つに劣っている。