]> granicus.if.org Git - postgresql/commitdiff
Fix hash table size estimation error in choose_hashed_distinct().
authorTom Lane <tgl@sss.pgh.pa.us>
Wed, 21 Aug 2013 17:38:20 +0000 (13:38 -0400)
committerTom Lane <tgl@sss.pgh.pa.us>
Wed, 21 Aug 2013 17:38:38 +0000 (13:38 -0400)
We should account for the per-group hashtable entry overhead when
considering whether to use a hash aggregate to implement DISTINCT.  The
comparable logic in choose_hashed_grouping() gets this right, but I think
I omitted it here in the mistaken belief that there would be no overhead
if there were no aggregate functions to be evaluated.  This can result in
more than 2X underestimate of the hash table size, if the tuples being
aggregated aren't very wide.  Per report from Tomas Vondra.

This bug is of long standing, but per discussion we'll only back-patch into
9.3.  Changing the estimation behavior in stable branches seems to carry too
much risk of destabilizing plan choices for already-tuned applications.

src/backend/optimizer/plan/planner.c

index 6047d7c58e5591631d6a0d2c5170d0fc5d5b8cbd..a49b516141e8f50bbdb8f44b5d109c15db1c19aa 100644 (file)
@@ -2689,7 +2689,11 @@ choose_hashed_distinct(PlannerInfo *root,
         * Don't do it if it doesn't look like the hashtable will fit into
         * work_mem.
         */
+
+       /* Estimate per-hash-entry space at tuple width... */
        hashentrysize = MAXALIGN(path_width) + MAXALIGN(sizeof(MinimalTupleData));
+       /* plus the per-hash-entry overhead */
+       hashentrysize += hash_agg_entry_size(0);
 
        if (hashentrysize * dNumDistinctRows > work_mem * 1024L)
                return false;