]> granicus.if.org Git - postgresql/log
postgresql
9 years agoMove inet/cidr GiST opclass functions to correct place in header file.
Heikki Linnakangas [Wed, 1 Apr 2015 16:16:35 +0000 (19:16 +0300)]
Move inet/cidr GiST opclass functions to correct place in header file.

They were accidentally placed under the GIN heading.

Andreas Karlsson

9 years agoFix incorrect markup in documentation of window frame clauses.
Tom Lane [Wed, 1 Apr 2015 00:02:40 +0000 (20:02 -0400)]
Fix incorrect markup in documentation of window frame clauses.

You're required to write either RANGE or ROWS to start a frame clause,
but the documentation incorrectly implied this is optional.  Noted by
David Johnston.

9 years agoMake pg_ctl use SIGINT as a default shutdown signal.
Fujii Masao [Tue, 31 Mar 2015 17:10:24 +0000 (02:10 +0900)]
Make pg_ctl use SIGINT as a default shutdown signal.

The commit 0badb06 changed the default shutdown mode from smart to fast,
but forgot to change the default shutdown signal from SIGTERM to SIGINT.

9 years agoinitdb: remove unnecessary VACUUM FULL
Bruce Momjian [Tue, 31 Mar 2015 15:51:39 +0000 (11:51 -0400)]
initdb:  remove unnecessary VACUUM FULL

Report by Peter Eisentraut

9 years agopg_ctl: change default shutdown mode from 'smart' to 'fast'
Bruce Momjian [Tue, 31 Mar 2015 15:46:27 +0000 (11:46 -0400)]
pg_ctl:  change default shutdown mode from 'smart' to 'fast'

Retain the order of the options in the documentation.

9 years agopsql: add asciidoc output format
Bruce Momjian [Tue, 31 Mar 2015 15:33:25 +0000 (11:33 -0400)]
psql:  add asciidoc output format

Patch by Szymon Guz, adjustments by me

Testing by Michael Paquier, Pavel Stehule

9 years agobtree_gin: properly call DirectFunctionCall1()
Bruce Momjian [Tue, 31 Mar 2015 14:26:45 +0000 (10:26 -0400)]
btree_gin:  properly call DirectFunctionCall1()

Previously we called DirectFunctionCall3() with dummy arguments.  Fixed
version of previous patch.

Report by Jon Nelson

9 years agoRemove spurious semicolons.
Heikki Linnakangas [Tue, 31 Mar 2015 12:12:27 +0000 (15:12 +0300)]
Remove spurious semicolons.

Petr Jelinek

9 years agoRun pg_upgrade and pg_resetxlog with restricted token on Windows
Andrew Dunstan [Mon, 30 Mar 2015 21:07:52 +0000 (17:07 -0400)]
Run pg_upgrade and pg_resetxlog with restricted token on Windows

As with initdb these programs need to run with a restricted token, and
if they don't pg_upgrade will fail when run as a user with Adminstrator
privileges.

Backpatch to all live branches. On the development branch the code is
reorganized so that the restricted token code is now in a single
location. On the stable bramches a less invasive change is made by
simply copying the relevant code to pg_upgrade.c and pg_resetxlog.c.

Patches and bug report from Muhammad Asif Naeem, reviewed by Michael
Paquier, slightly edited by me.

9 years agoFix bogus concurrent use of _hash_getnewbuf() in bucket split code.
Tom Lane [Mon, 30 Mar 2015 20:40:05 +0000 (16:40 -0400)]
Fix bogus concurrent use of _hash_getnewbuf() in bucket split code.

_hash_splitbucket() obtained the base page of the new bucket by calling
_hash_getnewbuf(), but it held no exclusive lock that would prevent some
other process from calling _hash_getnewbuf() at the same time.  This is
contrary to _hash_getnewbuf()'s API spec and could in fact cause failures.
In practice, we must only call that function while holding write lock on
the hash index's metapage.

An additional problem was that we'd already modified the metapage's bucket
mapping data, meaning that failure to extend the index would leave us with
a corrupt index.

Fix both issues by moving the _hash_getnewbuf() call to just before we
modify the metapage in _hash_expandtable().

Unfortunately there's still a large problem here, which is that we could
also incur ENOSPC while trying to get an overflow page for the new bucket.
That would leave the index corrupt in a more subtle way, namely that some
index tuples that should be in the new bucket might still be in the old
one.  Fixing that seems substantially more difficult; even preallocating as
many pages as we could possibly need wouldn't entirely guarantee that the
bucket split would complete successfully.  So for today let's just deal
with the base case.

Per report from Antonin Houska.  Back-patch to all active branches.

9 years agoChange array_offset to return subscripts, not offsets
Alvaro Herrera [Mon, 30 Mar 2015 19:13:21 +0000 (16:13 -0300)]
Change array_offset to return subscripts, not offsets

... and rename it and its sibling array_offsets to array_position and
array_positions, to account for the changed behavior.

Having the functions return subscripts better matches existing practice,
and is better suited to using the result value as a subscript into the
array directly.  For one-based arrays, the new definition is identical
to what was originally committed.

(We use the term "subscript" in the documentation, which is what we use
whenever we talk about arrays; but the functions themselves are named
using the word "position" to match the standard-defined POSITION()
functions.)

Author: Pavel Stěhule
Behavioral problem noted by Dean Rasheed.

9 years agoFix lost persistence setting during REINDEX INDEX
Alvaro Herrera [Mon, 30 Mar 2015 19:01:44 +0000 (16:01 -0300)]
Fix lost persistence setting during REINDEX INDEX

ReindexIndex() trusts a parser-built RangeVar with the persistence to
use for the new copy of the index; but the parser naturally does not
know what's the persistence of the original index.  To find out the
correct persistence, grab it from relcache.

This bug was introduced by commit 85b506bbfc2937c9, and therefore no
backpatch is necessary.

Bug reported by Thom Brown, analysis and patch by Michael Paquier; test
case provided by Fabrízio de Royes Mello.

9 years agoBe more careful about printing constants in ruleutils.c.
Tom Lane [Mon, 30 Mar 2015 18:59:49 +0000 (14:59 -0400)]
Be more careful about printing constants in ruleutils.c.

The previous coding in get_const_expr() tried to avoid quoting integer,
float, and numeric literals if at all possible.  While that looks nice,
it means that dumped expressions might re-parse to something that's
semantically equivalent but not the exact same parsetree; for example
a FLOAT8 constant would re-parse as a NUMERIC constant with a cast to
FLOAT8.  Though the result would be the same after constant-folding,
this is problematic in certain contexts.  In particular, Jeff Davis
pointed out that this could cause unexpected failures in ALTER INHERIT
operations because of child tables having not-exactly-equivalent CHECK
expressions.  Therefore, favor correctness over legibility and dump
such constants in quotes except in the limited cases where they'll
be interpreted as the same type even without any casting.

This results in assorted small changes in the regression test outputs,
and will affect display of user-defined views and rules similarly.
The odds of that causing problems in the field seem non-negligible;
given the lack of previous complaints, it seems best not to change
this in the back branches.

9 years agoFix rare core dump in BackendIdGetTransactionIds().
Tom Lane [Mon, 30 Mar 2015 17:05:27 +0000 (13:05 -0400)]
Fix rare core dump in BackendIdGetTransactionIds().

BackendIdGetTransactionIds() neglected the possibility that the PROC
pointer in a ProcState array entry is null.  In current usage, this could
only crash if the other backend had exited since pgstat_read_current_status
saw it as active, which is a pretty narrow window.  But it's reachable in
the field, per bug #12918 from Vladimir Borodin.

Back-patch to 9.4 where the faulty code was introduced.

9 years agoAdd index-only scan support to range type GiST opclass.
Heikki Linnakangas [Mon, 30 Mar 2015 10:21:43 +0000 (13:21 +0300)]
Add index-only scan support to range type GiST opclass.

Andreas Karlsson

9 years agoClean up all the cruft after a pg_rewind test run.
Tom Lane [Mon, 30 Mar 2015 00:54:37 +0000 (20:54 -0400)]
Clean up all the cruft after a pg_rewind test run.

regress_log temp directory was properly .gitignore'd, which may explain
why it got left out of the "make clean" action.

9 years agoFix multiple bugs and infelicities in pg_rewind.
Tom Lane [Mon, 30 Mar 2015 00:02:14 +0000 (20:02 -0400)]
Fix multiple bugs and infelicities in pg_rewind.

Bugs all spotted by Coverity, including wrong realloc() size request
and memory leaks.  Cosmetic improvements by me.

The usage of the global variable "filemap" here is still pretty awful,
but at least I got rid of the gratuitous aliasing in several routines
(which was helping to annoy Coverity, as well as being a bug risk).

9 years agoAdd vacuum_delay_point call in compute_index_stats's per-sample-row loop.
Tom Lane [Sun, 29 Mar 2015 19:04:09 +0000 (15:04 -0400)]
Add vacuum_delay_point call in compute_index_stats's per-sample-row loop.

Slow functions in index expressions might cause this loop to take long
enough to make it worth being cancellable.  Probably it would be enough
to call CHECK_FOR_INTERRUPTS here, but for consistency with other
per-sample-row loops in this file, let's use vacuum_delay_point.

Report and patch by Jeff Janes.  Back-patch to all supported branches.

9 years agoMake ginbuild's funcCtx be independent of its tmpCtx.
Tom Lane [Sun, 29 Mar 2015 18:02:58 +0000 (14:02 -0400)]
Make ginbuild's funcCtx be independent of its tmpCtx.

Previously the funcCtx was a child of the tmpCtx, but that was broken
by commit eaa5808e8ec4e82ce1a87103a6b6f687666e4e4c, which made
MemoryContextReset() delete, not reset, child contexts.  The behavior of
having a tmpCtx reset also clear the other context seems rather dubious
anyway, so let's just disentangle them.  Per report from Erik Rijkers.

In passing, fix badly-inaccurate comments about these contexts.

9 years agoRemove a couple other vestigial yylex() declarations.
Tom Lane [Sun, 29 Mar 2015 17:12:28 +0000 (13:12 -0400)]
Remove a couple other vestigial yylex() declarations.

These were workarounds for a long-gone flex bug; all supported versions
of flex emit an extern declaration as expected.

9 years agoMinor code cleanups in pgbench expression support.
Tom Lane [Sun, 29 Mar 2015 17:06:59 +0000 (13:06 -0400)]
Minor code cleanups in pgbench expression support.

Get rid of unnecessary expr_yylex declaration (we haven't supported
flex 2.5.4 in a long time, and even if we still did, the declaration in
pgbench.h makes this one unnecessary and inappropriate).  Fix copyright
dates, improve some layout choices, etc.

9 years agoBetter fix for misuse of Float8GetDatumFast().
Tom Lane [Sat, 28 Mar 2015 17:56:37 +0000 (13:56 -0400)]
Better fix for misuse of Float8GetDatumFast().

We can use that macro as long as we put the value into a local variable.
Commit 735cd6128 was not wrong on its own terms, but I think this way
looks nicer, and it should save a few cycles on 32-bit machines.

9 years agoAdd a pager_min_lines setting to psql
Andrew Dunstan [Sat, 28 Mar 2015 15:07:41 +0000 (11:07 -0400)]
Add a pager_min_lines setting to psql

If set, the pager will not be used unless this many lines are to be
displayed, even if that is more than the screen depth. Default is zero,
meaning it's disabled.

There is probably more work to be done in giving the user control over
when the pager is used, particularly when wide output forces use of the
pager regardless of how many lines there are, but this is a start.

9 years agoUse standard librart sqrt function in pg_stat_statements
Andrew Dunstan [Sat, 28 Mar 2015 13:22:51 +0000 (09:22 -0400)]
Use standard librart sqrt function in pg_stat_statements

The stddev calculation included a faster but unportable sqrt function.
This is not worth the extra effort, and won't work everywhere. If the
standard library function is good enough for the SQL function it
should be good enough here too.

9 years agoAdd index-only scan support to inet GiST opclass.
Heikki Linnakangas [Sat, 28 Mar 2015 13:11:53 +0000 (15:11 +0200)]
Add index-only scan support to inet GiST opclass.

Andreas Karlsson

9 years agoFix whitespace
Peter Eisentraut [Fri, 27 Mar 2015 23:50:55 +0000 (19:50 -0400)]
Fix whitespace

9 years agoAdd index-only scan support to btree_gist.
Heikki Linnakangas [Fri, 27 Mar 2015 21:35:16 +0000 (23:35 +0200)]
Add index-only scan support to btree_gist.

inet, cidr, and timetz indexes still cannot support index-only scans,
because they don't store the original unmodified value in the index, but a
derived approximate value.

9 years agoFix portability issues with stddev in pg_stat_statements
Andrew Dunstan [Fri, 27 Mar 2015 21:29:59 +0000 (17:29 -0400)]
Fix portability issues with stddev in pg_stat_statements

Stddev is calculated on the fly, and the code in commit 717f70953264 was
using Float8GetDatumFast() inappropriately to convert the result to a
Datum. Mea culpa. It now uses Float8GetDatum().

9 years agoAdd stats for min, max, mean, stddev times to pg_stat_statements.
Andrew Dunstan [Fri, 27 Mar 2015 19:43:22 +0000 (15:43 -0400)]
Add stats for min, max, mean, stddev times to pg_stat_statements.

The new fields are min_time, max_time, mean_time and stddev_time.

Based on an original patch from Mitsumasa KONDO, modified by me. Reviewed by Petr Jelínek.

9 years agoMinor refactoring of btree_gist code.
Heikki Linnakangas [Thu, 26 Mar 2015 21:10:10 +0000 (23:10 +0200)]
Minor refactoring of btree_gist code.

The gbt_var_key_copy function was doing two different things depending on
the boolean argument. Seems cleaner to have two separate functions.

Remove unused argument from gbt_num_compress.

9 years agoFix GiST index-only scans for opclasses with different storage type.
Heikki Linnakangas [Thu, 26 Mar 2015 21:07:52 +0000 (23:07 +0200)]
Fix GiST index-only scans for opclasses with different storage type.

We cannot use the index's tuple descriptor directly to describe the index
tuples returned in an index-only scan. That's because the index might use
a different datatype for the values stored on disk than the type originally
indexed. As long as they were both pass-by-ref, it worked, but will not work
for pass-by-value types of different sizes. I noticed this as a crash when I
started hacking a patch to add fetch methods to btree_gist.

9 years agoTweak __attribute__-wrapping macros for better pgindent results.
Tom Lane [Thu, 26 Mar 2015 18:03:19 +0000 (14:03 -0400)]
Tweak __attribute__-wrapping macros for better pgindent results.

This improves on commit bbfd7edae5aa5ad5553d3c7e102f2e450d4380d4 by
making two simple changes:

* pg_attribute_noreturn now takes parentheses, ie pg_attribute_noreturn().
Likewise pg_attribute_unused(), pg_attribute_packed().  This reduces
pgindent's tendency to misformat declarations involving them.

* attributes are now always attached to function declarations, not
definitions.  Previously some places were taking creative shortcuts,
which were not merely candidates for bad misformatting by pgindent
but often were outright wrong anyway.  (It does little good to put a
noreturn annotation where callers can't see it.)  In any case, if
we would like to believe that these macros can be used with non-gcc
compilers, we should avoid gratuitous variance in usage patterns.

I also went through and manually improved the formatting of a lot of
declarations, and got rid of excessively repetitive (and now obsolete
anyway) comments informing the reader what pg_attribute_printf is for.

9 years agoAdd support for index-only scans in GiST.
Heikki Linnakangas [Thu, 26 Mar 2015 17:12:00 +0000 (19:12 +0200)]
Add support for index-only scans in GiST.

This adds a new GiST opclass method, 'fetch', which is used to reconstruct
the original Datum from the value stored in the index. Also, the 'canreturn'
index AM interface function gains a new 'attno' argument. That makes it
possible to use index-only scans on a multi-column index where some of the
opclasses support index-only scans but some do not.

This patch adds support in the box and point opclasses. Other opclasses
can added later as follow-on patches (btree_gist would be particularly
interesting).

Anastasia Lubennikova, with additional fixes and modifications by me.

9 years agoMinor cleanup of GiST code, for readability.
Heikki Linnakangas [Thu, 26 Mar 2015 17:11:54 +0000 (19:11 +0200)]
Minor cleanup of GiST code, for readability.

Remove the gistcentryinit function, inlining the relevant part of it into
the only caller.

9 years agoSuppress some unused-variable complaints in new LOCK_DEBUG code.
Tom Lane [Thu, 26 Mar 2015 16:00:30 +0000 (12:00 -0400)]
Suppress some unused-variable complaints in new LOCK_DEBUG code.

Jeff Janes

9 years agoMake SyncRepWakeQueue to a static function
Tatsuo Ishii [Thu, 26 Mar 2015 01:34:08 +0000 (10:34 +0900)]
Make SyncRepWakeQueue to a static function

It is only used in src/backend/replication/syncrep.c.

Back-patch to all supported branches except 9.1 which declares the
function as static.

9 years agoAdd an ASSERT statement in plpgsql.
Tom Lane [Wed, 25 Mar 2015 23:05:20 +0000 (19:05 -0400)]
Add an ASSERT statement in plpgsql.

This is meant to make it easier to insert simple debugging cross-checks
in plpgsql functions.

Pavel Stehule, reviewed by Jim Nasby

9 years agoCentralize definition of integer limits.
Andres Freund [Wed, 25 Mar 2015 21:39:42 +0000 (22:39 +0100)]
Centralize definition of integer limits.

Several submitted and even committed patches have run into the problem
that C89, our baseline, does not provide minimum/maximum values for
various integer datatypes. C99's stdint.h does, but we can't rely on
it.

Several parts of the code defined limits locally, so instead centralize
the definitions to c.h.

This patch also changes the more obvious usages of literal limit values;
there's more places that could be changed, but it's less clear whether
it's beneficial to change those.

Author: Andrew Gierth
Discussion: 87619tc5wc.fsf@news-spur.riddles.org.uk

9 years agoReturn ObjectAddress in many ALTER TABLE sub-routines
Alvaro Herrera [Wed, 25 Mar 2015 20:17:56 +0000 (17:17 -0300)]
Return ObjectAddress in many ALTER TABLE sub-routines

Since commit a2e35b53c39b2a, most CREATE and ALTER commands return the
ObjectAddress of the affected object.  This is useful for event triggers
to try to figure out exactly what happened.  This patch extends this
idea a bit further to cover ALTER TABLE as well: an auxiliary
ObjectAddress is returned for each of several subcommands of ALTER
TABLE.  This makes it possible to decode with precision what happened
during execution of any ALTER TABLE command; for instance, which
constraint was added by ALTER TABLE ADD CONSTRAINT, or which parent got
dropped from the parents list by ALTER TABLE NO INHERIT.

As with the previous patch, there is no immediate user-visible change
here.

This is all really just continuing what c504513f83a9ee8 started.

Reviewed by Stephen Frost.

9 years agoUpgrade src/port/rint.c to be POSIX-compliant.
Tom Lane [Wed, 25 Mar 2015 19:54:08 +0000 (15:54 -0400)]
Upgrade src/port/rint.c to be POSIX-compliant.

The POSIX spec says that rint() rounds halfway cases to nearest even.
Our substitute implementation failed to do that, rather rounding halfway
cases away from zero; and it also got some other cases (such as minus
zero) wrong.  This led to observable cross-platform differences, as
reported in bug #12885 from Rich Schaaf; in particular, casting from
float to int didn't honor round-to-nearest-even on builds using rint.c.

Implement something that attempts to cover all cases per spec, and add
some simple regression tests so that we'll notice if any platforms still
get this wrong.

Although this is a bug fix, no back-patch, as a behavioral change in
the back branches was agreed not to be a good idea.

Pedro Gimeno Fortea, reviewed by Michael Paquier and myself

9 years agoReduce pinning and buffer content locking for btree scans.
Kevin Grittner [Wed, 25 Mar 2015 19:24:43 +0000 (14:24 -0500)]
Reduce pinning and buffer content locking for btree scans.

Even though the main benefit of the Lehman and Yao algorithm for
btrees is that no locks need be held between page reads in an
index search, we were holding a buffer pin on each leaf page after
it was read until we were ready to read the next one.  The reason
was so that we could treat this as a weak lock to create an
"interlock" with vacuum's deletion of heap line pointers, even
though our README file pointed out that this was not necessary for
a scan using an MVCC snapshot.

The main goal of this patch is to reduce the blocking of vacuum
processes by in-progress btree index scans (including a cursor
which is idle), but the code rearrangement also allows for one
less buffer content lock to be taken when a forward scan steps from
one page to the next, which results in a small but consistent
performance improvement in many workloads.

This patch leaves behavior unchanged for some cases, which can be
addressed separately so that each case can be evaluated on its own
merits.  These unchanged cases are when a scan uses a non-MVCC
snapshot, an index-only scan, and a scan of a btree index for which
modifications are not WAL-logged.  If later patches allow  all of
these cases to drop the buffer pin after reading a leaf page, then
the btree vacuum process can be simplified; it will no longer need
the "super-exclusive" lock to delete tuples from a page.

Reviewed by Heikki Linnakangas and Kyotaro Horiguchi

9 years agoAdd OID output argument to DefineTSConfiguration
Alvaro Herrera [Wed, 25 Mar 2015 18:57:08 +0000 (15:57 -0300)]
Add OID output argument to DefineTSConfiguration

... which is set to the OID of a copied text search config, whenever the
COPY clause is used.

This is in the spirit of commit a2e35b53c39.

9 years agoFix bug for array-formatted identities of user mappings
Alvaro Herrera [Wed, 25 Mar 2015 17:28:34 +0000 (14:28 -0300)]
Fix bug for array-formatted identities of user mappings

I failed to realize that server names reported in the object args array
would get quoted, which is wrong; remove that, making sure that it's
only quoted in the string-formatted identity.

This bug was introduced by my commit cf34e373, which was backpatched,
but since object name/args arrays are new in commit a676201490c8, there
is no need to backpatch this any further.

9 years agoFix gram.y comment to match reality
Alvaro Herrera [Wed, 25 Mar 2015 17:16:47 +0000 (14:16 -0300)]
Fix gram.y comment to match reality

There are other comments in there that don't precisely match what's
implemented, but this one confused me enough to be worth fixing.

9 years agoRevert commit 843cd0bfe6246d94d9b34a7f36bbb76fdba87b74
Bruce Momjian [Wed, 25 Mar 2015 02:35:05 +0000 (22:35 -0400)]
Revert  commit 843cd0bfe6246d94d9b34a7f36bbb76fdba87b74

Report by Tom Lane

9 years agoPL/pgSQL docs: recommend format() for query construction
Bruce Momjian [Wed, 25 Mar 2015 01:10:36 +0000 (21:10 -0400)]
PL/pgSQL docs:  recommend format() for query construction

Previously only concatenation was recommended.

Report by Pavel Stehule

9 years agopsql: show proper row count in \x mode for zero-column output
Bruce Momjian [Wed, 25 Mar 2015 01:04:10 +0000 (21:04 -0400)]
psql:  show proper row count in \x mode for zero-column output

Also, fix pager enable selection for such cases, and other cleanups for
zero-column output.

Report by Thom Brown

9 years agodocs: clarify when MVCC snapshot is taken
Bruce Momjian [Wed, 25 Mar 2015 00:56:09 +0000 (20:56 -0400)]
docs:  clarify when MVCC snapshot is taken

Report by Álvaro Hernández Tortosa

9 years agobtree_gin: properly call DirectFunctionCall1()
Bruce Momjian [Wed, 25 Mar 2015 00:53:29 +0000 (20:53 -0400)]
btree_gin:  properly call DirectFunctionCall1()

Previously we called DirectFunctionCall3() with dummy arguments.

Patch by Jon Nelson

9 years agodoc: update NUMERIC to state that only some ops are exact
Bruce Momjian [Tue, 24 Mar 2015 23:57:52 +0000 (19:57 -0400)]
doc:  update NUMERIC to state that only some ops are exact

Report by Tom Lane

9 years agoAdd support for ALTER TABLE IF EXISTS ... RENAME CONSTRAINT
Bruce Momjian [Tue, 24 Mar 2015 23:52:47 +0000 (19:52 -0400)]
Add support for ALTER TABLE IF EXISTS ... RENAME CONSTRAINT

Also add regression test.  Previously this was documented to work, but
didn't.

9 years agoFix ExecOpenScanRelation to take a lock on a ROW_MARK_COPY relation.
Tom Lane [Tue, 24 Mar 2015 19:53:06 +0000 (15:53 -0400)]
Fix ExecOpenScanRelation to take a lock on a ROW_MARK_COPY relation.

ExecOpenScanRelation assumed that any relation listed in the ExecRowMark
list has been locked by InitPlan; but this is not true if the rel's
markType is ROW_MARK_COPY, which is possible if it's a foreign table.

In most (possibly all) cases, failure to acquire a lock here isn't really
problematic because the parser, planner, or plancache would have taken the
appropriate lock already.  In principle though it might leave us vulnerable
to working with a relation that we hold no lock on, and in any case if the
executor isn't depending on previously-taken locks otherwise then it should
not do so for ROW_MARK_COPY relations.

Noted by Etsuro Fujita.  Back-patch to all active versions, since the
inconsistency has been there a long time.  (It's almost certainly
irrelevant in 9.0, since that predates foreign tables, but the code's
still wrong on its own terms.)

9 years agoApply table and domain CHECK constraints in name order.
Tom Lane [Mon, 23 Mar 2015 20:59:29 +0000 (16:59 -0400)]
Apply table and domain CHECK constraints in name order.

Previously, CHECK constraints of the same scope were checked in whatever
order they happened to be read from pg_constraint.  (Usually, but not
reliably, this would be creation order for domain constraints and reverse
creation order for table constraints, because of differing implementation
details.)  Nondeterministic results of this sort are problematic at least
for testing purposes, and in discussion it was agreed to be a violation of
the principle of least astonishment.  Therefore, borrow the principle
already established for triggers, and apply such checks in name order
(using strcmp() sort rules).  This lets users control the check order
if they have a mind to.

Domain CHECK constraints still follow the rule of checking lower nested
domains' constraints first; the name sort only applies to multiple
constraints attached to the same domain.

In passing, I failed to resist the temptation to wordsmith a bit in
create_domain.sgml.

Apply to HEAD only, since this could result in a behavioral change in
existing applications, and the potential regression test failures have
not actually been observed in our buildfarm.

9 years agovacuumdb: Check result status of PQsendQuery
Alvaro Herrera [Mon, 23 Mar 2015 18:57:11 +0000 (15:57 -0300)]
vacuumdb: Check result status of PQsendQuery

Noticed by Coverity

9 years agoTry to fix MSVC build of pg_rewind.
Heikki Linnakangas [Mon, 23 Mar 2015 18:25:35 +0000 (20:25 +0200)]
Try to fix MSVC build of pg_rewind.

It worked in my Windows VM with VS2013, but buildfarm animal mastodon,
running MSVC 2005, was not happy. Amit Kapila also reported a similar error
earlier in his environment. Let's see if this helps.

9 years agoAdd pg_rewind, for re-synchronizing a master server after failback.
Heikki Linnakangas [Mon, 23 Mar 2015 17:47:52 +0000 (19:47 +0200)]
Add pg_rewind, for re-synchronizing a master server after failback.

Earlier versions of this tool were available (and still are) on github.

Thanks to Michael Paquier, Alvaro Herrera, Peter Eisentraut, Amit Kapila,
and Satoshi Nagayasu for review.

9 years agoDon't delay replication for less than recovery_min_apply_delay's resolution.
Andres Freund [Mon, 23 Mar 2015 15:40:10 +0000 (16:40 +0100)]
Don't delay replication for less than recovery_min_apply_delay's resolution.

Recovery delays are implemented by waiting on a latch, and latches take
milliseconds as a parameter. The required amount of waiting was computed
using microsecond resolution though and the wait loop's abort condition
was checking the delay in microseconds as well.  This could lead to
short spurts of busy looping when the overall wait time was below a
millisecond, but above 0 microseconds.

Instead just formulate the wait loop's abort condition in millisecond
granularity as well. Given that that's recovery_min_apply_delay
resolution, it seems harmless to not wait for less than a millisecond.

Backpatch to 9.4 where recovery_min_apply_delay was introduced.

Discussion: 20150323141819.GH26995@alap3.anarazel.de

9 years agoFix copy & paste error in 4f1b890b137.
Andres Freund [Mon, 23 Mar 2015 13:51:59 +0000 (14:51 +0100)]
Fix copy & paste error in 4f1b890b137.

Due to the bug delayed standbys would not delay when applying prepared
transactions.

Discussion: CAB7nPqT6BO1cCn+sAyDByBxA4EKZNAiPi2mFJ=ANeZmnmewRyg@mail.gmail.com

Michael Paquier via Coverity.

9 years agoRemove ill-advised pre-check for DSM segment exhaustion.
Robert Haas [Mon, 23 Mar 2015 13:58:56 +0000 (09:58 -0400)]
Remove ill-advised pre-check for DSM segment exhaustion.

dsm_control->nitems never decreases, so this is testing whether the
server has *ever* run out of DSM segments, not whether it is
*currently* out of DSM segments.

Reported off-list by Amit Kapila.

9 years agoto_char: revert cc0d90b73b2e6dd2f301d46818a7265742c41a14
Bruce Momjian [Mon, 23 Mar 2015 02:56:52 +0000 (22:56 -0400)]
to_char:  revert cc0d90b73b2e6dd2f301d46818a7265742c41a14

Revert "to_char(float4/8):  zero pad to specified length".  There are
too many platform-specific problems, and the proper rounding is missing.
Also revert companion patch 9d61b9953c1489cbb458ca70013cf5fca1bb7710.

9 years agoFix minor copy & pasto in the int128 accumulator patch.
Andres Freund [Sun, 22 Mar 2015 18:51:12 +0000 (19:51 +0100)]
Fix minor copy & pasto in the int128 accumulator patch.

It's unlikely that using PG_GETARG_INT16 instead of PG_GETARG_INT32 in
this pace can cause actual problems, but this still should be fixed.

9 years agoAllow foreign tables to participate in inheritance.
Tom Lane [Sun, 22 Mar 2015 17:53:11 +0000 (13:53 -0400)]
Allow foreign tables to participate in inheritance.

Foreign tables can now be inheritance children, or parents.  Much of the
system was already ready for this, but we had to fix a few things of
course, mostly in the area of planner and executor handling of row locks.

As side effects of this, allow foreign tables to have NOT VALID CHECK
constraints (and hence to accept ALTER ... VALIDATE CONSTRAINT), and to
accept ALTER SET STORAGE and ALTER SET WITH/WITHOUT OIDS.  Continuing to
disallow these things would've required bizarre and inconsistent special
cases in inheritance behavior.  Since foreign tables don't enforce CHECK
constraints anyway, a NOT VALID one is a complete no-op, but that doesn't
mean we shouldn't allow it.  And it's possible that some FDWs might have
use for SET STORAGE or SET WITH OIDS, though doubtless they will be no-ops
for most.

An additional change in support of this is that when a ModifyTable node
has multiple target tables, they will all now be explicitly identified
in EXPLAIN output, for example:

 Update on pt1  (cost=0.00..321.05 rows=3541 width=46)
   Update on pt1
   Foreign Update on ft1
   Foreign Update on ft2
   Update on child3
   ->  Seq Scan on pt1  (cost=0.00..0.00 rows=1 width=46)
   ->  Foreign Scan on ft1  (cost=100.00..148.03 rows=1170 width=46)
   ->  Foreign Scan on ft2  (cost=100.00..148.03 rows=1170 width=46)
   ->  Seq Scan on child3  (cost=0.00..25.00 rows=1200 width=46)

This was done mainly to provide an unambiguous place to attach "Remote SQL"
fields, but it is useful for inherited updates even when no foreign tables
are involved.

Shigeru Hanada and Etsuro Fujita, reviewed by Ashutosh Bapat and Kyotaro
Horiguchi, some additional hacking by me

9 years agorm src/test/performance
Bruce Momjian [Sun, 22 Mar 2015 02:21:20 +0000 (22:21 -0400)]
rm src/test/performance

Last changed in 1997.

Report by Andres Freund

9 years agoAdd TOAST table to pg_shseclabel for long label use
Bruce Momjian [Sun, 22 Mar 2015 02:14:49 +0000 (22:14 -0400)]
Add TOAST table to pg_shseclabel for long label use

Report by Andres Freund

9 years agoUse mmap MAP_NOSYNC option to limit shared memory writes
Bruce Momjian [Sun, 22 Mar 2015 02:06:19 +0000 (22:06 -0400)]
Use mmap MAP_NOSYNC option to limit shared memory writes

mmap() is rarely used for shared memory, but when it is, this option is
useful, particularly on the BSDs.

Patch by Sean Chittenden

9 years agoto_char(float4/8): don't print "junk" digits
Bruce Momjian [Sun, 22 Mar 2015 01:50:03 +0000 (21:50 -0400)]
to_char(float4/8):  don't print "junk" digits

Commit cc0d90b73b2e6dd2f301d46818a7265742c41a14 also avoids printing
junk digits, which are digits that are beyond the precision of the
underlying type.

9 years agoto_char(float4/8): zero pad to specified length
Bruce Momjian [Sun, 22 Mar 2015 01:43:15 +0000 (21:43 -0400)]
to_char(float4/8):  zero pad to specified length

Previously, zero padding was limited to the internal length, rather than
the specified length.  This allows it to match to_char(int/numeric), which
always padded to the specified length.

Regression tests added.

BACKWARD INCOMPATIBILITY

9 years agoMake pg_xlogdump MSVC build work more like others.
Heikki Linnakangas [Sat, 21 Mar 2015 09:53:47 +0000 (11:53 +0200)]
Make pg_xlogdump MSVC build work more like others.

Instead of copying xlogreader.c and *desc.c files into the source directory,
build them where they are. That's what we do for other binaries that need to
compile and link in files from elsewhere in the source tree.

The commit history suggests that it was done this way because of issues with
older versions of MSVC. I think this should work, but we'll see if the
buildfarm complains.

9 years agopg_recvlogical: update --help description
Bruce Momjian [Sat, 21 Mar 2015 02:15:48 +0000 (22:15 -0400)]
pg_recvlogical:  update --help description

Patch by Euler Taveira

9 years agodocs: clarify the use of shell types
Bruce Momjian [Fri, 20 Mar 2015 22:48:52 +0000 (18:48 -0400)]
docs:  clarify the use of shell types

Report by Ondřej Bouda

9 years agoC comment: clearify SQL command mention
Bruce Momjian [Fri, 20 Mar 2015 22:30:30 +0000 (18:30 -0400)]
C comment:  clearify SQL command mention

Patch by Amit Langote

9 years agovacuumdb --help text: clarify analyze-only
Bruce Momjian [Fri, 20 Mar 2015 21:17:30 +0000 (17:17 -0400)]
vacuumdb --help text:  clarify analyze-only

Patch by Mats Erik Andersson

9 years agodoc: add comma for clarity
Bruce Momjian [Fri, 20 Mar 2015 20:58:19 +0000 (16:58 -0400)]
doc:  add comma for clarity

Patch by Etsuro Fujita

9 years agoC comment: update lock level mention in comment
Bruce Momjian [Fri, 20 Mar 2015 12:31:10 +0000 (08:31 -0400)]
C comment:  update lock level mention in comment

Patch by Etsuro Fujita

9 years agoUse 128-bit math to accelerate some aggregation functions.
Andres Freund [Fri, 20 Mar 2015 09:26:17 +0000 (10:26 +0100)]
Use 128-bit math to accelerate some aggregation functions.

On platforms where we support 128bit integers, use them to implement
faster transition functions for sum(int8), avg(int8),
var_*(int2/int4),stdev_*(int2/int4). Where not supported continue to use
numeric as a transition type.

In some synthetic benchmarks this has been shown to provide significant
speedups.

Bumps catversion.

Discussion: 544BB5F1.50709@proxel.se
Author: Andreas Karlsson
Reviewed-By: Peter Geoghegan, Petr Jelinek, Andres Freund,
    Oskari Saarenmaa, David Rowley

9 years agoAdd, optional, support for 128bit integers.
Andres Freund [Fri, 20 Mar 2015 09:26:17 +0000 (10:26 +0100)]
Add, optional, support for 128bit integers.

We will, for the foreseeable future, not expose 128 bit datatypes to
SQL. But being able to use 128bit math will allow us, in a later patch,
to use 128bit accumulators for some aggregates; leading to noticeable
speedups over using numeric.

So far we only detect a gcc/clang extension that supports 128bit math,
but no 128bit literals, and no *printf support. We might want to expand
this in the future to further compilers; if there are any that that
provide similar support.

Discussion: 544BB5F1.50709@proxel.se
Author: Andreas Karlsson, with significant editorializing by me
Reviewed-By: Peter Geoghegan, Oskari Saarenmaa
9 years agodocs: mention the optimizer can increase the index usage count
Bruce Momjian [Fri, 20 Mar 2015 02:38:12 +0000 (22:38 -0400)]
docs:  mention the optimizer can increase the index usage count

Report by Marko Tiikkaja

9 years agoFix whitespace
Peter Eisentraut [Fri, 20 Mar 2015 02:18:46 +0000 (22:18 -0400)]
Fix whitespace

9 years agoregression tests: remove polygon diagrams
Bruce Momjian [Fri, 20 Mar 2015 02:10:52 +0000 (22:10 -0400)]
regression tests:  remove polygon diagrams

The diagrams were inaccurate.

Report by Emre Hasegeli

9 years agopsql: allow DROP INDEX CONCURRENTLY in AUTOCOMMIT off mode
Bruce Momjian [Fri, 20 Mar 2015 01:16:42 +0000 (21:16 -0400)]
psql:  allow DROP INDEX CONCURRENTLY in AUTOCOMMIT off mode

Previously this threw an error.

Patch by Feike Steenbergen

9 years agoGetUserId() changes to has_privs_of_role()
Stephen Frost [Thu, 19 Mar 2015 19:02:33 +0000 (15:02 -0400)]
GetUserId() changes to has_privs_of_role()

The pg_stat and pg_signal-related functions have been using GetUserId()
instead of has_privs_of_role() for checking if the current user should
be able to see details in pg_stat_activity or signal other processes,
requiring a user to do 'SET ROLE' for inheirited roles for a permissions
check, unlike other permissions checks.

This patch changes that behavior to, instead, act like most other
permission checks and use has_privs_of_role(), removing the 'SET ROLE'
need.  Documentation and error messages updated accordingly.

Per discussion with Alvaro, Peter, Adam (though not using Adam's patch),
and Robert.

Reviewed by Jeevan Chalke.

9 years agoAdd flags argument to dsm_create.
Robert Haas [Thu, 19 Mar 2015 17:02:16 +0000 (13:02 -0400)]
Add flags argument to dsm_create.

Right now, there's only one flag, DSM_CREATE_NULL_IF_MAXSEGMENTS,
which suppresses the error that would normally be thrown when the
maximum number of segments already exists, instead returning NULL.
It might be useful to add more flags in the future, such as one to
ignore allocation errors, but I haven't done that here.

9 years agodoc: ALTER DOMAIN VALIDATE CONSTRAINT can also fail
Bruce Momjian [Thu, 19 Mar 2015 17:02:09 +0000 (13:02 -0400)]
doc:  ALTER DOMAIN VALIDATE CONSTRAINT can also fail

Document that ALTER DOMAIN VALIDATE CONSTRAINT can also fail for
composite types.

Report by Ondřej Bouda

9 years agoFix status reporting for terminated bgworkers that were never started.
Robert Haas [Thu, 19 Mar 2015 14:56:34 +0000 (10:56 -0400)]
Fix status reporting for terminated bgworkers that were never started.

Previously, GetBackgroundWorkerPid() would return BGWH_NOT_YET_STARTED
if the slot used for the worker registration had not been reused by
unrelated activity, and BGWH_STOPPED if it had.  Either way, a process
that had requested notification when the state of one of its
background workers changed did not receive such notifications.  Fix
things so that GetBackgroundWorkerPid() always returns BGWH_STOPPED in
this situation, so that we do not erroneously give waiters the
impression that the worker will eventually be started; and send
notifications just as we would if the process terminated after having
been started, so that it's possible to wait for the postmaster to
process a worker termination request without polling.

Discovered by Amit Kapila during testing of parallel sequential scan.
Analysis and fix by me.  Back-patch to 9.4; there may not be anyone
relying on this interface yet, but if anyone is, the new behavior is a
clear improvement.

9 years agopg_upgrade: document use of rsync for slave upgrades
Bruce Momjian [Wed, 18 Mar 2015 19:48:59 +0000 (15:48 -0400)]
pg_upgrade: document use of rsync for slave upgrades

Also document that rsync has one-second granularity for file
change comparisons.

Report by Stephen Frost

9 years agoarray_offset() and array_offsets()
Alvaro Herrera [Wed, 18 Mar 2015 19:01:34 +0000 (16:01 -0300)]
array_offset() and array_offsets()

These functions return the offset position or positions of a value in an
array.

Author: Pavel Stěhule
Reviewed by: Jim Nasby

9 years agoInstall shared libraries to bin/ in Windows under MSVC
Alvaro Herrera [Wed, 18 Mar 2015 18:16:29 +0000 (15:16 -0300)]
Install shared libraries to bin/ in Windows under MSVC

Since commit cb4a3b04 we were already doing this for the Cygwin/mingw
toolchains, but MSVC had not been updated to do it.  At Install.pm time,
the Makefile (or GNUmakefile) is inspected, and if a line matching
SO_MAJOR_VERSION is found (indicating a shared library is being built),
then files with the .dll extension are set to be installed in bin/
rather than lib/, while files with .lib extension are installed in lib/.
This makes the MSVC toolchain up to date with cygwin/mingw.

This removes ad-hoc hacks that were copying files into bin/ or lib/
manually (libpq.dll in particular was already being copied into bin).
So while this is a rather ugly kludge, it's still cleaner than what was
there before.

Author: Michael Paquier
Reviewed by: Asif Naeem

9 years agoSetup cursor position for schema-qualified elements
Alvaro Herrera [Wed, 18 Mar 2015 17:48:02 +0000 (14:48 -0300)]
Setup cursor position for schema-qualified elements

This makes any errors thrown while looking up such schemas report the
position of the error.

Author: Ryan Kelly
Reviewed by: Jeevan Chalke, Tom Lane

9 years agoRationalize vacuuming options and parameters
Alvaro Herrera [Wed, 18 Mar 2015 14:52:33 +0000 (11:52 -0300)]
Rationalize vacuuming options and parameters

We were involving the parser too much in setting up initial vacuuming
parameters.  This patch moves that responsibility elsewhere to simplify
code, and also to make future additions easier.  To do this, create a
new struct VacuumParams which is filled just prior to vacuum execution,
instead of at parse time; for user-invoked vacuuming this is set up in a
new function ExecVacuum, while autovacuum sets it up by itself.

While at it, add a new member VACOPT_SKIPTOAST to enum VacuumOption,
only set by autovacuum, which is used to disable vacuuming of the toast
table instead of the old do_toast parameter; this relieves the argument
list of vacuum() and some callees a bit.  This partially makes up for
having added more arguments in an effort to avoid having autovacuum from
constructing a VacuumStmt parse node.

Author: Michael Paquier. Some tweaks by Álvaro
Reviewed by: Robert Haas, Stephen Frost, Álvaro Herrera

9 years agoRemove docs missed in 51c11a7025.
Andres Freund [Tue, 17 Mar 2015 22:25:52 +0000 (23:25 +0100)]
Remove docs missed in 51c11a7025.

Somehow I misresolved a merge conflict when forward porting Petr's patch
leading to a section of the docs remaining...

Thankfully Fujii spotted my mistake.

9 years agoFix out-of-array-bounds compiler warning
Alvaro Herrera [Tue, 17 Mar 2015 01:35:45 +0000 (22:35 -0300)]
Fix out-of-array-bounds compiler warning

Since the array length check is using a post-increment operator, the
compiler complains that there's a potential write to one element beyond
the end of the array.  This is not possible currently: the only path to
this function is through pg_get_object_address(), which already verifies
that the input array is no more than two elements in length.  Still, a
bug is a bug.

No idea why my compiler doesn't complain about this ...

Pointed out by Dead Rasheed and Peter Eisentraut

9 years agoSupport opfamily members in get_object_address
Alvaro Herrera [Mon, 16 Mar 2015 15:06:34 +0000 (12:06 -0300)]
Support opfamily members in get_object_address

In the spirit of 890192e99af and 4464303405f: have get_object_address
understand individual pg_amop and pg_amproc objects.  There is no way to
refer to such objects directly in the grammar -- rather, they are almost
always considered an integral part of the opfamily that contains them.
(The only case that deals with them individually is ALTER OPERATOR
FAMILY ADD/DROP, which carries the opfamily address separately and thus
does not need it to be part of each added/dropped element's address.)
In event triggers it becomes possible to become involved with individual
amop/amproc elements, and this commit enables pg_get_object_address to
do so as well.

To make the overall coding simpler, this commit also slightly changes
the get_object_address representation for opclasses and opfamilies:
instead of having the AM name in the objargs array, I moved it as the
first element of the objnames array.  This enables the new code to use
objargs for the type names used by pg_amop and pg_amproc.

Reviewed by: Stephen Frost

9 years agoReplace insertion sort in contrib/intarray with qsort().
Tom Lane [Mon, 16 Mar 2015 03:22:03 +0000 (23:22 -0400)]
Replace insertion sort in contrib/intarray with qsort().

It's all very well to claim that a simplistic sort is fast in easy
cases, but O(N^2) in the worst case is not good ... especially if the
worst case is as easy to hit as "descending order input".  Replace that
bit with our standard qsort.

Per bug #12866 from Maksym Boguk.  Back-patch to all active branches.

9 years agoImprove representation of PlanRowMark.
Tom Lane [Sun, 15 Mar 2015 22:41:47 +0000 (18:41 -0400)]
Improve representation of PlanRowMark.

This patch fixes two inadequacies of the PlanRowMark representation.

First, that the original LockingClauseStrength isn't stored (and cannot be
inferred for foreign tables, which always get ROW_MARK_COPY).  Since some
PlanRowMarks are created out of whole cloth and don't actually have an
ancestral RowMarkClause, this requires adding a dummy LCS_NONE value to
enum LockingClauseStrength, which is fairly annoying but the alternatives
seem worse.  This fix allows getting rid of the use of get_parse_rowmark()
in FDWs (as per the discussion around commits 462bd95705a0c23b and
8ec8760fc87ecde0), and it simplifies some things elsewhere.

Second, that the representation assumed that all child tables in an
inheritance hierarchy would use the same RowMarkType.  That's true today
but will soon not be true.  We add an "allMarkTypes" field that identifies
the union of mark types used in all a parent table's children, and use
that where appropriate (currently, only in preprocess_targetlist()).

In passing fix a couple of minor infelicities left over from the SKIP
LOCKED patch, notably that _outPlanRowMark still thought waitPolicy
is a bool.

Catversion bump is required because the numeric values of enum
LockingClauseStrength can appear in on-disk rules.

Extracted from a much larger patch to support foreign table inheritance;
it seemed worth breaking this out, since it's a separable concern.

Shigeru Hanada and Etsuro Fujita, somewhat modified by me

9 years agoMove LockClauseStrength, LockWaitPolicy into new file nodes/lockoptions.h.
Tom Lane [Sun, 15 Mar 2015 19:19:04 +0000 (15:19 -0400)]
Move LockClauseStrength, LockWaitPolicy into new file nodes/lockoptions.h.

Commit df630b0dd5ea2de52972d456f5978a012436115e moved enum LockWaitPolicy
into its very own header file utils/lockwaitpolicy.h, which does not seem
like a great idea from here.  First, it's still a node-related declaration,
and second, a file named like that can never sensibly be used for anything
else.  I do not think we want to encourage a one-typedef-per-header-file
approach.  The upcoming foreign table inheritance patch was doubling down
on this bad idea by moving enum LockClauseStrength into its *own*
can-never-be-used-for-anything-else file.  Instead, let's put them both in
a file named nodes/lockoptions.h.  (They do seem to need a separate header
file because we need them in both parsenodes.h and plannodes.h, and we
don't want either of those including the other.  Past practice might
suggest adding them to nodes/nodes.h, but they don't seem sufficiently
globally useful to justify that.)

Committed separately since there's no functional change here, just some
header-file refactoring.

9 years agosrc/port/dirmod.c needs to be built on Cygwin too.
Tom Lane [Sun, 15 Mar 2015 18:14:24 +0000 (14:14 -0400)]
src/port/dirmod.c needs to be built on Cygwin too.

Oversight in my commit 91f4a5a976500517e492320e389342d7436cf9d4.
Per buildfarm member brolga.

9 years agoAdd missing documentation for PGC_SU_BACKEND in description of pg_settings.
Tom Lane [Sun, 15 Mar 2015 16:45:35 +0000 (12:45 -0400)]
Add missing documentation for PGC_SU_BACKEND in description of pg_settings.

Commit fe550b2ac249af5fbd8e9e19290a4ba43c882f2d missed updating this list
of the PGC_XXX values, which in hindsight is not so surprising because
catalogs.sgml is not a place you'd think to look for them.  In addition to
adding the missing doco, insert the PGC_XXX C enum names in SGML comments,
so that grepping for the enum names will find this file.  That might spare
the next person similar embarrassment.

Spotted by Magnus Hagander.

9 years agoMerge the various forms of transaction commit & abort records.
Andres Freund [Sun, 15 Mar 2015 16:37:07 +0000 (17:37 +0100)]
Merge the various forms of transaction commit & abort records.

Since 465883b0a two versions of commit records have existed. A compact
version that was used when no cache invalidations, smgr unlinks and
similar were needed, and a full version that could deal with all
that. Additionally the full version was embedded into twophase commit
records.

That resulted in a measurable reduction in the size of the logged WAL in
some workloads. But more recently additions like logical decoding, which
e.g. needs information about the database something was executed on,
made it applicable in fewer situations. The static split generally made
it hard to expand the commit record, because concerns over the size made
it hard to add anything to the compact version.

Additionally it's not particularly pretty to have twophase.c insert
RM_XACT records.

Rejigger things so that the commit and abort records only have one form
each, including the twophase equivalents. The presence of the various
optional (in the sense of not being in every record) pieces is indicated
by a bits in the 'xinfo' flag.  That flag previously was not included in
compact commit records. To prevent an increase in size due to its
presence, it's only included if necessary; signalled by a bit in the
xl_info bits available for xact.c, similar to heapam.c's
XLOG_HEAP_OPMASK/XLOG_HEAP_INIT_PAGE.

Twophase commit/aborts are now the same as their normal
counterparts. The original transaction's xid is included in an optional
data field.

This means that commit records generally are smaller, except in the case
of a transaction with subtransactions, but no other special cases; the
increase there is four bytes, which seems acceptable given that the more
common case of not having subtransactions shrank.  The savings are
especially measurable for twophase commits, which previously always used
the full version; but will in practice only infrequently have required
that.

The motivation for this work are not the space savings and and
deduplication though; it's that it makes it easier to extend commit
records with additional information. That's just a few lines of code
now; without impacting the common case where that information is not
needed.

Discussion: 20150220152150.GD4149@awork2.anarazel.de,
    235610.92468.qm%40web29004.mail.ird.yahoo.com

Reviewed-By: Heikki Linnakangas, Simon Riggs
9 years agoIncrease max_wal_size's default from 128MB to 1GB.
Andres Freund [Sun, 15 Mar 2015 16:37:07 +0000 (17:37 +0100)]
Increase max_wal_size's default from 128MB to 1GB.

The introduction of min_wal_size & max_wal_size in 88e982302684 makes it
feasible to increase the default upper bound in checkpoint
size. Previously raising the default would lead to a increased disk
footprint, even if more segments weren't beneficial.  The low default of
checkpoint size is one of common performance problem users have thus
increasing the default makes sense.  Setups where the increase in
maximum disk usage is a problem will very likely have to run with a
modified configuration anyway.

Discussion: 54F4EFB8.40202@agliodbs.com,
    CA+TgmoZEAgX5oMGJOHVj8L7XOkAe05Gnf45rP40m-K3FhZRVKg@mail.gmail.com

Author: Josh Berkus, after a discussion involving lots of people.

9 years agoAdjust valgrind suppressions wrt 025c02420.
Andres Freund [Sun, 15 Mar 2015 16:37:07 +0000 (17:37 +0100)]
Adjust valgrind suppressions wrt 025c02420.