]> granicus.if.org Git - postgresql/log
postgresql
12 years agoFix management of pendingOpsTable in auxiliary processes.
Tom Lane [Wed, 18 Jul 2012 19:28:17 +0000 (15:28 -0400)]
Fix management of pendingOpsTable in auxiliary processes.

mdinit() was misusing IsBootstrapProcessingMode() to decide whether to
create an fsync pending-operations table in the current process.  This led
to creating a table not only in the startup and checkpointer processes as
intended, but also in the bgwriter process, not to mention other auxiliary
processes such as walwriter and walreceiver.  Creation of the table in the
bgwriter is fatal, because it absorbs fsync requests that should have gone
to the checkpointer; instead they just sit in bgwriter local memory and are
never acted on.  So writes performed by the bgwriter were not being fsync'd
which could result in data loss after an OS crash.  I think there is no
live bug with respect to walwriter and walreceiver because those never
perform any writes of shared buffers; but the potential is there for
future breakage in those processes too.

To fix, make AuxiliaryProcessMain() export the current process's
AuxProcType as a global variable, and then make mdinit() test directly for
the types of aux process that should have a pendingOpsTable.  Having done
that, we might as well also get rid of the random bool flags such as
am_walreceiver that some of the aux processes had grown.  (Note that we
could not have fixed the bug by examining those variables in mdinit(),
because it's called from BaseInit() which is run by AuxiliaryProcessMain()
before entering any of the process-type-specific code.)

Back-patch to 9.2, where the problem was introduced by the split-up of
bgwriter and checkpointer processes.  The bogus pendingOpsTable exists
in walwriter and walreceiver processes in earlier branches, but absent
any evidence that it causes actual problems there, I'll leave the older
branches alone.

12 years agoGet rid of useless global variable in pg_upgrade.
Tom Lane [Wed, 18 Jul 2012 05:23:16 +0000 (01:23 -0400)]
Get rid of useless global variable in pg_upgrade.

Since the scandir() emulation was taken out of pg_upgrade, there's
no longer any need for scandir_file_pattern to exist as a global
variable.  Replace it with a local in the one remaining function
that was making use of it.

12 years agoImprove pg_upgrade's load_directory() function.
Tom Lane [Wed, 18 Jul 2012 05:13:25 +0000 (01:13 -0400)]
Improve pg_upgrade's load_directory() function.

Error out on out-of-memory, rather than returning -1, which the sole
existing caller wasn't checking for anyway.  There doesn't seem to be
any use-case for making the caller check for failure here.

Detect failure return from readdir().

Use a less platform-dependent method of calculating the entrysize.
It's possible, but not yet confirmed, that this explains bug #6733,
in which Mike Wilson reports a pg_upgrade crash that did not occur
in 9.1.  (Note that load_directory is effectively new code in 9.2,
at least on platforms that have scandir().)

Fix up comments, avoid uselessly using two counters, reduce the number
of realloc calls to something sane.

12 years agoImprove coding around the fsync request queue.
Tom Lane [Tue, 17 Jul 2012 20:55:44 +0000 (16:55 -0400)]
Improve coding around the fsync request queue.

In all branches back to 8.3, this patch fixes a questionable assumption in
CompactCheckpointerRequestQueue/CompactBgwriterRequestQueue that there are
no uninitialized pad bytes in the request queue structs.  This would only
cause trouble if (a) there were such pad bytes, which could happen in 8.4
and up if the compiler makes enum ForkNumber narrower than 32 bits, but
otherwise would require not-currently-planned changes in the widths of
other typedefs; and (b) the kernel has not uniformly initialized the
contents of shared memory to zeroes.  Still, it seems a tad risky, and we
can easily remove any risk by pre-zeroing the request array for ourselves.
In addition to that, we need to establish a coding rule that struct
RelFileNode can't contain any padding bytes, since such structs are copied
into the request array verbatim.  (There are other places that are assuming
this anyway, it turns out.)

In 9.1 and up, the risk was a bit larger because we were also effectively
assuming that struct RelFileNodeBackend contained no pad bytes, and with
fields of different types in there, that would be much easier to break.
However, there is no good reason to ever transmit fsync or delete requests
for temp files to the bgwriter/checkpointer, so we can revert the request
structs to plain RelFileNode, getting rid of the padding risk and saving
some marginal number of bytes and cycles in fsync queue manipulation while
we are at it.  The savings might be more than marginal during deletion of
a temp relation, because the old code transmitted an entirely useless but
nonetheless expensive-to-process ForgetRelationFsync request to the
background process, and also had the background process perform the file
deletion even though that can safely be done immediately.

In addition, make some cleanup of nearby comments and small improvements to
the code in CompactCheckpointerRequestQueue/CompactBgwriterRequestQueue.

12 years agoShow step titles in the pg_upgrade man page
Peter Eisentraut [Tue, 17 Jul 2012 18:34:22 +0000 (21:34 +0300)]
Show step titles in the pg_upgrade man page

The upstream XSLT stylesheets missed that case.

found by Álvaro Herrera

12 years agoRemove recently added PL/Perl encoding tests
Alvaro Herrera [Tue, 17 Jul 2012 16:31:48 +0000 (12:31 -0400)]
Remove recently added PL/Perl encoding tests

These only pass cleanly on UTF8 and SQL_ASCII encodings, besides the
Japanese encoding in which they were originally written, which is clearly
not good enough.  Since the functionality they test has not ever been
tested from PL/Perl, the best answer seems to be to remove the new tests
completely.

Per buildfarm results and ensuing discussion.

12 years agoAvoid pre-determining index names during CREATE TABLE LIKE parsing.
Tom Lane [Mon, 16 Jul 2012 17:25:26 +0000 (13:25 -0400)]
Avoid pre-determining index names during CREATE TABLE LIKE parsing.

Formerly, when trying to copy both indexes and comments, CREATE TABLE LIKE
had to pre-assign names to indexes that had comments, because it made up an
explicit CommentStmt command to apply the comment and so it had to know the
name for the index.  This creates bad interactions with other indexes, as
shown in bug #6734 from Daniele Varrazzo: the preassignment logic couldn't
take any other indexes into account so it could choose a conflicting name.

To fix, add a field to IndexStmt that allows it to carry a comment to be
assigned to the new index.  (This isn't a user-exposed feature of CREATE
INDEX, only an internal option.)  Now we don't need preassignment of index
names in any situation.

I also took the opportunity to refactor DefineIndex to accept the IndexStmt
as such, rather than passing all its fields individually in a mile-long
parameter list.

Back-patch to 9.2, but no further, because it seems too dangerous to change
IndexStmt or DefineIndex's API in released branches.  The bug exists back
to 9.0 where CREATE TABLE LIKE grew the ability to copy comments, but given
the lack of prior complaints we'll just let it go unfixed before 9.2.

12 years agoPrevent corner-case core dump in rfree().
Tom Lane [Sun, 15 Jul 2012 17:28:01 +0000 (13:28 -0400)]
Prevent corner-case core dump in rfree().

rfree() failed to cope with the case that pg_regcomp() had initialized the
regex_t struct but then failed to allocate any memory for re->re_guts (ie,
the first malloc call in pg_regcomp() failed).  It would try to touch the
guts struct anyway, and thus dump core.  This is a sufficiently narrow
corner case that it's not surprising it's never been seen in the field;
but still a bug is a bug, so patch all active branches.

Noted while investigating whether we need to call pg_regfree after a
failure return from pg_regcomp.  Other than this bug, it turns out we
don't, so adjust comments appropriately.

12 years agoAdd link to PEP 394 regarding python2 vs python3 naming
Peter Eisentraut [Sat, 14 Jul 2012 10:06:09 +0000 (13:06 +0300)]
Add link to PEP 394 regarding python2 vs python3 naming

12 years agoFix walsender processes to establish a SIGALRM handler.
Tom Lane [Thu, 12 Jul 2012 18:29:58 +0000 (14:29 -0400)]
Fix walsender processes to establish a SIGALRM handler.

Walsenders must have working SIGALRM handling during InitPostgres,
but they set the handler to SIG_IGN so that nothing would happen
if a timeout was reached.  This could result in two failure modes:

* If a walsender participated in a deadlock during its authentication
transaction, and was the last to wait in the deadly embrace, the deadlock
would not get cleared automatically.  This would require somebody to be
trying to take out AccessExclusiveLock on multiple system catalogs, so
it's not very probable.

* If a client failed to respond to a walsender's authentication challenge,
the intended disconnect after AuthenticationTimeout wouldn't happen, and
the walsender would wait indefinitely for the client.

For the moment, fix in back branches only, since this is fixed in a
different way in the timeout-infrastructure patch that's awaiting
application to HEAD.  If we choose not to apply that, then we'll need
to do this in HEAD as well.

12 years agoDocument that Log-Shipping Standby Servers cannot be upgraded by
Bruce Momjian [Wed, 11 Jul 2012 03:08:19 +0000 (23:08 -0400)]
Document that Log-Shipping Standby Servers cannot be upgraded by
pg_upgrade.

Backpatch to 9.2.

12 years agoBack-patch fix for extraction of fixed prefixes from regular expressions.
Tom Lane [Tue, 10 Jul 2012 22:00:39 +0000 (18:00 -0400)]
Back-patch fix for extraction of fixed prefixes from regular expressions.

Back-patch of commits 628cbb50ba80c83917b07a7609ddec12cda172d0 and
c6aae3042be5249e672b731ebeb21875b5343010.  This has been broken since
7.3, so back-patch to all supported branches.

12 years agoBack-patch addition of pg_wchar-to-multibyte conversion functionality.
Tom Lane [Tue, 10 Jul 2012 20:52:36 +0000 (16:52 -0400)]
Back-patch addition of pg_wchar-to-multibyte conversion functionality.

Back-patch of commits 72dd6291f216440f6bb61a8733729a37c7e3b2d2,
f6a05fd973a102f7e66c491d3f854864b8d24844, and
60e9c224a197aa37abb1aa3aefa3aad42da61f7f.

This is needed to support fixing the regex prefix extraction bug in
back branches.

12 years agoplperl: Skip setting UTF8 flag when in SQL_ASCII encoding
Alvaro Herrera [Mon, 9 Jul 2012 21:36:29 +0000 (17:36 -0400)]
plperl: Skip setting UTF8 flag when in SQL_ASCII encoding

When in SQL_ASCII encoding, strings passed around are not necessarily
UTF8-safe.  We had already fixed this in some places, but it looks like
we missed some.

I had to backpatch Peter Eisentraut's a8b92b60 to 9.1 in order for this
patch to cherry-pick more cleanly.

Patch from Alex Hunsaker, tweaked by Kyotaro HORIGUCHI and myself.

Some desultory cleanup and comment addition by me, during patch review.

Per bug report from Christoph Berg in
20120209102116.GA14429@msgid.df7cb.de

12 years agoRefactor pattern_fixed_prefix() to avoid dealing in incomplete patterns.
Tom Lane [Tue, 10 Jul 2012 03:23:02 +0000 (23:23 -0400)]
Refactor pattern_fixed_prefix() to avoid dealing in incomplete patterns.

Previously, pattern_fixed_prefix() was defined to return whatever fixed
prefix it could extract from the pattern, plus the "rest" of the pattern.
That definition was sensible for LIKE patterns, but not so much for
regexes, where reconstituting a valid pattern minus the prefix could be
quite tricky (certainly the existing code wasn't doing that correctly).
Since the only thing that callers ever did with the "rest" of the pattern
was to pass it to like_selectivity() or regex_selectivity(), let's cut out
the middle-man and just have pattern_fixed_prefix's subroutines do this
directly.  Then pattern_fixed_prefix can return a simple selectivity
number, and the question of how to cope with partial patterns is removed
from its API specification.

While at it, adjust the API spec so that callers who don't actually care
about the pattern's selectivity (which is a lot of them) can pass NULL for
the selectivity pointer to skip doing the work of computing a selectivity
estimate.

This patch is only an API refactoring that doesn't actually change any
processing, other than allowing a little bit of useless work to be skipped.
However, it's necessary infrastructure for my upcoming fix to regex prefix
extraction, because after that change there won't be any simple way to
identify the "rest" of the regex, not even to the low level of fidelity
needed by regex_selectivity.  We can cope with that if regex_fixed_prefix
and regex_selectivity communicate directly, but not if we have to work
within the old API.  Hence, back-patch to all active branches.

12 years agoFix planner to pass correct collation to operator selectivity estimators.
Tom Lane [Mon, 9 Jul 2012 03:51:13 +0000 (23:51 -0400)]
Fix planner to pass correct collation to operator selectivity estimators.

We can do this without creating an API break for estimation functions
by passing the collation using the existing fmgr functionality for
passing an input collation as a hidden parameter.

The need for this was foreseen at the outset, but we didn't get around to
making it happen in 9.1 because of the decision to sort all pg_statistic
histograms according to the database's default collation.  That meant that
selectivity estimators generally need to use the default collation too,
even if they're estimating for an operator that will do something
different.  The reason it's suddenly become more interesting is that
regexp interpretation also uses a collation (for its LC_TYPE not LC_COLLATE
property), and we no longer want to use the wrong collation when examining
regexps during planning.  It's not that the selectivity estimate is likely
to change much from this; rather that we are thinking of caching compiled
regexps during planner estimation, and we won't get the intended benefit
if we cache them with a different collation than the executor will use.

Back-patch to 9.1, both because the regexp change is likely to get
back-patched and because we might as well get this right in all
collation-supporting branches, in case any third-party code wants to
rely on getting the collation.  The patch turns out to be minuscule
now that I've done it ...

12 years agoUpdate libpq test expected output
Alvaro Herrera [Fri, 6 Jul 2012 20:23:30 +0000 (16:23 -0400)]
Update libpq test expected output

Commit 2b443063 changed wording for some of the error messages, but
neglected updating the regress output to match.

12 years agoRun updated copyright.pl on HEAD and 9.2 trees, updating the psql
Bruce Momjian [Fri, 6 Jul 2012 16:28:18 +0000 (12:28 -0400)]
Run updated copyright.pl on HEAD and 9.2 trees, updating the psql
\copyright output to 2012.

Backpatch to 9.2.

12 years agoHave copyright.pl skip updating something that is just the current year,
Bruce Momjian [Fri, 6 Jul 2012 16:21:43 +0000 (12:21 -0400)]
Have copyright.pl skip updating something that is just the current year,
to avoid producing dups, e.g. 2012-2012

Backpatch to 9.2.

12 years agoModify copyright.pl so all lines are processed, not just the first
Bruce Momjian [Fri, 6 Jul 2012 15:58:55 +0000 (11:58 -0400)]
Modify copyright.pl so all lines are processed, not just the first
match, so files that contain embedded copyrights are updated, e.g.
pgsql/help.c.

Backpatch to 9.2.

12 years agoFix copyright.pl to properly skip the .git directory by adding a
Bruce Momjian [Fri, 6 Jul 2012 15:43:59 +0000 (11:43 -0400)]
Fix copyright.pl to properly skip the .git directory by adding a
basename() qualification.

12 years agoFix spacing in copyright.pl after being run with missing regex slash
Bruce Momjian [Fri, 6 Jul 2012 14:57:08 +0000 (10:57 -0400)]
Fix spacing in copyright.pl after being run with missing regex slash
(now added).

Backpatch to 9.2.

12 years agoUpdate pg_upgrade comments for recent configpath fix.
Bruce Momjian [Fri, 6 Jul 2012 13:39:21 +0000 (09:39 -0400)]
Update pg_upgrade comments for recent configpath fix.

12 years agoFix PGDATAOLD and PGDATANEW to properly set pgconfig location, per
Bruce Momjian [Fri, 6 Jul 2012 03:36:30 +0000 (23:36 -0400)]
Fix PGDATAOLD and PGDATANEW to properly set pgconfig location, per
report from Tom.

Backpatch to 9.2.

12 years agoDon't try to trim "../" in join_path_components().
Tom Lane [Thu, 5 Jul 2012 21:15:11 +0000 (17:15 -0400)]
Don't try to trim "../" in join_path_components().

join_path_components() tried to remove leading ".." components from its
tail argument, but it was not nearly bright enough to do so correctly
unless the head argument was (a) absolute and (b) canonicalized.
Rather than try to fix that logic, let's just get rid of it: there is no
correctness reason to remove "..", and cosmetic concerns can be taken
care of by a subsequent canonicalize_path() call.  Per bug #6715 from
Greg Davidson.

Back-patch to all supported branches.  It appears that pre-9.2, this
function is only used with absolute paths as head arguments, which is why
we'd not noticed the breakage before.  However, third-party code might be
expecting this function to work in more general cases, so it seems wise
to back-patch.

In HEAD and 9.2, also make some minor cosmetic improvements to callers.

12 years agoRevert part of the previous patch that avoided using PLy_elog().
Heikki Linnakangas [Thu, 5 Jul 2012 20:40:25 +0000 (23:40 +0300)]
Revert part of the previous patch that avoided using PLy_elog().

That caused the plpython_unicode regression test to fail on SQL_ASCII
encoding, as evidenced by the buildfarm. The reason is that with the patch,
you don't get the detail in the error message that you got before. That
detail is actually very informative, so rather than just adjust the expected
output, let's revert that part of the patch for now to make the buildfarm
green again, and figure out some other way to avoid the recursion of
PLy_elog() that doesn't lose the detail.

12 years agoFix mapping of PostgreSQL encodings to Python encodings.
Heikki Linnakangas [Thu, 5 Jul 2012 18:45:24 +0000 (21:45 +0300)]
Fix mapping of PostgreSQL encodings to Python encodings.

Windows encodings, "win1252" and so forth, are named differently in Python,
like "cp1252". Also, if the PyUnicode_AsEncodedString() function call fails
for some reason, use a plain ereport(), not a PLy_elog(), to report that
error. That avoids recursion and crash, if PLy_elog() tries to call
PLyUnicode_Bytes() again.

This fixes bug reported by Asif Naeem. Backpatch down to 9.0, before that
plpython didn't even try these conversions.

Jan Urbański, with minor comment improvements by me.

12 years agoFix missing regex slash that caused perltidy to get confused on
Bruce Momjian [Thu, 5 Jul 2012 01:58:48 +0000 (21:58 -0400)]
Fix missing regex slash that caused perltidy to get confused on
copyright.pl.

Backpatch to 9.2.

12 years agoRun newly-configured perltidy script on Perl files.
Bruce Momjian [Thu, 5 Jul 2012 01:47:48 +0000 (21:47 -0400)]
Run newly-configured perltidy script on Perl files.

Run on HEAD and 9.2.

12 years agoHave pg_dump in binary-upgrade mode properly drop user-created
Bruce Momjian [Wed, 4 Jul 2012 21:36:50 +0000 (17:36 -0400)]
Have pg_dump in binary-upgrade mode properly drop user-created
extensions that might exist in the new empty cluster databases, like
plpgsql.

Backpatch to 9.2.

12 years agoSet the write location in the pg_receivexlog status messages
Magnus Hagander [Wed, 4 Jul 2012 13:13:09 +0000 (15:13 +0200)]
Set the write location in the pg_receivexlog status messages

This makes it possible for the master to track how much data has
actually been written my pg_receivexlog - and not just how much
has been sent towards it.

12 years agoAlways treat a standby returning an an invalid flush location as async
Magnus Hagander [Wed, 4 Jul 2012 13:10:46 +0000 (15:10 +0200)]
Always treat a standby returning an an invalid flush location as async

This ensures that a standby such as pg_receivexlog will not be selected
as sync standby - which would cause the master to block waiting for
a location that could never happen.

Fujii Masao

12 years agoRemove reference to default wal_buffers being 8
Magnus Hagander [Wed, 4 Jul 2012 07:22:21 +0000 (09:22 +0200)]
Remove reference to default wal_buffers being 8

This hasn't been true since 9.1, when the default was changed to -1.
Remove the reference completely, keeping the discussion of the parameter
and it's shared memory effects on the config page.

12 years agoRemove references to PostgreSQL bundled on Solaris
Magnus Hagander [Wed, 4 Jul 2012 06:58:31 +0000 (08:58 +0200)]
Remove references to PostgreSQL bundled on Solaris

Also remove special references to downloads off pgfoundry since they are
not correct - downloads are done through the main website.

12 years agoFix typo
Magnus Hagander [Wed, 4 Jul 2012 07:06:02 +0000 (09:06 +0200)]
Fix typo

gabrielle

12 years agoRemove references to pgfoundry as recommended hosting platform
Magnus Hagander [Wed, 4 Jul 2012 06:59:35 +0000 (08:59 +0200)]
Remove references to pgfoundry as recommended hosting platform

pgfoundry is deprectaed and no longer accepting new projects,
so we really shouldn't be directing people there.

12 years agoForgot an #include in the previous patch :-(
Alvaro Herrera [Tue, 3 Jul 2012 20:40:15 +0000 (16:40 -0400)]
Forgot an #include in the previous patch :-(

12 years agoHave REASSIGN OWNED work on extensions, too
Alvaro Herrera [Tue, 3 Jul 2012 19:18:40 +0000 (15:18 -0400)]
Have REASSIGN OWNED work on extensions, too

Per bug #6593, REASSIGN OWNED fails when the affected role has created
an extension.  Even though the user related to the extension is not
nominally the owner, its OID appears on pg_shdepend and thus causes
problems when the user is to be dropped.

This commit adds code to change the "ownership" of the extension itself,
not of the contained objects.  This is fine because it's currently only
called from REASSIGN OWNED, which would also modify the ownership of the
contained objects.  However, this is not sufficient for a working ALTER
OWNER implementation extension.

Back-patch to 9.1, where extensions were introduced.

Bug #6593 reported by Emiliano Leporati.

12 years agoAssorted message style improvements
Peter Eisentraut [Mon, 2 Jul 2012 18:12:46 +0000 (21:12 +0300)]
Assorted message style improvements

12 years agoAdd missing space in event_source GUC description.
Peter Eisentraut [Mon, 2 Jul 2012 18:02:05 +0000 (21:02 +0300)]
Add missing space in event_source GUC description.

This has apparently been wrong since event_source was added.

Alexander Lakhin

12 years agoFix to_date's handling of year 519.
Tom Lane [Mon, 2 Jul 2012 15:35:24 +0000 (11:35 -0400)]
Fix to_date's handling of year 519.

A thinko in commit 029dfdf1157b6d837a7b7211cd35b00c6bcd767c caused the year
519 to be handled differently from either adjacent year, which was not the
intention AFAICS.  Report and diagnosis by Marc Cousin.

In passing, remove redundant re-tests of year value.

12 years agoFix race condition in enum value comparisons.
Tom Lane [Sun, 1 Jul 2012 21:12:54 +0000 (17:12 -0400)]
Fix race condition in enum value comparisons.

When (re) loading the typcache comparison cache for an enum type's values,
use an up-to-date MVCC snapshot, not the transaction's existing snapshot.
This avoids problems if we encounter an enum OID that was created since our
transaction started.  Per report from Andres Freund and diagnosis by Robert
Haas.

To ensure this is safe even if enum comparison manages to get invoked
before we've set a transaction snapshot, tweak GetLatestSnapshot to
redirect to GetTransactionSnapshot instead of throwing error when
FirstSnapshotSet is false.  The existing uses of GetLatestSnapshot (in
ri_triggers.c) don't care since they couldn't be invoked except in a
transaction that's already done some work --- but it seems just conceivable
that this might not be true of enums, especially if we ever choose to use
enums in system catalogs.

Note that the comparable coding in enum_endpoint and enum_range_internal
remains GetTransactionSnapshot; this is perhaps debatable, but if we
changed it those functions would have to be marked volatile, which doesn't
seem attractive.

Back-patch to 9.1 where ALTER TYPE ADD VALUE was added.

12 years agoRemove inappropriate semicolons after function definitions.
Tom Lane [Sat, 30 Jun 2012 21:29:45 +0000 (17:29 -0400)]
Remove inappropriate semicolons after function definitions.

Solaris Studio warns about this, and some compilers might think it's an
outright syntax error.

12 years agoPrevent CREATE TABLE LIKE/INHERITS from (mis) copying whole-row Vars.
Tom Lane [Sat, 30 Jun 2012 20:43:58 +0000 (16:43 -0400)]
Prevent CREATE TABLE LIKE/INHERITS from (mis) copying whole-row Vars.

If a CHECK constraint or index definition contained a whole-row Var (that
is, "table.*"), an attempt to copy that definition via CREATE TABLE LIKE or
table inheritance produced incorrect results: the copied Var still claimed
to have the rowtype of the source table, rather than the created table.

For the LIKE case, it seems reasonable to just throw error for this
situation, since the point of LIKE is that the new table is not permanently
coupled to the old, so there's no reason to assume its rowtype will stay
compatible.  In the inheritance case, we should ideally allow such
constraints, but doing so will require nontrivial refactoring of CREATE
TABLE processing (because we'd need to know the OID of the new table's
rowtype before we adjust inherited CHECK constraints).  In view of the lack
of previous complaints, that doesn't seem worth the risk in a back-patched
bug fix, so just make it throw error for the inheritance case as well.

Along the way, replace change_varattnos_of_a_node() with a more robust
function map_variable_attnos(), which is capable of being extended to
handle insertion of ConvertRowtypeExpr whenever we get around to fixing
the inheritance case nicely, and in the meantime it returns a failure
indication to the caller so that a helpful message with some context can be
thrown.  Also, this code will do the right thing with subselects (if we
ever allow them in CHECK or indexes), and it range-checks varattnos before
using them to index into the map array.

Per report from Sergey Konoplev.  Back-patch to all supported branches.

12 years agoinitdb: Update check_need_password for new options
Peter Eisentraut [Sat, 30 Jun 2012 12:39:16 +0000 (15:39 +0300)]
initdb: Update check_need_password for new options

Change things so that something like initdb --auth-local=peer
--auth-host=md5 does not cause a "must specify a password" error,
like initdb -A md5 does.

12 years agoInitialize shared memory copy of ckptXidEpoch correctly when not in recovery.
Heikki Linnakangas [Fri, 29 Jun 2012 16:19:29 +0000 (19:19 +0300)]
Initialize shared memory copy of ckptXidEpoch correctly when not in recovery.

This bug was introduced by commit 20d98ab6e4110087d1816cd105a40fcc8ce0a307,
so backpatch this to 9.0-9.2 like that one.

This fixes bug #6710, reported by Tarvi Pillessaar

12 years agoMake the pg_upgrade log files contain actual commands
Alvaro Herrera [Fri, 29 Jun 2012 03:27:00 +0000 (23:27 -0400)]
Make the pg_upgrade log files contain actual commands

Now the log file not only contains the output from commands executed by
system(), but also what command it was in the first place.  This
arrangement makes debugging a lot simpler.

12 years agopg_dump: Fix verbosity level in LO progress messages
Alvaro Herrera [Mon, 18 Jun 2012 20:37:49 +0000 (16:37 -0400)]
pg_dump: Fix verbosity level in LO progress messages

In passing, reword another instance of the same message that was
gratuitously different.

Author: Josh Kupershmidt
after a bug report by Bosco Rama

12 years agoFix NOTIFY to cope with I/O problems, such as out-of-disk-space.
Tom Lane [Fri, 29 Jun 2012 04:51:40 +0000 (00:51 -0400)]
Fix NOTIFY to cope with I/O problems, such as out-of-disk-space.

The LISTEN/NOTIFY subsystem got confused if SimpleLruZeroPage failed,
which would typically happen as a result of a write() failure while
attempting to dump a dirty pg_notify page out of memory.  Subsequently,
all attempts to send more NOTIFY messages would fail with messages like
"Could not read from file "pg_notify/nnnn" at offset nnnnn: Success".
Only restarting the server would clear this condition.  Per reports from
Kevin Grittner and Christoph Berg.

Back-patch to 9.0, where the problem was introduced during the
LISTEN/NOTIFY rewrite.

12 years agoMake UtilityContainsQuery recurse until it finds a non-utility Query.
Tom Lane [Thu, 28 Jun 2012 03:18:37 +0000 (23:18 -0400)]
Make UtilityContainsQuery recurse until it finds a non-utility Query.

The callers of UtilityContainsQuery want it to return a non-utility Query
if it returns anything at all.  However, since we made CREATE TABLE
AS/SELECT INTO into a utility command instead of a variant of SELECT,
a command like "EXPLAIN SELECT INTO" results in two nested utility
statements.  So what we need UtilityContainsQuery to do is drill down
to the bottom non-utility Query.

I had thought of this possibility in setrefs.c, and fixed it there by
looping around the UtilityContainsQuery call; but overlooked that the call
sites in plancache.c have a similar issue.  In those cases it's
notationally inconvenient to provide an external loop, so let's redefine
UtilityContainsQuery as recursing down to a non-utility Query instead.

Noted by Rushabh Lathia.  This is a somewhat cleaned-up version of his
proposed patch.

12 years agoUpdate release notes for pg_terminate_backend changes.
Robert Haas [Wed, 27 Jun 2012 12:44:50 +0000 (08:44 -0400)]
Update release notes for pg_terminate_backend changes.

12 years agoAllow pg_terminate_backend() to be used on backends with matching role.
Robert Haas [Tue, 26 Jun 2012 20:16:52 +0000 (16:16 -0400)]
Allow pg_terminate_backend() to be used on backends with matching role.

A similar change was made previously for pg_cancel_backend, so now it
all matches again.

Dan Farina, reviewed by Fujii Masao, Noah Misch, and Jeff Davis,
with slight kibitzing on the doc changes by me.

12 years agoCope with smaller-than-normal BLCKSZ setting in SPGiST indexes on text.
Tom Lane [Tue, 26 Jun 2012 18:36:29 +0000 (14:36 -0400)]
Cope with smaller-than-normal BLCKSZ setting in SPGiST indexes on text.

The original coding failed miserably for BLCKSZ of 4K or less, as reported
by Josh Kupershmidt.  With the present design for text indexes, a given
inner tuple could have up to 256 labels (requiring either 3K or 4K bytes
depending on MAXALIGN), which means that we can't positively guarantee no
failures for smaller blocksizes.  But we can at least make it behave sanely
so long as there are few enough labels to fit on a page.  Considering that
btree is also more prone to "index tuple too large" failures when BLCKSZ is
small, it's not clear that we should expend more work than this on this
case.

12 years agoMake pg_dump emit more accurate dependency information.
Tom Lane [Tue, 26 Jun 2012 01:20:31 +0000 (21:20 -0400)]
Make pg_dump emit more accurate dependency information.

While pg_dump has included dependency information in archive-format output
ever since 7.3, it never made any large effort to ensure that that
information was actually useful.  In particular, in common situations where
dependency chains include objects that aren't separately emitted in the
dump, the dependencies shown for objects that were emitted would reference
the dump IDs of these un-dumped objects, leaving no clue about which other
objects the visible objects indirectly depend on.  So far, parallel
pg_restore has managed to avoid tripping over this misfeature, but only
by dint of some crude hacks like not trusting dependency information in
the pre-data section of the archive.

It seems prudent to do something about this before it rises up to bite us,
so instead of emitting the "raw" dependencies of each dumped object,
recursively search for its actual dependencies among the subset of objects
that are being dumped.

Back-patch to 9.2, since that code hasn't yet diverged materially from
HEAD.  At some point we might need to back-patch further, but right now
there are no known cases where this is actively necessary.  (The one known
case, bug #6699, is fixed in a different way by my previous patch.)  Since
this patch depends on 9.2 changes that made TOC entries be marked before
output commences as to whether they'll be dumped, back-patching further
would require additional surgery; and as of now there's no evidence that
it's worth the risk.

12 years agoImprove pg_dump's dependency-sorting logic to enforce section dump order.
Tom Lane [Tue, 26 Jun 2012 01:19:19 +0000 (21:19 -0400)]
Improve pg_dump's dependency-sorting logic to enforce section dump order.

As of 9.2, with the --section option, it is very important that the concept
of "pre data", "data", and "post data" sections of the output be honored
strictly; else a dump divided into separate sectional files might be
unrestorable.  However, the dependency-sorting logic knew nothing of
sections and would happily select output orderings that didn't fit that
structure.  Doing so was mostly harmless before 9.2, but now we need to be
sure it doesn't do that.  To fix, create dummy objects representing the
section boundaries and add dependencies between them and all the normal
objects.  (This might sound expensive but it seems to only add a percent or
two to pg_dump's runtime.)

This also fixes a problem introduced in 9.1 by the feature that allows
incomplete GROUP BY lists when a primary key is given in GROUP BY.
That means that views can depend on primary key constraints.  Previously,
pg_dump would deal with that by simply emitting the primary key constraint
before the view definition (and hence before the data section of the
output).  That's bad enough for simple serial restores, where creating an
index before the data is loaded works, but is undesirable for speed
reasons.  But it could lead to outright failure of parallel restores, as
seen in bug #6699 from Joe Van Dyk.  That happened because pg_restore would
switch into parallel mode as soon as it reached the constraint, and then
very possibly would try to emit the view definition before the primary key
was committed (as a consequence of another bug that causes the view not to
be correctly marked as depending on the constraint).  Adding the section
boundary constraints forces the dependency-sorting code to break the view
into separate table and rule declarations, allowing the rule, and hence the
primary key constraint it depends on, to revert to their intended location
in the post-data section.  This also somewhat accidentally works around the
bogus-dependency-marking problem, because the rule will be correctly shown
as depending on the constraint, so parallel pg_restore will now do the
right thing.  (We will fix the bogus-dependency problem for real in a
separate patch, but that patch is not easily back-portable to 9.1, so the
fact that this patch is enough to dodge the only known symptom is
fortunate.)

Back-patch to 9.1, except for the hunk that adds verification that the
finished archive TOC list is in correct section order; the place where
it was convenient to add that doesn't exist in 9.1.

12 years agoMake placeholders in SQL command help more consistent and precise
Peter Eisentraut [Thu, 21 Jun 2012 22:06:14 +0000 (01:06 +0300)]
Make placeholders in SQL command help more consistent and precise

To avoid divergent names on related pages, avoid ambiguities, and
reduce translation work a little.

12 years agoFix memory leak in ARRAY(SELECT ...) subqueries.
Tom Lane [Thu, 21 Jun 2012 21:26:13 +0000 (17:26 -0400)]
Fix memory leak in ARRAY(SELECT ...) subqueries.

Repeated execution of an uncorrelated ARRAY_SUBLINK sub-select (which
I think can only happen if the sub-select is embedded in a larger,
correlated subquery) would leak memory for the duration of the query,
due to not reclaiming the array generated in the previous execution.
Per bug #6698 from Armando Miraglia.  Diagnosis and fix idea by Heikki,
patch itself by me.

This has been like this all along, so back-patch to all supported versions.

12 years agoRemove confusing half sentence from legal notice
Peter Eisentraut [Tue, 19 Jun 2012 21:07:58 +0000 (00:07 +0300)]
Remove confusing half sentence from legal notice

pointed out by Stefan Kaltenbrunner

12 years agopg_dump: Add missing newlines at end of messages
Peter Eisentraut [Mon, 18 Jun 2012 20:57:00 +0000 (23:57 +0300)]
pg_dump: Add missing newlines at end of messages

12 years agoMake documentation of --help and --version options more consistent
Peter Eisentraut [Sun, 17 Jun 2012 23:44:00 +0000 (02:44 +0300)]
Make documentation of --help and --version options more consistent

Before, some places didn't document the short options (-? and -V),
some documented both, some documented nothing, and they were listed in
various orders.  Now this is hopefully more consistent and complete.

12 years agoReorder basebackup options, to list pg_basebackup first
Magnus Hagander [Sun, 17 Jun 2012 13:18:02 +0000 (21:18 +0800)]
Reorder basebackup options, to list pg_basebackup first

Since this is the easy way of doing it, it should be listed first. All
the old information is retained for those who want the more advanced way.

Also adds a subheading for compressing logs, that seems to have been missing

12 years agoRemove 'for' loop perltidy argument, and move args to perltidyrc file.
Bruce Momjian [Sat, 16 Jun 2012 14:12:50 +0000 (10:12 -0400)]
Remove 'for' loop perltidy argument, and move args to perltidyrc file.

Backpatch to 9.2.

Per suggestion from Noah Misch

12 years agoIn pgindent, suppress reading the perltidy RC file using --noprofile.
Bruce Momjian [Sat, 16 Jun 2012 02:50:02 +0000 (22:50 -0400)]
In pgindent, suppress reading the perltidy RC file using --noprofile.

12 years agoUpdate pgindent Perl indentation instructions based on feedback from
Bruce Momjian [Sat, 16 Jun 2012 02:43:22 +0000 (22:43 -0400)]
Update pgindent Perl indentation instructions based on feedback from
Àlvaro and Noah Misch.

Backpatch to 9.2.

12 years agoImprove pg_upgrade wording for pg_ctl start failure; could be
Bruce Momjian [Fri, 15 Jun 2012 23:57:01 +0000 (19:57 -0400)]
Improve pg_upgrade wording for pg_ctl start failure;  could be
connection failure.

Backpatch to 9.2.

Per report from Evan D. Hoffman

12 years agoImprove reporting of permission errors for array types
Peter Eisentraut [Fri, 15 Jun 2012 19:55:03 +0000 (22:55 +0300)]
Improve reporting of permission errors for array types

Because permissions are assigned to element types, not array types,
complaining about permission denied on an array type would be
misleading to users.  So adjust the reporting to refer to the element
type instead.

In order not to duplicate the required logic in two dozen places,
refactor the permission denied reporting for types a bit.

pointed out by Yeb Havinga during the review of the type privilege
feature

12 years agoAdd more message pluralization
Peter Eisentraut [Thu, 14 Jun 2012 23:01:00 +0000 (02:01 +0300)]
Add more message pluralization

Even though we can't do much about the case with multiple plurals in
one sentence, we can fix the other cases.

12 years agoRevisit error message details for JSON input parsing.
Tom Lane [Wed, 13 Jun 2012 23:43:35 +0000 (19:43 -0400)]
Revisit error message details for JSON input parsing.

Instead of identifying error locations only by line number (which could
be entirely unhelpful with long input lines), provide a fragment of the
input text too, placing this info in a new CONTEXT entry.  Make the
error detail messages conform more closely to style guidelines, fix
failure to expose some of them for translation, ensure compiler can
check formats against supplied parameters.

12 years agoRemove release note entry for reverted patch.
Tom Lane [Wed, 13 Jun 2012 22:57:28 +0000 (18:57 -0400)]
Remove release note entry for reverted patch.

12 years agoRevert "Reduce checkpoints and WAL traffic on low activity database server"
Tom Lane [Wed, 13 Jun 2012 22:17:09 +0000 (18:17 -0400)]
Revert "Reduce checkpoints and WAL traffic on low activity database server"

This reverts commit 18fb9d8d21a28caddb72c7ffbdd7b96d52ff9724.  Per
discussion, it does not seem like a good idea to allow committed changes to
go un-checkpointed indefinitely, as could happen in a low-traffic server;
that makes us entirely reliant on the WAL stream with no redundancy that
might aid data recovery in case of disk failure.

This re-introduces the original problem of hot-standby setups generating a
small continuing stream of WAL traffic even when idle, but there are other
ways to address that without compromising crash recovery, so we'll revisit
that issue in a future release cycle.

12 years agoFix description of SQL-standard meaning of CREATE LOCAL TEMP TABLE.
Tom Lane [Wed, 13 Jun 2012 22:47:53 +0000 (18:47 -0400)]
Fix description of SQL-standard meaning of CREATE LOCAL TEMP TABLE.

I had this slightly wrong, as noted by Noah Misch.

12 years agoDeprecate use of GLOBAL and LOCAL in temp table creation.
Tom Lane [Wed, 13 Jun 2012 21:48:42 +0000 (17:48 -0400)]
Deprecate use of GLOBAL and LOCAL in temp table creation.

Aside from adjusting the documentation to say that these are deprecated,
we now report a warning (not an error) for use of GLOBAL, since it seems
fairly likely that we might change that to request SQL-spec-compliant temp
table behavior in the foreseeable future.  Although our handling of LOCAL
is equally nonstandard, there is no evident interest in ever implementing
SQL modules, and furthermore some other products interpret LOCAL as
behaving the same way we do.  So no expectation of change and no warning
for LOCAL; but it still seems a good idea to deprecate writing it.

Noah Misch

12 years agoSupport Linux's oom_score_adj API as well as the older oom_adj API.
Tom Lane [Wed, 13 Jun 2012 19:34:57 +0000 (15:34 -0400)]
Support Linux's oom_score_adj API as well as the older oom_adj API.

The simplest way to handle this is just to copy-and-paste the relevant
code block in fork_process.c, so that's what I did. (It's possible that
something more complicated would be useful to packagers who want to work
with either the old or the new API; but at this point the number of such
people is rapidly approaching zero, so let's just get the minimal thing
done.)  Update relevant documentation as well.

12 years agoIn pg_upgrade, verify that the install user has the same oid on both
Bruce Momjian [Wed, 13 Jun 2012 16:19:18 +0000 (12:19 -0400)]
In pg_upgrade, verify that the install user has the same oid on both
clusters, and make sure the new cluster has no additional users.

Backpatch to 9.1.

12 years agoImprove documentation of postgres -C option
Peter Eisentraut [Wed, 13 Jun 2012 10:41:25 +0000 (13:41 +0300)]
Improve documentation of postgres -C option

Clarify help (s/return/print/), and explain that this option is for
use by other programs, not for user-facing use (it does not print
units).

12 years agoMinor code review for json.c.
Tom Lane [Tue, 12 Jun 2012 20:23:45 +0000 (16:23 -0400)]
Minor code review for json.c.

Improve commenting, conform to project style for use of ++ etc.
No functional changes.

12 years agoMark JSON error detail messages for translation.
Robert Haas [Tue, 12 Jun 2012 14:41:38 +0000 (10:41 -0400)]
Mark JSON error detail messages for translation.

Per gripe from Tom Lane.

12 years agoCopy-editing of release notes.
Robert Haas [Tue, 12 Jun 2012 13:51:48 +0000 (09:51 -0400)]
Copy-editing of release notes.

Remove a couple of items that were actually back-patched bug fixes.
Add additional details to a couple of items which lacked a description.
Improve attributions for a couple of items I was involved with.
A few other miscellaneous corrections.

12 years agoEnsure pg_ctl behaves sanely when data directory is not specified.
Tom Lane [Tue, 12 Jun 2012 02:47:16 +0000 (22:47 -0400)]
Ensure pg_ctl behaves sanely when data directory is not specified.

Commit aaa6e1def292cdacb6b27088898793b1b879fedf introduced multiple hazards
in the case where pg_ctl is executed with neither a -D switch nor any
PGDATA environment variable.  It would dump core on machines which are
unforgiving about printf("%s", NULL), or failing that possibly give a
rather unhelpful complaint about being unable to execute "postgres -C",
rather than the logically prior complaint about not being told where the
data directory is.

Edmund Horner's report suggests that there is another, Windows-specific
hazard here, but I'm not the person to fix that; it would in any case only
be significant when trying to use a config-only PGDATA pointer.

12 years agoFix pg_dump output to a named tar-file archive.
Tom Lane [Tue, 12 Jun 2012 01:55:48 +0000 (21:55 -0400)]
Fix pg_dump output to a named tar-file archive.

"pg_dump -Ft -f filename ..." got broken by my recent commit
4317e0246c645f60c39e6572644cff1cb03b4c65, which I fear I only tested
in the output-to-stdout variant.

Report and fix by Muhammad Asif Naeem.

12 years agopg_receivexlog: Rename option --dir to --directory
Peter Eisentraut [Mon, 11 Jun 2012 21:55:27 +0000 (00:55 +0300)]
pg_receivexlog: Rename option --dir to --directory

getopt_long() allows abbreviating long options, so we might as well
give the option the full name, and users can abbreviate it how they
like.

Do some general polishing of the --help output at the same time.

12 years agoPrevent non-streaming replication connections from being selected sync slave
Magnus Hagander [Mon, 11 Jun 2012 13:07:55 +0000 (15:07 +0200)]
Prevent non-streaming replication connections from being selected sync slave

This prevents a pg_basebackup backup session that just does a base
backup (no xlog involved at all) from becoming the synchronous slave
and thus blocking all access while it runs.

Also fixes the problem when a higher priority slave shows up it would
become the sync standby before it has reached the STREAMING state, by
making sure we can only switch to a walsender that's actually STREAMING.

Fujii Masao

12 years agoRevert behaviour of -x/--xlog to 9.1 semantics
Magnus Hagander [Sun, 10 Jun 2012 11:43:51 +0000 (13:43 +0200)]
Revert behaviour of -x/--xlog to 9.1 semantics

To replace it, add -X/--xlog-method that allows the specification
of fetch or stream.

Do this to avoid unnecessary backwards-incompatiblity. Spotted and
suggested by Peter Eisentraut.

12 years agoRun pgindent on 9.2 source tree in preparation for first 9.3
Bruce Momjian [Sun, 10 Jun 2012 19:20:04 +0000 (15:20 -0400)]
Run pgindent on 9.2 source tree in preparation for first 9.3
commit-fest.

12 years agoUpdate pgindent install instructions and update typedef list.
Bruce Momjian [Sun, 10 Jun 2012 19:15:31 +0000 (15:15 -0400)]
Update pgindent install instructions and update typedef list.

12 years agoFix pg_basebackup/pg_receivexlog for floating point timestamps
Magnus Hagander [Sun, 10 Jun 2012 10:12:36 +0000 (12:12 +0200)]
Fix pg_basebackup/pg_receivexlog for floating point timestamps

Since the replication protocol deals with TimestampTz, we need to
care for the floating point case as well in the frontend tools.

Fujii Masao, with changes from Magnus Hagander

12 years agoError message capitalization fix
Magnus Hagander [Thu, 7 Jun 2012 09:30:31 +0000 (11:30 +0200)]
Error message capitalization fix

12 years agoMake include files work without having to include other ones first
Peter Eisentraut [Sun, 10 Jun 2012 09:43:00 +0000 (12:43 +0300)]
Make include files work without having to include other ones first

12 years agoRevert error message on GLOBAL/LOCAL pending further discussion
Simon Riggs [Sun, 10 Jun 2012 07:41:01 +0000 (08:41 +0100)]
Revert error message on GLOBAL/LOCAL pending further discussion

12 years agoAdd ERROR msg for GLOBAL/LOCAL TEMP is not yet implemented
Simon Riggs [Sat, 9 Jun 2012 15:35:26 +0000 (16:35 +0100)]
Add ERROR msg for GLOBAL/LOCAL TEMP is not yet implemented

12 years agoFix bug in early startup of Hot Standby with subtransactions.
Simon Riggs [Fri, 8 Jun 2012 16:34:04 +0000 (17:34 +0100)]
Fix bug in early startup of Hot Standby with subtransactions.
When HS startup is deferred because of overflowed subtransactions, ensure
that we re-initialize KnownAssignedXids for when both existing and incoming
snapshots have non-zero qualifying xids.

Fixes bug #6661 reported by Valentine Gogichashvili.

Analysis and fix by Andres Freund

12 years agoWhen using libpq URI syntax, error out on invalid parameter names.
Robert Haas [Fri, 8 Jun 2012 12:46:39 +0000 (08:46 -0400)]
When using libpq URI syntax, error out on invalid parameter names.

Dan Farina

12 years agoDocumentation style improvements
Peter Eisentraut [Fri, 8 Jun 2012 07:28:32 +0000 (10:28 +0300)]
Documentation style improvements

12 years agoScan the buffer pool just once, not once per fork, during relation drop.
Tom Lane [Thu, 7 Jun 2012 21:42:27 +0000 (17:42 -0400)]
Scan the buffer pool just once, not once per fork, during relation drop.

This provides a speedup of about 4X when NBuffers is large enough.
There is also a useful reduction in sinval traffic, since we
only do CacheInvalidateSmgr() once not once per fork.

Simon Riggs, reviewed and somewhat revised by Tom Lane

12 years agoDocumentation spell and markup checking
Peter Eisentraut [Thu, 7 Jun 2012 21:06:20 +0000 (00:06 +0300)]
Documentation spell and markup checking

12 years agoMessage style improvements
Peter Eisentraut [Thu, 7 Jun 2012 20:35:33 +0000 (23:35 +0300)]
Message style improvements

12 years agoDo unlocked prechecks in bufmgr.c loops that scan the whole buffer pool.
Tom Lane [Thu, 7 Jun 2012 20:46:26 +0000 (16:46 -0400)]
Do unlocked prechecks in bufmgr.c loops that scan the whole buffer pool.

DropRelFileNodeBuffers, DropDatabaseBuffers, FlushRelationBuffers, and
FlushDatabaseBuffers have to scan the whole shared_buffers pool because
we have no index structure that would find the target buffers any more
efficiently than that.  This gets expensive with large NBuffers.  We can
shave some cycles from these loops by prechecking to see if the current
buffer is interesting before we acquire the buffer header lock.
Ordinarily such a test would be unsafe, but in these cases it should be
safe because we are already assuming that the caller holds a lock that
prevents any new target pages from being loaded into the buffer pool
concurrently.  Therefore, no buffer tag should be changing to a value of
interest, only away from a value of interest.  So a false negative match
is impossible, while a false positive is safe because we'll recheck after
acquiring the buffer lock.  Initial testing says that this speeds these
loops by a factor of 2X to 3X on common Intel hardware.

Patch for DropRelFileNodeBuffers by Jeff Janes (based on an idea of
Heikki's); extended to the remaining sequential scans by Tom Lane

12 years agoWake WALSender to reduce data loss at failover for async commit.
Simon Riggs [Thu, 7 Jun 2012 18:22:47 +0000 (19:22 +0100)]
Wake WALSender to reduce data loss at failover for async commit.
WALSender now woken up after each background flush by WALwriter, avoiding
multi-second replication delay for an all-async commit workload.
Replication delay reduced from 7s with default settings to 200ms and often
much less, allowing significantly reduced data loss at failover.

Andres Freund and Simon Riggs

12 years agoFix more crash-safe visibility map bugs, and improve comments.
Robert Haas [Thu, 7 Jun 2012 16:25:41 +0000 (12:25 -0400)]
Fix more crash-safe visibility map bugs, and improve comments.

In lazy_scan_heap, we could issue bogus warnings about incorrect
information in the visibility map, because we checked the visibility
map bit before locking the heap page, creating a race condition.  Fix
by rechecking the visibility map bit before we complain.  Rejigger
some related logic so that we rely on the possibly-outdated
all_visible_according_to_vm value as little as possible.

In heap_multi_insert, it's not safe to clear the visibility map bit
before beginning the critical section.  The visibility map is not
crash-safe unless we treat clearing the bit as a critical operation.
Specifically, if the transaction were to error out after we set the
bit and before entering the critical section, we could end up writing
the heap page to disk (with the bit cleared) and crashing before the
visibility map page made it to disk.  That would be bad.  heap_insert
has this correct, but somehow the order of operations got rearranged
when heap_multi_insert was added.

Also, add some more comments to visibilitymap_test, lazy_scan_heap,
and IndexOnlyNext, expounding on concurrency issues.

Per extensive code review by Andres Freund, and further review by Tom
Lane, who also made the original report about the bogus warnings.

12 years agoUse strerror(errno) instead of %m
Magnus Hagander [Tue, 5 Jun 2012 13:51:30 +0000 (15:51 +0200)]
Use strerror(errno) instead of %m

Found by Fujii Masao