]> granicus.if.org Git - postgresql/log
postgresql
11 years agoExpose qurey ID in pg_stat_statements view.
Fujii Masao [Sat, 7 Dec 2013 17:06:02 +0000 (02:06 +0900)]
Expose qurey ID in pg_stat_statements view.

The query ID is the internal hash identifier of the statement,
and was not available in pg_stat_statements view so far.

Daniel Farina, Sameer Thakur and Peter Geoghegan, reviewed by me.

11 years agoSSL: Add configuration option to prefer server cipher order
Peter Eisentraut [Sat, 7 Dec 2013 13:04:27 +0000 (08:04 -0500)]
SSL: Add configuration option to prefer server cipher order

By default, OpenSSL (and SSL/TLS in general) lets the client cipher
order take priority.  This is OK for browsers where the ciphers were
tuned, but few PostgreSQL client libraries make the cipher order
configurable.  So it makes sense to have the cipher order in
postgresql.conf take priority over client defaults.

This patch adds the setting "ssl_prefer_server_ciphers" that can be
turned on so that server cipher order is preferred.  Per discussion,
this now defaults to on.

From: Marko Kreen <markokr@gmail.com>
Reviewed-by: Adrian Klaver <adrian.klaver@gmail.com>
11 years agodocs: update partition encryption options
Bruce Momjian [Fri, 6 Dec 2013 14:47:39 +0000 (09:47 -0500)]
docs: update partition encryption options

Text from Adam Vande More

11 years agodocs: clarify SSL certificate authority chain docs
Bruce Momjian [Fri, 6 Dec 2013 14:42:08 +0000 (09:42 -0500)]
docs: clarify SSL certificate authority chain docs

Previously, the requirements of how intermediate certificates were
handled and their chain to root certificates was unclear.

11 years agoFix improper abort during update chain locking
Alvaro Herrera [Thu, 5 Dec 2013 20:47:51 +0000 (17:47 -0300)]
Fix improper abort during update chain locking

In 247c76a98909, I added some code to do fine-grained checking of
MultiXact status of locking/updating transactions when traversing an
update chain.  There was a thinko in that patch which would have the
traversing abort, that is return HeapTupleUpdated, when the other
transaction is a committed lock-only.  In this case we should ignore it
and return success instead.  Of course, in the case where there is a
committed update, HeapTupleUpdated is the correct return value.

A user-visible symptom of this bug is that in REPEATABLE READ and
SERIALIZABLE transaction isolation modes spurious serializability errors
can occur:
  ERROR:  could not serialize access due to concurrent update

In order for this to happen, there needs to be a tuple that's key-share-
locked and also updated, and the update must abort; a subsequent
transaction trying to acquire a new lock on that tuple would abort with
the above error.  The reason is that the initial FOR KEY SHARE is seen
as committed by the new locking transaction, which triggers this bug.
(If the UPDATE commits, then the serialization error is correctly
reported.)

When running a query in READ COMMITTED mode, what happens is that the
locking is aborted by the HeapTupleUpdated return value, then
EvalPlanQual fetches the newest version of the tuple, which is then the
only version that gets locked.  (The second time the tuple is checked
there is no misbehavior on the committed lock-only, because it's not
checked by the code that traverses update chains; so no bug.) Only the
newest version of the tuple is locked, not older ones, but this is
harmless.

The isolation test added by this commit illustrates the desired
behavior, including the proper serialization errors that get thrown.

Backpatch to 9.3.

11 years agoClear retry flags properly in replacement OpenSSL sock_write function.
Tom Lane [Thu, 5 Dec 2013 17:48:28 +0000 (12:48 -0500)]
Clear retry flags properly in replacement OpenSSL sock_write function.

Current OpenSSL code includes a BIO_clear_retry_flags() step in the
sock_write() function.  Either we failed to copy the code correctly, or
they added this since we copied it.  In any case, lack of the clear step
appears to be the cause of the server lockup after connection loss reported
in bug #8647 from Valentine Gogichashvili.  Assume that this is correct
coding for all OpenSSL versions, and hence back-patch to all supported
branches.

Diagnosis and patch by Alexander Kukushkin.

11 years agoAvoid resetting Xmax when it's a multi with an aborted update
Alvaro Herrera [Thu, 5 Dec 2013 15:21:55 +0000 (12:21 -0300)]
Avoid resetting Xmax when it's a multi with an aborted update

HeapTupleSatisfiesUpdate can very easily "forget" tuple locks while
checking the contents of a multixact and finding it contains an aborted
update, by setting the HEAP_XMAX_INVALID bit.  This would lead to
concurrent transactions not noticing any previous locks held by
transactions that might still be running, and thus being able to acquire
subsequent locks they wouldn't be normally able to acquire.

This bug was introduced in commit 1ce150b7bb; backpatch this fix to 9.3,
like that commit.

This change reverts the change to the delete-abort-savept isolation test
in 1ce150b7bb, because that behavior change was caused by this bug.

Noticed by Andres Freund while investigating a different issue reported
by Noah Misch.

11 years agobuild: pass EXTRA_REGRESS_OPTS to secondary regression tests
Bruce Momjian [Wed, 4 Dec 2013 15:14:45 +0000 (10:14 -0500)]
build:  pass EXTRA_REGRESS_OPTS to secondary regression tests

Christoph Berg

11 years agodoc: split long query into multiple lines
Bruce Momjian [Wed, 4 Dec 2013 15:03:13 +0000 (10:03 -0500)]
doc: split long query into multiple lines

Report from Erik Rijkers

11 years agoFix whitespace
Peter Eisentraut [Wed, 4 Dec 2013 03:57:08 +0000 (22:57 -0500)]
Fix whitespace

11 years agoDon't include unused space in LOG_NEWPAGE records.
Heikki Linnakangas [Tue, 3 Dec 2013 22:10:47 +0000 (00:10 +0200)]
Don't include unused space in LOG_NEWPAGE records.

This is the same trick we use when taking a full page image of a buffer
passed to XLogInsert.

11 years agoFix full-page writes of internal GIN pages.
Heikki Linnakangas [Tue, 3 Dec 2013 20:13:16 +0000 (22:13 +0200)]
Fix full-page writes of internal GIN pages.

Insertion to a non-leaf GIN page didn't make a full-page image of the page,
which is wrong. The code used to do it correctly, but was changed (commit
853d1c3103fa961ae6219f0281885b345593d101) because the redo-routine didn't
track incomplete splits correctly when the page was restored from a full
page image. Of course, that was not right way to fix it, the redo routine
should've been fixed instead. The redo-routine was surreptitiously fixed
in 2010 (commit 4016bdef8aded77b4903c457050622a5a1815c16), so all we need
to do now is revert the code that creates the record to its original form.

This doesn't change the format of the WAL record.

Backpatch to all supported versions.

11 years agoC comment: again update comment for pg_fe_sendauth for error cases
Bruce Momjian [Tue, 3 Dec 2013 16:42:18 +0000 (11:42 -0500)]
C comment:  again update comment for pg_fe_sendauth for error cases

11 years agoUpdate C comment for pg_fe_getauthname
Bruce Momjian [Tue, 3 Dec 2013 16:33:46 +0000 (11:33 -0500)]
Update C comment for pg_fe_getauthname

This function no longer takes an argument.

11 years agolibpq: change PQconndefaults() to ignore invalid service files
Bruce Momjian [Tue, 3 Dec 2013 16:11:56 +0000 (11:11 -0500)]
libpq:  change PQconndefaults() to ignore invalid service files

Previously missing or invalid service files returned NULL.  Also fix
pg_upgrade to report "out of memory" for a null return from
PQconndefaults().

Patch by Steve Singer, rewritten by me

11 years agodoc: Refine documentation about recovery command exist status
Peter Eisentraut [Tue, 3 Dec 2013 03:31:41 +0000 (22:31 -0500)]
doc: Refine documentation about recovery command exist status

Add more documentation about how different exit codes and signals are
handled in each case.

Reviewed-by: Peter Geoghegan <pg@heroku.com>
11 years agoReport exit code from external recovery commands properly
Peter Eisentraut [Wed, 13 Nov 2013 11:38:18 +0000 (06:38 -0500)]
Report exit code from external recovery commands properly

When an external recovery command such as restore_command or
archive_cleanup_command fails, report the exit code properly,
distinguishing signals and normal exists, using the existing
wait_result_to_str() facility, instead of just reporting the return
value from system().

Reviewed-by: Peter Geoghegan <pg@heroku.com>
11 years agoFix crash in assign_collations_walker for EXISTS with empty SELECT list.
Tom Lane [Tue, 3 Dec 2013 01:28:45 +0000 (20:28 -0500)]
Fix crash in assign_collations_walker for EXISTS with empty SELECT list.

We (I think I, actually) forgot about this corner case while coding
collation resolution.  Per bug #8648 from Arjen Nienhuis.

11 years agoUpdate release notes for 9.3.2, 9.2.6, 9.1.11, 9.0.15, 8.4.19.
Tom Lane [Mon, 2 Dec 2013 20:53:55 +0000 (15:53 -0500)]
Update release notes for 9.3.2, 9.2.6, 9.1.11, 9.0.15, 8.4.19.

11 years agodoc: update wording of ineffective SET and ABORT commands
Bruce Momjian [Mon, 2 Dec 2013 17:51:28 +0000 (12:51 -0500)]
doc:  update wording of ineffective SET and ABORT commands

Wording by Alvaro Herrera

11 years agoImprove draft release notes.
Tom Lane [Mon, 2 Dec 2013 17:17:46 +0000 (12:17 -0500)]
Improve draft release notes.

Per suggestions from Andres Freund.  Also fix spelling of
Sergey Burladyan's name.

11 years agoIncrease git_changelog's timestamp_slop from 10 min to 1 day.
Tom Lane [Mon, 2 Dec 2013 16:33:43 +0000 (11:33 -0500)]
Increase git_changelog's timestamp_slop from 10 min to 1 day.

Many committers seem to now be using a work flow in which back-patched
commits are timestamped minutes or even hours apart in different branches
(most likely because they commit in one branch before starting work on
the next one).  git_changelog was failing to merge its reports in such
cases, so increase the max time it's willing to merge commits across.
I considered getting rid of the limit altogether, but that produces
some odd results in terms of how the merged commit gets sorted relative
to unrelated commits.

11 years agoFlag mmap implemenation of dynamic shared memory as resize-capable.
Robert Haas [Mon, 2 Dec 2013 16:18:54 +0000 (11:18 -0500)]
Flag mmap implemenation of dynamic shared memory as resize-capable.

Error noted by Heikki Linnakangas

11 years agoMake NUM_TOCHAR_prepare and NUM_TOCHAR_finish macros declare "len".
Robert Haas [Mon, 2 Dec 2013 15:51:06 +0000 (10:51 -0500)]
Make NUM_TOCHAR_prepare and NUM_TOCHAR_finish macros declare "len".

Remove the variable from the enclosing scopes so that nothing can be
relying on it.  The net result of this refactoring is that we get rid
of a few unnecessary strlen() calls.

Original patch from Greg Jaskiewicz, substantially expanded by me.

11 years agoAvoid out-of-bounds read in errfinish if error_stack_depth < 0.
Robert Haas [Mon, 2 Dec 2013 15:40:33 +0000 (10:40 -0500)]
Avoid out-of-bounds read in errfinish if error_stack_depth < 0.

If errordata_stack_depth < 0, we won't find that out and correct the
problem until CHECK_STACK_DEPTH() is invoked.  In the meantime,
elevel will be set based on an invalid read.  This is probably
harmless in practice, but it seems cleaner this way.

Xi Wang

11 years agoTranslation updates
Peter Eisentraut [Mon, 2 Dec 2013 05:09:43 +0000 (00:09 -0500)]
Translation updates

11 years agoDraft release notes for 9.3.2.
Tom Lane [Sun, 1 Dec 2013 23:46:09 +0000 (18:46 -0500)]
Draft release notes for 9.3.2.

I'm putting these up for review before I start to extract the relevant
subsets for the older branches.  It'll be easier to make any suggested
wording improvements at this stage.

11 years agodoc: Disable preface.autolabel in XSLT
Peter Eisentraut [Sun, 1 Dec 2013 22:13:23 +0000 (17:13 -0500)]
doc: Disable preface.autolabel in XSLT

The makes the output more consistent with the existing DSSSL setup.

11 years agoUpdate time zone data files to tzdata release 2013h.
Tom Lane [Sun, 1 Dec 2013 19:11:44 +0000 (14:11 -0500)]
Update time zone data files to tzdata release 2013h.

DST law changes in Argentina, Brazil, Jordan, Libya, Liechtenstein,
Morocco, Palestine.  New timezone abbreviations WIB, WIT, WITA for
Indonesia.

11 years agoEditorial corrections to the October 2013 minor-release notes.
Tom Lane [Sat, 30 Nov 2013 21:57:12 +0000 (16:57 -0500)]
Editorial corrections to the October 2013 minor-release notes.

This is mostly to fix incorrect migration instructions: since the preceding
minor releases advised reindexing some GIST indexes, it's important that
we back-link to that advice rather than earlier instances.

Also improve some bug descriptions and fix a few typos.

No back-patch yet; these files will get copied into the back branches
later in the release process.

11 years agopg_upgrade: Handle default_transaction_read_only settings
Bruce Momjian [Sat, 30 Nov 2013 21:50:33 +0000 (16:50 -0500)]
pg_upgrade:  Handle default_transaction_read_only settings

Setting default_transaction_read_only=true could prevent pg_upgrade from
completing, so prepend default_transaction_read_only=false to
PGOPTIONS.

11 years agoFix pg_dumpall to work for databases flagged as read-only.
Kevin Grittner [Sat, 30 Nov 2013 17:24:56 +0000 (11:24 -0600)]
Fix pg_dumpall to work for databases flagged as read-only.

pg_dumpall's charter is to be able to recreate a database cluster's
contents in a virgin installation, but it was failing to honor that
contract if the cluster had any ALTER DATABASE SET
default_transaction_read_only settings.  By including a SET command
for the connection for each connection opened by pg_dumpall output,
errors are avoided and the source cluster is successfully
recreated.

There was discussion of whether to also set this for the connection
applying pg_dump output, but it was felt that it was both less
appropriate in that context, and far easier to work around.

Backpatch to all supported branches.

11 years agoRemove use of obsolescent Autoconf macros
Peter Eisentraut [Sat, 30 Nov 2013 14:17:08 +0000 (09:17 -0500)]
Remove use of obsolescent Autoconf macros

Remove the use of the following macros, which are obsolescent according
to the Autoconf documentation:

- AC_C_CONST
- AC_C_STRINGIZE
- AC_C_VOLATILE
- AC_FUNC_MEMCMP

11 years agodoc: Simplify handling of variablelists in XSLT build
Peter Eisentraut [Sat, 30 Nov 2013 03:42:47 +0000 (22:42 -0500)]
doc: Simplify handling of variablelists in XSLT build

The previously used custom template is no longer necessary because
parameters provided by the standard style sheet can achieve the same
outcome.

11 years agoFix a couple of bugs in MultiXactId freezing
Alvaro Herrera [Thu, 28 Nov 2013 22:17:21 +0000 (19:17 -0300)]
Fix a couple of bugs in MultiXactId freezing

Both heap_freeze_tuple() and heap_tuple_needs_freeze() neglected to look
into a multixact to check the members against cutoff_xid.  This means
that a very old Xid could survive hidden within a multi, possibly
outliving its CLOG storage.  In the distant future, this would cause
clog lookup failures:
ERROR:  could not access status of transaction 3883960912
DETAIL:  Could not open file "pg_clog/0E78": No such file or directory.

This mostly was problematic when the updating transaction aborted, since
in that case the row wouldn't get pruned away earlier in vacuum and the
multixact could possibly survive for a long time.  In many cases, data
that is inaccessible for this reason way can be brought back
heuristically.

As a second bug, heap_freeze_tuple() didn't properly handle multixacts
that need to be frozen according to cutoff_multi, but whose updater xid
is still alive.  Instead of preserving the update Xid, it just set Xmax
invalid, which leads to both old and new tuple versions becoming
visible.  This is pretty rare in practice, but a real threat
nonetheless.  Existing corrupted rows, unfortunately, cannot be repaired
in an automated fashion.

Existing physical replicas might have already incorrectly frozen tuples
because of different behavior than in master, which might only become
apparent in the future once pg_multixact/ is truncated; it is
recommended that all clones be rebuilt after upgrading.

Following code analysis caused by bug report by J Smith in message
CADFUPgc5bmtv-yg9znxV-vcfkb+JPRqs7m2OesQXaM_4Z1JpdQ@mail.gmail.com
and privately by F-Secure.

Backpatch to 9.3, where freezing of MultiXactIds was introduced.

Analysis and patch by Andres Freund, with some tweaks by Álvaro.

11 years agoDon't TransactionIdDidAbort in HeapTupleGetUpdateXid
Alvaro Herrera [Fri, 29 Nov 2013 19:08:06 +0000 (16:08 -0300)]
Don't TransactionIdDidAbort in HeapTupleGetUpdateXid

It is dangerous to do so, because some code expects to be able to see what's
the true Xmax even if it is aborted (particularly while traversing HOT
chains).  So don't do it, and instead rely on the callers to verify for
abortedness, if necessary.

Several race conditions and bugs fixed in the process.  One isolation test
changes the expected output due to these.

This also reverts commit c235a6a589b, which is no longer necessary.

Backpatch to 9.3, where this function was introduced.

Andres Freund

11 years agoTruncate pg_multixact/'s contents during crash recovery
Alvaro Herrera [Fri, 29 Nov 2013 14:26:41 +0000 (11:26 -0300)]
Truncate pg_multixact/'s contents during crash recovery

Commit 9dc842f08 of 8.2 era prevented MultiXact truncation during crash
recovery, because there was no guarantee that enough state had been
setup, and because it wasn't deemed to be a good idea to remove data
during crash recovery anyway.  Since then, due to Hot-Standby, streaming
replication and PITR, the amount of time a cluster can spend doing crash
recovery has increased significantly, to the point that a cluster may
even never come out of it.  This has made not truncating the content of
pg_multixact/ not defensible anymore.

To fix, take care to setup enough state for multixact truncation before
crash recovery starts (easy since checkpoints contain the required
information), and move the current end-of-recovery actions to a new
TrimMultiXact() function, analogous to TrimCLOG().

At some later point, this should probably done similarly to the way
clog.c is doing it, which is to just WAL log truncations, but we can't
do that for the back branches.

Back-patch to 9.0.  8.4 also has the problem, but since there's no hot
standby there, it's much less pressing.  In 9.2 and earlier, this patch
is simpler than in newer branches, because multixact access during
recovery isn't required.  Add appropriate checks to make sure that's not
happening.

Andres Freund

11 years agoFix full-table-vacuum request mechanism for MultiXactIds
Alvaro Herrera [Thu, 28 Nov 2013 19:52:54 +0000 (16:52 -0300)]
Fix full-table-vacuum request mechanism for MultiXactIds

While autovacuum dutifully launched anti-multixact-wraparound vacuums
when the multixact "age" was reached, the vacuum code was not aware that
it needed to make them be full table vacuums.  As the resulting
partial-table vacuums aren't capable of actually increasing relminmxid,
autovacuum continued to launch anti-wraparound vacuums that didn't have
the intended effect, until age of relfrozenxid caused the vacuum to
finally be a full table one via vacuum_freeze_table_age.

To fix, introduce logic for multixacts similar to that for plain
TransactionIds, using the same GUCs.

Backpatch to 9.3, where permanent MultiXactIds were introduced.

Andres Freund, some cleanup by Álvaro

11 years agoReplace hardcoded 200000000 with autovacuum_freeze_max_age
Alvaro Herrera [Thu, 28 Nov 2013 19:45:29 +0000 (16:45 -0300)]
Replace hardcoded 200000000 with autovacuum_freeze_max_age

Parts of the code used autovacuum_freeze_max_age to determine whether
anti-multixact-wraparound vacuums are necessary, while others used a
hardcoded 200000000 value.  This leads to problems when
autovacuum_freeze_max_age is set to a non-default value.  Use the latter
everywhere.

Backpatch to 9.3, where vacuuming of multixacts was introduced.

Andres Freund

11 years agoFix assorted issues in pg_ctl's pgwin32_CommandLine().
Tom Lane [Fri, 29 Nov 2013 23:34:07 +0000 (18:34 -0500)]
Fix assorted issues in pg_ctl's pgwin32_CommandLine().

Ensure that the invocation command for postgres or pg_ctl runservice
double-quotes the executable's pathname; failure to do this leads to
trouble when the path contains spaces.

Also, ensure that the path ends in ".exe" in both cases and uses
backslashes rather than slashes as directory separators.  The latter issue
is reported to confuse some third-party tools such as Symantec Backup Exec.

Also, rewrite the function to avoid buffer overrun issues by using a
PQExpBuffer instead of a fixed-size static buffer.  Combinations of
very long executable pathnames and very long data directory pathnames
could have caused trouble before, for example.

Back-patch to all active branches, since this code has been like this
for a long while.

Naoya Anzai and Tom Lane, reviewed by Rajeev Rastogi

11 years agoBe sure to release proc->backendLock after SetupLockInTable() failure.
Tom Lane [Fri, 29 Nov 2013 22:35:09 +0000 (17:35 -0500)]
Be sure to release proc->backendLock after SetupLockInTable() failure.

The various places that transferred fast-path locks to the main lock table
neglected to release the PGPROC's backendLock if SetupLockInTable failed
due to being out of shared memory.  In most cases this is no big deal since
ensuing error cleanup would release all held LWLocks anyway.  But there are
some hot-standby functions that don't consider failure of
FastPathTransferRelationLocks to be a hard error, and in those cases this
oversight could lead to system lockup.  For consistency, make all of these
places look the same as FastPathTransferRelationLocks.

Noted while looking for the cause of Dan Wood's bugs --- this wasn't it,
but it's a bug anyway.

11 years agoFix assorted race conditions in the new timeout infrastructure.
Tom Lane [Fri, 29 Nov 2013 21:41:00 +0000 (16:41 -0500)]
Fix assorted race conditions in the new timeout infrastructure.

Prevent handle_sig_alarm from losing control partway through due to a query
cancel (either an asynchronous SIGINT, or a cancel triggered by one of the
timeout handler functions).  That would at least result in failure to
schedule any required future interrupt, and might result in actual
corruption of timeout.c's data structures, if the interrupt happened while
we were updating those.

We could still lose control if an asynchronous SIGINT arrives just as the
function is entered.  This wouldn't break any data structures, but it would
have the same effect as if the SIGALRM interrupt had been silently lost:
we'd not fire any currently-due handlers, nor schedule any new interrupt.
To forestall that scenario, forcibly reschedule any pending timer interrupt
during AbortTransaction and AbortSubTransaction.  We can avoid any extra
kernel call in most cases by not doing that until we've allowed
LockErrorCleanup to kill the DEADLOCK_TIMEOUT and LOCK_TIMEOUT events.

Another hazard is that some platforms (at least Linux and *BSD) block a
signal before calling its handler and then unblock it on return.  When we
longjmp out of the handler, the unblock doesn't happen, and the signal is
left blocked indefinitely.  Again, we can fix that by forcibly unblocking
signals during AbortTransaction and AbortSubTransaction.

These latter two problems do not manifest when the longjmp reaches
postgres.c, because the error recovery code there kills all pending timeout
events anyway, and it uses sigsetjmp(..., 1) so that the appropriate signal
mask is restored.  So errors thrown outside any transaction should be OK
already, and cleaning up in AbortTransaction and AbortSubTransaction should
be enough to fix these issues.  (We're assuming that any code that catches
a query cancel error and doesn't re-throw it will do at least a
subtransaction abort to clean up; but that was pretty much required already
by other subsystems.)

Lastly, ProcSleep should not clear the LOCK_TIMEOUT indicator flag when
disabling that event: if a lock timeout interrupt happened after the lock
was granted, the ensuing query cancel is still going to happen at the next
CHECK_FOR_INTERRUPTS, and we want to report it as a lock timeout not a user
cancel.

Per reports from Dan Wood.

Back-patch to 9.3 where the new timeout handling infrastructure was
introduced.  We may at some point decide to back-patch the signal
unblocking changes further, but I'll desist from that until we hear
actual field complaints about it.

11 years agodoc: Enhance documentation of ssl_ciphers setting a bit
Peter Eisentraut [Fri, 29 Nov 2013 14:06:28 +0000 (09:06 -0500)]
doc: Enhance documentation of ssl_ciphers setting a bit

11 years agodoc: Allow selecting web site CSS style sheet in XSLT HTML build
Peter Eisentraut [Fri, 29 Nov 2013 03:45:08 +0000 (22:45 -0500)]
doc: Allow selecting web site CSS style sheet in XSLT HTML build

11 years agoRefine our definition of what constitutes a system relation.
Robert Haas [Fri, 29 Nov 2013 01:57:20 +0000 (20:57 -0500)]
Refine our definition of what constitutes a system relation.

Although user-defined relations can't be directly created in
pg_catalog, it's possible for them to end up there, because you can
create them in some other schema and then use ALTER TABLE .. SET SCHEMA
to move them there.  Previously, such relations couldn't afterwards
be manipulated, because IsSystemRelation()/IsSystemClass() rejected
all attempts to modify objects in the pg_catalog schema, regardless
of their origin.  With this patch, they now reject only those
objects in pg_catalog which were created at initdb-time, allowing
most operations on user-created tables in pg_catalog to proceed
normally.

This patch also adds new functions IsCatalogRelation() and
IsCatalogClass(), which is similar to IsSystemRelation() and
IsSystemClass() but with a slightly narrower definition: only TOAST
tables of system catalogs are included, rather than *all* TOAST tables.
This is currently used only for making decisions about when
invalidation messages need to be sent, but upcoming logical decoding
patches will find other uses for this information.

Andres Freund, with some modifications by me.

11 years agoAnother gin_desc fix.
Heikki Linnakangas [Thu, 28 Nov 2013 21:35:50 +0000 (23:35 +0200)]
Another gin_desc fix.

The number of items inserted was incorrectly printed as if it was a boolean.

11 years agoFix gin_desc routine to match the WAL format.
Heikki Linnakangas [Thu, 28 Nov 2013 19:54:49 +0000 (21:54 +0200)]
Fix gin_desc routine to match the WAL format.

In the GIN incomplete-splits patch, I used BlockIdDatas to store the block
number of left and right children, when inserting a downlink after a split
to an internal page posting list page. But gin_desc thought they were stored
as BlockNumbers.

11 years agoFix latent(?) race condition in LockReleaseAll.
Tom Lane [Thu, 28 Nov 2013 17:17:46 +0000 (12:17 -0500)]
Fix latent(?) race condition in LockReleaseAll.

We have for a long time checked the head pointer of each of the backend's
proclock lists and skipped acquiring the corresponding locktable partition
lock if the head pointer was NULL.  This was safe enough in the days when
proclock lists were changed only by the owning backend, but it is pretty
questionable now that the fast-path patch added cases where backends add
entries to other backends' proclock lists.  However, we don't really wish
to revert to locking each partition lock every time, because in simple
transactions that would add a lot of useless lock/unlock cycles on
already-heavily-contended LWLocks.  Fortunately, the only way that another
backend could be modifying our proclock list at this point would be if it
was promoting a formerly fast-path lock of ours; and any such lock must be
one that we'd decided not to delete in the previous loop over the locallock
table.  So it's okay if we miss seeing it in this loop; we'd just decide
not to delete it again.  However, once we've detected a non-empty list,
we'd better re-fetch the list head pointer after acquiring the partition
lock.  This guards against possibly fetching a corrupt-but-non-null pointer
if pointer fetch/store isn't atomic.  It's not clear if any practical
architectures are like that, but we've never assumed that before and don't
wish to start here.  In any case, the situation certainly deserves a code
comment.

While at it, refactor the partition traversal loop to use a for() construct
instead of a while() loop with goto's.

Back-patch, just in case the risk is real and not hypothetical.

11 years agoUnbreak buildfarm
Alvaro Herrera [Thu, 28 Nov 2013 15:59:45 +0000 (12:59 -0300)]
Unbreak buildfarm

I removed an intermediate commit before pushing and forgot to test the
resulting tree :-(

11 years agoUse a more granular approach to follow update chains
Alvaro Herrera [Wed, 27 Nov 2013 20:50:33 +0000 (17:50 -0300)]
Use a more granular approach to follow update chains

Instead of simply checking the KEYS_UPDATED bit, we need to check
whether each lock held on the future version of the tuple conflicts with
the lock we're trying to acquire.

Per bug report #8434 by Tomonari Katsumata

11 years agoCompare Xmin to previous Xmax when locking an update chain
Alvaro Herrera [Wed, 27 Nov 2013 20:49:12 +0000 (17:49 -0300)]
Compare Xmin to previous Xmax when locking an update chain

Not doing so causes us to traverse an update chain that has been broken
by concurrent page pruning.  All other code that traverses update chains
uses this check as one of the cases in which to stop iterating, so
replicate it here too.  Failure to do so leads to erroneous CLOG,
subtrans or multixact lookups.

Per discussion following the bug report by J Smith in
CADFUPgc5bmtv-yg9znxV-vcfkb+JPRqs7m2OesQXaM_4Z1JpdQ@mail.gmail.com
as diagnosed by Andres Freund.

11 years agoDon't try to set InvalidXid as page pruning hint
Alvaro Herrera [Wed, 27 Nov 2013 20:47:16 +0000 (17:47 -0300)]
Don't try to set InvalidXid as page pruning hint

If a transaction updates/deletes a tuple just before aborting, and a
concurrent transaction tries to prune the page concurrently, the pruner
may see HeapTupleSatisfiesVacuum return HEAPTUPLE_DELETE_IN_PROGRESS,
but a later call to HeapTupleGetUpdateXid() return InvalidXid.  This
would cause an assertion failure in development builds, but would be
otherwise Mostly Harmless.

Fix by checking whether the updater Xid is valid before trying to apply
it as page prune point.

Reported by Andres in 20131124000203.GA4403@alap2.anarazel.de

11 years agoCope with heap_fetch failure while locking an update chain
Alvaro Herrera [Wed, 27 Nov 2013 20:45:25 +0000 (17:45 -0300)]
Cope with heap_fetch failure while locking an update chain

The reason for the fetch failure is that the tuple was removed because
it was dead; so the failure is innocuous and can be ignored.  Moreover,
there's no need for further work and we can return success to the caller
immediately.  EvalPlanQualFetch is doing something very similar to this
already.

Report and test case from Andres Freund in
20131124000203.GA4403@alap2.anarazel.de

11 years agodoc: Set chunk.first.sections in XSLT, for consistency with DSSSL output
Peter Eisentraut [Thu, 28 Nov 2013 03:22:40 +0000 (22:22 -0500)]
doc: Set chunk.first.sections in XSLT, for consistency with DSSSL output

11 years agopg_buffercache docs: adjust order of fields
Bruce Momjian [Thu, 28 Nov 2013 03:33:45 +0000 (22:33 -0500)]
pg_buffercache docs: adjust order of fields

Adjust order of fields to match view order.

Jaime Casanova

11 years agodoc: Put data types in alphabetical order
Peter Eisentraut [Thu, 28 Nov 2013 02:50:27 +0000 (21:50 -0500)]
doc: Put data types in alphabetical order

From: Andreas Karlsson <andreas@proxel.se>

11 years agoFix stale-pointer problem in fast-path locking logic.
Tom Lane [Wed, 27 Nov 2013 23:10:00 +0000 (18:10 -0500)]
Fix stale-pointer problem in fast-path locking logic.

When acquiring a lock in fast-path mode, we must reset the locallock
object's lock and proclock fields to NULL.  They are not necessarily that
way to start with, because the locallock could be left over from a failed
lock acquisition attempt earlier in the transaction.  Failure to do this
led to all sorts of interesting misbehaviors when LockRelease tried to
clean up no-longer-related lock and proclock objects in shared memory.
Per report from Dan Wood.

In passing, modify LockRelease to elog not just Assert if it doesn't find
lock and proclock objects for a formerly fast-path lock, matching the code
in FastPathGetRelationLockEntry and LockRefindAndRelease.  This isn't a
bug but it will help in diagnosing any future bugs in this area.

Also, modify FastPathTransferRelationLocks and FastPathGetRelationLockEntry
to break out of their loops over the fastpath array once they've found the
sole matching entry.  This was inconsistently done in some search loops
and not others.

Improve assorted related comments, too.

Back-patch to 9.2 where the fast-path mechanism was introduced.

11 years agoMinor correction of READ COMMITTED isolation level docs.
Kevin Grittner [Wed, 27 Nov 2013 20:34:12 +0000 (14:34 -0600)]
Minor correction of READ COMMITTED isolation level docs.

Per report from AK

11 years agoMinor corrections in lmgr/README.
Tom Lane [Wed, 27 Nov 2013 20:07:13 +0000 (15:07 -0500)]
Minor corrections in lmgr/README.

Correct an obsolete statement that no backend touches another backend's
PROCLOCK lists.  This was probably wrong even when written (the deadlock
checker looks at everybody's lists), and it's certainly quite wrong now
that fast-path locking can require creation of lock and proclock objects
on behalf of another backend.  Also improve some statements in the hot
standby explanation, and do one or two other trivial bits of wordsmithing/
reformatting.

11 years agoGet rid of the post-recovery cleanup step of GIN page splits.
Heikki Linnakangas [Wed, 27 Nov 2013 17:21:23 +0000 (19:21 +0200)]
Get rid of the post-recovery cleanup step of GIN page splits.

Replace it with an approach similar to what GiST uses: when a page is split,
the left sibling is marked with a flag indicating that the parent hasn't been
updated yet. When the parent is updated, the flag is cleared. If an insertion
steps on a page with the flag set, it will finish split before proceeding
with the insertion.

The post-recovery cleanup mechanism was never totally reliable, as insertion
to the parent could fail e.g because of running out of memory or disk space,
leaving the tree in an inconsistent state.

This also divides the responsibility of WAL-logging more clearly between
the generic ginbtree.c code, and the parts specific to entry and posting
trees. There is now a common WAL record format for insertions and deletions,
which is written by ginbtree.c, followed by tree-specific payload, which is
returned by the placetopage- and split- callbacks.

11 years agoMore GIN refactoring.
Heikki Linnakangas [Wed, 27 Nov 2013 13:43:05 +0000 (15:43 +0200)]
More GIN refactoring.

Separate the insertion payload from the more static portions of GinBtree.
GinBtree now only contains information related to searching the tree, and
the information of what to insert is passed separately.

Add root block number to GinBtree, instead of passing it around all the
functions as argument.

Split off ginFinishSplit() from ginInsertValue(). ginFinishSplit is
responsible for finding the parent and inserting the downlink to it.

11 years agoFix plpython3 expected output.
Heikki Linnakangas [Wed, 27 Nov 2013 12:22:33 +0000 (14:22 +0200)]
Fix plpython3 expected output.

I neglected this in the previous commit that updated the plpython2 output,
which I forgot to "git add" earlier.

As pointed out by Rodolfo Campero and Marko Kreen.

11 years agoDon't update relfrozenxid if any pages were skipped.
Heikki Linnakangas [Wed, 27 Nov 2013 11:10:16 +0000 (13:10 +0200)]
Don't update relfrozenxid if any pages were skipped.

Vacuum recognizes that it can update relfrozenxid by checking whether it has
processed all pages of a relation. Unfortunately it performed that check
after truncating the dead pages at the end of the relation, and used the new
number of pages to decide whether all pages have been scanned. If the new
number of pages happened to be smaller or equal to the number of pages
scanned, it incorrectly decided that all pages were scanned.

This can lead to relfrozenxid being updated, even though some pages were
skipped that still contain old XIDs. That can lead to data loss due to xid
wraparounds with some rows suddenly missing. This likely has escaped notice
so far because it takes a large number (~2^31) of xids being used to see the
effect, while a full-table vacuum before that would fix the issue.

The incorrect logic was introduced by commit
b4b6923e03f4d29636a94f6f4cc2f5cf6298b8c8. Backpatch this fix down to 8.4,
like that commit.

Andres Freund, with some modifications by me.

11 years agoDocumentation fix for ecpg.
Michael Meskes [Wed, 27 Nov 2013 10:03:59 +0000 (11:03 +0100)]
Documentation fix for ecpg.

The latest fixes removed a limitation that was still in the docs, so Zoltan updated the docs, too.

11 years agoECPG: Fix searching for quoted cursor names case-sensitively.
Michael Meskes [Wed, 27 Nov 2013 10:02:13 +0000 (11:02 +0100)]
ECPG: Fix searching for quoted cursor names case-sensitively.

Patch by Böszörményi Zoltán <zb@cybertec.at>

11 years agoAdd --xlogdir option to pg_basebackup, for specifying the pg_xlog directory.
Fujii Masao [Wed, 27 Nov 2013 05:00:16 +0000 (14:00 +0900)]
Add --xlogdir option to pg_basebackup, for specifying the pg_xlog directory.

Haribabu kommi, slightly modified by me.

11 years agoFix typo in release note.
Fujii Masao [Wed, 27 Nov 2013 04:45:41 +0000 (13:45 +0900)]
Fix typo in release note.

Backpatch to 9.1.

Josh Kupershmidt

11 years agoImplement information_schema.parameters.parameter_default column
Peter Eisentraut [Wed, 27 Nov 2013 04:18:58 +0000 (23:18 -0500)]
Implement information_schema.parameters.parameter_default column

Reviewed-by: Ali Dar <ali.munir.dar@gmail.com>
Reviewed-by: Amit Khandekar <amit.khandekar@enterprisedb.com>
Reviewed-by: Rodolfo Campero <rodolfo.campero@anachronics.com>
11 years agodoc: Add id to index in XSLT build
Peter Eisentraut [Wed, 27 Nov 2013 04:02:40 +0000 (23:02 -0500)]
doc: Add id to index in XSLT build

That way, the HTML file name of the index will be the same as currently
for the DSSSL build.

11 years agoOops, forgot to "git add" last minute changes to regression test.
Heikki Linnakangas [Tue, 26 Nov 2013 21:05:28 +0000 (23:05 +0200)]
Oops, forgot to "git add" last minute changes to regression test.

11 years agoECPG: Fix offset to NULL/size indicator array.
Michael Meskes [Tue, 26 Nov 2013 16:16:39 +0000 (17:16 +0100)]
ECPG: Fix offset to NULL/size indicator array.

Patch by Boszormenyi Zoltan <zb@cybertec.at>

11 years agoECPG: Simplify free_variable()
Michael Meskes [Tue, 26 Nov 2013 16:15:44 +0000 (17:15 +0100)]
ECPG: Simplify free_variable()

Patch by Boszormenyi Zoltan <zb@cybertec.at>

11 years agoECPG: Add EXEC SQL CLOSE C to the tests.
Michael Meskes [Tue, 26 Nov 2013 16:15:15 +0000 (17:15 +0100)]
ECPG: Add EXEC SQL CLOSE C to the tests.

Patch by Boszormenyi Zoltan <zb@cybertec.at>

11 years agoECPG: Free the malloc()'ed variables in the test so it comes out clean on
Michael Meskes [Tue, 26 Nov 2013 16:14:07 +0000 (17:14 +0100)]
ECPG: Free the malloc()'ed variables in the test so it comes out clean on
Valgrind runs.

Patch by Boszormenyi Zoltan <zb@cybertec.at>

11 years agoECPG: Make the preprocessor emit ';' if the variable type for a list of
Michael Meskes [Tue, 26 Nov 2013 16:12:39 +0000 (17:12 +0100)]
ECPG: Make the preprocessor emit ';' if the variable type for a list of
variables is varchar. This fixes this test case:

int main(void)
{
    exec sql begin declare section;
    varchar a[50], b[50];
    exec sql end declare section;

    return 0;
}

Since varchars are internally turned into custom structs and
the type name is emitted for these variable declarations,
the preprocessed code previously had:

struct varchar_1  { ... }  a _,_  struct varchar_2  { ... }  b ;

The comma in the generated C file was a syntax error.

There are no regression test changes since it's not exercised.

Patch by Boszormenyi Zoltan <zb@cybertec.at>

11 years agoHandle domains over arrays like plain arrays in PL/python.
Heikki Linnakangas [Tue, 26 Nov 2013 12:22:38 +0000 (14:22 +0200)]
Handle domains over arrays like plain arrays in PL/python.

Domains over arrays are now converted to/from python lists when passed as
arguments or return values. Like regular arrays.

This has some potential to break applications that rely on the old behavior
that they are passed as strings, but in practice there probably aren't many
such applications out there.

Rodolfo Campero

11 years agoAdd missing entry for session_preload_libraries in sample config.
Jeff Davis [Tue, 26 Nov 2013 05:00:37 +0000 (21:00 -0800)]
Add missing entry for session_preload_libraries in sample config.

The omission was apparently an oversight in the original patch.

11 years agoChange SET LOCAL/CONSTRAINTS/TRANSACTION and ABORT behavior
Bruce Momjian [Tue, 26 Nov 2013 00:19:40 +0000 (19:19 -0500)]
Change SET LOCAL/CONSTRAINTS/TRANSACTION and ABORT behavior

Change SET LOCAL/CONSTRAINTS/TRANSACTION behavior outside of a
transaction block from error (post-9.3) to warning.  (Was nothing in <=
9.3.)  Also change ABORT outside of a transaction block from notice to
warning.

11 years agoMore improvement to comment parsing in ecpg.
Michael Meskes [Mon, 25 Nov 2013 14:29:51 +0000 (15:29 +0100)]
More improvement to comment parsing in ecpg.

ECPG is not supposed to allow and output nested comments in C. These comments
are only allowed in the SQL parts and must not be written into the C file.
Also the different handling of different comments is documented.

11 years agoFix ecpg parsing of sizeof().
Michael Meskes [Mon, 25 Nov 2013 14:11:39 +0000 (15:11 +0100)]
Fix ecpg parsing of sizeof().

The last fix used the wrong non-terminal to define valid types.

11 years agoLessen library-loading log level.
Jeff Davis [Sun, 24 Nov 2013 18:50:54 +0000 (10:50 -0800)]
Lessen library-loading log level.

Previously, messages were emitted at the LOG level every time a
backend preloaded a library. That was acceptable (though unnecessary)
for shared_preload_libraries; but it was excessive for
local_preload_libraries and session_preload_libraries. Reduce to
DEBUG1.

Also, there was logic in the EXEC_BACKEND case to avoid repeated
messages for shared_preload_libraries by demoting them to
DEBUG2. DEBUG1 seems more appropriate there, as well, so eliminate
that special case.

Peter Geoghegan.

11 years agoFix new and latent bugs with errno handling in secure_read/secure_write.
Tom Lane [Sun, 24 Nov 2013 18:09:38 +0000 (13:09 -0500)]
Fix new and latent bugs with errno handling in secure_read/secure_write.

These functions must be careful that they return the intended value of
errno to their callers.  There were several scenarios where this might
not happen:

1. The recent SSL renegotiation patch added a hunk of code that would
execute after setting errno.  In the first place, it's doubtful that we
should consider renegotiation to be successfully completed after a failure,
and in the second, there's no real guarantee that the called OpenSSL
routines wouldn't clobber errno.  Fix by not executing that hunk except
during success exit.

2. errno was left in an unknown state in case of an unrecognized return
code from SSL_get_error().  While this is a "can't happen" case, it seems
like a good idea to be sure we know what would happen, so reset errno to
ECONNRESET in such cases.  (The corresponding code in libpq's fe-secure.c
already did this.)

3. There was an (undocumented) assumption that client_read_ended() wouldn't
change errno.  While true in the current state of the code, this seems less
than future-proof.  Add explicit saving/restoring of errno to make sure
that changes in the called functions won't break things.

I see no need to back-patch, since #1 is new code and the other two issues
are mostly hypothetical.

Per discussion with Amit Kapila.

11 years agoAllow C array definitions to use sizeof().
Michael Meskes [Sun, 24 Nov 2013 11:51:21 +0000 (12:51 +0100)]
Allow C array definitions to use sizeof().

When parsing C variable definitions ecpg should allow sizeof() operators as array dimensions.

11 years agoDistinguish between C and SQL mode for C-style comments.
Michael Meskes [Sun, 24 Nov 2013 11:26:00 +0000 (12:26 +0100)]
Distinguish between C and SQL mode for C-style comments.

SQL standard asks for allowing nested comments, while C does not. Therefore the
two comments, while mostly similar, have to be parsed seperately.

11 years agoDefend against bad trigger definitions in contrib/lo's lo_manage() trigger.
Tom Lane [Sun, 24 Nov 2013 03:45:46 +0000 (22:45 -0500)]
Defend against bad trigger definitions in contrib/lo's lo_manage() trigger.

This function formerly crashed if called as a statement-level trigger,
or if a column-name argument wasn't given.

In passing, add the trigger name to all error messages from the function.
(None of them are expected cases, so this shouldn't pose any compatibility
risk.)

Marc Cousin, reviewed by Sawada Masahiko

11 years agoPL/Tcl: Add event trigger support
Peter Eisentraut [Sun, 24 Nov 2013 02:32:00 +0000 (21:32 -0500)]
PL/Tcl: Add event trigger support

From: Dimitri Fontaine <dimitri@2ndQuadrant.fr>

11 years agoFix array slicing of int2vector and oidvector values.
Tom Lane [Sun, 24 Nov 2013 01:03:56 +0000 (20:03 -0500)]
Fix array slicing of int2vector and oidvector values.

The previous coding labeled expressions such as pg_index.indkey[1:3] as
being of int2vector type; which is not right because the subscript bounds
of such a result don't, in general, satisfy the restrictions of int2vector.
To fix, implicitly promote the result of slicing int2vector to int2[],
or oidvector to oid[].  This is similar to what we've done with domains
over arrays, which is a good analogy because these types are very much
like restricted domains of the corresponding regular-array types.

A side-effect is that we now also forbid array-element updates on such
columns, eg while "update pg_index set indkey[4] = 42" would have worked
before if you were superuser (and corrupted your catalogs irretrievably,
no doubt) it's now disallowed.  This seems like a good thing since, again,
some choices of subscripting would've led to results not satisfying the
restrictions of int2vector.  The case of an array-slice update was
rejected before, though with a different error message than you get now.
We could make these cases work in future if we added a cast from int2[]
to int2vector (with a cast function checking the subscript restrictions)
but it seems unlikely that there's any value in that.

Per report from Ronan Dunklau.  Back-patch to all supported branches
because of the crash risks involved.

11 years agoEnsure _dosmaperr() actually sets errno correctly.
Tom Lane [Sat, 23 Nov 2013 23:24:26 +0000 (18:24 -0500)]
Ensure _dosmaperr() actually sets errno correctly.

If logging is enabled, either ereport() or fprintf() might stomp on errno
internally, causing this function to return the wrong result.  That might
only end in a misleading error report, but in any code that's examining
errno to decide what to do next, the consequences could be far graver.

This has been broken since the very first version of this file in 2006
... it's a bit astonishing that we didn't identify this long ago.

Reported by Amit Kapila, though this isn't his proposed fix.

11 years agoFix thinko in SPI_execute_plan() calls
Peter Eisentraut [Sat, 23 Nov 2013 14:34:57 +0000 (09:34 -0500)]
Fix thinko in SPI_execute_plan() calls

Two call sites were apparently thinking that the last argument of
SPI_execute_plan() is the number of query parameters, but it is actually
the row limit.  Change the calls to 0, since we don't care about the
limit there.  The previous code didn't break anything, but it was still
wrong.

11 years agoAvoid potential buffer overflow crash
Peter Eisentraut [Sat, 23 Nov 2013 12:25:37 +0000 (07:25 -0500)]
Avoid potential buffer overflow crash

A pointer to a C string was treated as a pointer to a "name" datum and
passed to SPI_execute_plan().  This pointer would then end up being
passed through datumCopy(), which would try to copy the entire 64 bytes
of name data, thus running past the end of the C string.  Fix by
converting the string to a proper name structure.

Found by LLVM AddressSanitizer.

11 years agoFlatten join alias Vars before pulling up targetlist items from a subquery.
Tom Lane [Fri, 22 Nov 2013 19:37:21 +0000 (14:37 -0500)]
Flatten join alias Vars before pulling up targetlist items from a subquery.

pullup_replace_vars()'s decisions about whether a pulled-up replacement
expression needs to be wrapped in a PlaceHolderVar depend on the assumption
that what looks like a Var behaves like a Var.  However, if the Var is a
join alias reference, later flattening of join aliases might replace the
Var with something that's not a Var at all, and should have been wrapped.

To fix, do a forcible pass of flatten_join_alias_vars() on the subquery
targetlist before we start to copy items out of it.  We'll re-run that
processing on the pulled-up expressions later, but that's harmless.

Per report from Ken Tanzer; the added regression test case is based on his
example.  This bug has been there since the PlaceHolderVar mechanism was
invented, but has escaped detection because the circumstances that trigger
it are fairly narrow.  You need a flattenable query underneath an outer
join, which contains another flattenable query inside a join of its own,
with a dangerous expression (a constant or something else non-strict)
in that one's targetlist.

Having seen this, I'm wondering if it wouldn't be prudent to do all
alias-variable flattening earlier, perhaps even in the rewriter.
But that would probably not be a back-patchable change.

11 years agoFix quoting in help messages in uuid-ossp extension scripts.
Tom Lane [Fri, 22 Nov 2013 17:07:53 +0000 (12:07 -0500)]
Fix quoting in help messages in uuid-ossp extension scripts.

The command we're telling people to type needs to include double-quoting
around the unfortunately-chosen extension name.  Twiddle the textual
quoting so that it looks somewhat sane.  Per gripe from roadrunner6.

11 years agoFix Hot-Standby initialization of clog and subtrans.
Heikki Linnakangas [Fri, 22 Nov 2013 12:38:59 +0000 (14:38 +0200)]
Fix Hot-Standby initialization of clog and subtrans.

These bugs can cause data loss on standbys started with hot_standby=on at
the moment they start to accept read only queries, by marking committed
transactions as uncommited. The likelihood of such corruptions is small
unless the primary has a high transaction rate.

5a031a5556ff83b8a9646892715d7fef415b83c3 fixed bugs in HS's startup logic
by maintaining less state until at least STANDBY_SNAPSHOT_PENDING state
was reached, missing the fact that both clog and subtrans are written to
before that. This only failed to fail in common cases because the usage
of ExtendCLOG in procarray.c was superflous since clog extensions are
actually WAL logged.

f44eedc3f0f347a856eea8590730769125964597/I then tried to fix the missing
extensions of pg_subtrans due to the former commit's changes - which are
not WAL logged - by performing the extensions when switching to a state
> STANDBY_INITIALIZED and not performing xid assignments before that -
again missing the fact that ExtendCLOG is unneccessary - but screwed up
twice: Once because latestObservedXid wasn't updated anymore in that
state due to the earlier commit and once by having an off-by-one error in
the loop performing extensions. This means that whenever a
CLOG_XACTS_PER_PAGE (32768 with default settings) boundary was crossed
between the start of the checkpoint recovery started from and the first
xl_running_xact record old transactions commit bits in pg_clog could be
overwritten if they started and committed in that window.

Fix this mess by not performing ExtendCLOG() in HS at all anymore since
it's unneeded and evidently dangerous and by performing subtrans
extensions even before reaching STANDBY_SNAPSHOT_PENDING.

Analysis and patch by Andres Freund. Reported by Christophe Pettus.
Backpatch down to 9.0, like the previous commit that caused this.

11 years agoAvoid acquiring spinlock when checking if recovery has finished, for speed.
Heikki Linnakangas [Fri, 22 Nov 2013 10:53:59 +0000 (12:53 +0200)]
Avoid acquiring spinlock when checking if recovery has finished, for speed.

RecoveryIsInProgress() can be called very frequently. During normal
operation, it just checks a backend-local variable and returns quickly,
but during hot standby, it checks a spinlock-protected shared variable.
Those spinlock acquisitions can become a point of contention on a busy
hot standby system.

Replace the spinlock acquisition with a memory barrier.

Per discussion with Andres Freund, Ants Aasma and Merlin Moncure.

11 years agoTweak streamutil.c further to avoid scan-build warning
Peter Eisentraut [Fri, 22 Nov 2013 02:46:43 +0000 (21:46 -0500)]
Tweak streamutil.c further to avoid scan-build warning

The previous change added a new scan-build warning about need_password
assigned but not read.

11 years agoSupport multi-argument UNNEST(), and TABLE() syntax for multiple functions.
Tom Lane [Fri, 22 Nov 2013 00:37:02 +0000 (19:37 -0500)]
Support multi-argument UNNEST(), and TABLE() syntax for multiple functions.

This patch adds the ability to write TABLE( function1(), function2(), ...)
as a single FROM-clause entry.  The result is the concatenation of the
first row from each function, followed by the second row from each
function, etc; with NULLs inserted if any function produces fewer rows than
others.  This is believed to be a much more useful behavior than what
Postgres currently does with multiple SRFs in a SELECT list.

This syntax also provides a reasonable way to combine use of column
definition lists with WITH ORDINALITY: put the column definition list
inside TABLE(), where it's clear that it doesn't control the ordinality
column as well.

Also implement SQL-compliant multiple-argument UNNEST(), by turning
UNNEST(a,b,c) into TABLE(unnest(a), unnest(b), unnest(c)).

The SQL standard specifies TABLE() with only a single function, not
multiple functions, and it seems to require an implicit UNNEST() which is
not what this patch does.  There may be something wrong with that reading
of the spec, though, because if it's right then the spec's TABLE() is just
a pointless alternative spelling of UNNEST().  After further review of
that, we might choose to adopt a different syntax for what this patch does,
but in any case this functionality seems clearly worthwhile.

Andrew Gierth, reviewed by Zoltán Böszörményi and Heikki Linnakangas, and
significantly revised by me

11 years agoFix pg_isready to handle -d option properly.
Fujii Masao [Thu, 21 Nov 2013 12:52:03 +0000 (21:52 +0900)]
Fix pg_isready to handle -d option properly.

Previously, -d option for pg_isready was broken. When the name of the
database was specified by -d option, pg_isready failed with an error.
When the conninfo specified by -d option contained the setting of the
host name but not Numeric IP address (i.e., hostaddr), pg_isready
displayed wrong connection message. -d option could not handle a valid
URI prefix at all. This commit fixes these bugs of pg_isready.

Backpatch to 9.3, where pg_isready was introduced.

Per report from Josh Berkus and Robert Haas.
Original patch by Fabrízio de Royes Mello, heavily modified by me.

11 years agoMore GIN refactoring.
Heikki Linnakangas [Wed, 20 Nov 2013 15:00:53 +0000 (17:00 +0200)]
More GIN refactoring.

Split off the portion of ginInsertValue that inserts the tuple to current
level into a separate function, ginPlaceToPage. ginInsertValue's charter
is now to recurse up the tree to insert the downlink, when a page split is
required.

This is in preparation for a patch to change the way incomplete splits are
handled, which will need to do these operations separately. And IMHO makes
the code more readable anyway.

11 years agoRefactor the internal GIN B-tree interface for forming a downlink.
Heikki Linnakangas [Wed, 20 Nov 2013 14:57:41 +0000 (16:57 +0200)]
Refactor the internal GIN B-tree interface for forming a downlink.

This creates a new gin-btree callback function for creating a downlink for
a page. Previously, ginxlog.c duplicated the logic used during normal
operation.

11 years agoFurther GIN refactoring.
Heikki Linnakangas [Wed, 20 Nov 2013 14:09:14 +0000 (16:09 +0200)]
Further GIN refactoring.

Merge some functions that were always called together. Makes the code
little bit more readable.