PostgreSQL 14及更高版本改进

PostgreSQL 14及更高版本

本文谈谈PG14中的关键特性及社区中正在谈论PG15及更高版本的内容。

PG14的主要特性逻辑复制的改进

PG14中对逻辑复制进行了几项增强：

1）正在进行中的事务中支持逻辑复制

2） Prepared事务解码

帮助构建多主解决方案的两阶段提交以及帮助减小回放延迟。注意目前订阅方的工作尚未完成，但核心解决方案可以使用它作为输出插件。通过次特性，用户可以构建无冲突复制。

3）对包含DDL的事务进行逻辑解码的性能提升

据观察，有1000个分区的表，对其进行truncate。该事务的解码仅花费1秒，PG14版本前需要4－5分钟。

4）逻辑复制可以以二进制形式传输数据

这通常更快，如果稍微不需要那么健壮的话

5）逻辑复制中进行表同步期间允许多个事务，带来的好处：

如果在同步阶段发生错误，将不再需要再次复制整个表

避免了超过CID限制的风险

在整个同步完成之前，不再需要保留WAL

大表的初始化同步阶段花费很长时间，基于这些修改，逻辑复制进行了改进。

6）通过ADD PUBLICATION和DROP PUBLICATION选项，ALTER SUBSCRIPTION语句现在很容易添加或移除发布

7）添加了pg＿stat＿replication＿slots系统视图，报告复制槽的活动信息。

帮助用户监控spill或stream的活动以及通过特定复制槽解码的总字节数。

SQL特性

PG14引入和增强了一些有用的特性，其中许多将有助于从其他数据库迁移。

1） CREATE FUNCTION和CREATE PROCEDURE语句现在支持SQL语言

因此函数主体符合SQL标准，可以移植到其他实现。现在可以编写构成不带引号的SQL语句主体，而不是使用PG特定的语法 AS ＄＄．．．＄＄

CREATE PROCEDURE insert＿val （value1 integer， value2 integer）

LANGUAGE SQL

BEGIN ATOMIC

INSERT INTO tbl1 VALUES （value1）；

INSERT INTO tbl1 VALUES （value2）；

END；

2）存储过程可以有OUT参数

支持这种参数模式将使得从其他数据库迁移变得更加容易

3） CREATE TRIGGER语法进行了扩展支持OR REPLACE

4）允许现有的触发器进行有条件的替换，并使迁移更加容易

5） ALTER TABLE语法支持DETACH PARTITION．．．CONCURRENTLY选项

ALTER TABLE ［ IF EXISTS ］ name

DETACH PARTITION partition＿name ［ FINALIZE ｜ CONCURRENTLY ］

在2个运行的事务中，允许一个分区从他的分区表中分离而不阻塞当前查询。因为在2个事务中运行，所以不能在一个事务块中使用。如果第2个事务取消或发生崩溃，则有ALTER TABLE．．．DETACH PARTITION．．．FINALIZE，执行最后的步骤。

6）使用postgres＿fdw模块，Truncate可以在外表上执行

7）改进了下标

扩展和内置数据类型可以完成下标。例如，jsonb可以使用下标：

早期：

SELECT jsonb＿column－＞＇key＇ FROM table；

UPDATE table

SET jsonb＿column ＝ jsonb＿set（jsonb＿column，＇｛＂key＂｝＇，＇＂value＂＇）；

PG14

SELECT jsonb＿column［＇key＇］ FROM table；

UPDATE table

SET jsonb＿column［＇key＇］＝＇＂value＂＇；

8）支持了multirange数据类型

和range数据类型类似，但是允许指定多个、有序、不重叠的range。所有现在的range类型都支持multirange类型

如下所示，在PG14之前，只能指定一个日期范围，而现在可以使用datamultirange函数指定多个日期范围

早期

SELECT daterange（CURRENT＿DATE， CURRENT＿DATE ＋ 1）；

daterange

－－－－－－－－－－－－－－－－－－－－－－－－－

［2021－07－27，2021－07－28）

PG14

SELECT datemultirange（ daterange（CURRENT＿DATE ， CURRENT＿DATE ＋ 2），

daterange（CURRENT＿DATE ＋ 5， CURRENT＿DATE ＋ 8））；

datemultirange

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

｛［2021－07－27，2021－07－29），［2021－08－01，2021－08－04）｝

9） ECPG现在支持DECLARE STATEMENT结构

允许ECPG标识符链接到指定连接。当动态SQL语句使用这个标识符时，通过关联的连接来执行。通过DECALARE．．．STATEMENT完成：

EXEC SQL BEGIN DECLARE SECTION；

char dbname［128］；

char ＊dym＿sql ＝＂SELECT current＿database（）＂；

EXEC SQL END DECLARE SECTION；

int main（）

｛

EXEC SQL CONNECT TO postgres AS conn1；

EXEC SQL CONNECT TO testdb AS conn2；

EXEC SQL AT conn1 DECLARE stmt STATEMENT；

EXEC SQL PREPARE stmt FROM ：dym＿sql；

EXEC SQL EXECUTE stmt INTO ：dbname；

printf（＂％s＂， dbname）；

EXEC SQL DISCONNECT ALL；

return 0；

｝

上面的例子展示了用户如何声明一个简单语句：SELECT current＿database（），然后定义连接到不同的database。从而，通过DECLARE语句，可以使用一个连接，执行连接上的语句。这对于想在不同连接上执行语句的应用来说非常有用。

数据损坏

PG现在提供一些工具，可以用来检测数据库是否损坏；还有一些小工具帮助用户修复损坏的数据。

1） amcheck模块提供函数允许检查heap页，之前仅能检测B－tree索引页

2）添加了命令行工具pg＿amcheck，简化在表上运行contrib／amcheck操作。有很多选项供选择检测哪个表、执行什么检查。可以并行执行检查

3）添加了pg＿surgery模块，该模块允许更改行可见信息。这对于纠正数据库损坏很有用。但如果使用不当，很容易损坏以前未损坏的数据库，进一步损坏数据库。需要强调的是，必须谨慎使用此工具，并只能由了解自己在做什么的用户使用。

索引

1）可以通过预排序数据构建一些GiST索引

自动预排序，允许创建更快的索引和更小的索引。仅支持浮点类型。

2） BRIN索引现在可以记录每个范围的多个min／max值

如果每页都由一组值，这将很有用。允许更加有效地处理异常值。可以指定每个页面范围值的个数，要么是单点，要么是一个边界间隔：

CREATE TABLE table＿name （a int）；

CREATE INDEX ON table＿name USING brin （a int4＿minmax＿multi＿ops（values＿per＿range＝16））；

3） BRIN索引现在可以使用bloom过滤。

允许BRIN索引高效使用在没有物理存储到heap中的数据。

4） SP－GiST可以使用INCLUDE列

允许对SP－GiST索引进行更多的仅索引扫描

5） REINDEX现在可以处理分区表的所有子表或索引

6） REINDEX现在可以改变新索引的表空间

通过指定TABLESPACE子句来完成。添加－－tablespace选项到reindexdb中控制该行为

扩展统计

PG14下一个增强功能是扩展统计方面。帮助我们对使用表达式的各种查询获取更好的统计信息，帮助产生更好的查询计划。

1）扩展统计现在在表达式中使用：

CREATE TABLE table＿name （a int）；

CREATE STATISTICS statistics＿name ON mod（a，10）， mod（a，20） FROM table＿name；

ANALYZE table＿name；

采集的统计信息对带有WHERE或GROUP BY子句中，该子句使用表达式，进行评估非常有用：

SELECT ＊ FROM table＿name WHERE mod（a，10）＝ 0 AND mod（a，20）＝ 0；

SELECT 1 FROM table＿name GROUP BY mod（a，10）， mod（a，20）；

查询中使用表达式时，可以获得更好的查询计划。

2）增加了可用于OR子句评估的扩展统计信息的位置数量。

VACUUM

Vacuum进行了增强：

1）当可移动索引条目数量微不足道时，可以跳过索引清理，减少了vacuum时间

2）如果表接近xid或者multixact回卷，vacuum操作更加激进

由vacuum＿failsafe＿age和vacuum＿multixact＿failsafe＿age参数控制。Autovacuum开始很长时间后，这种机制总会触发以组织回卷。

3）使用现有统计信息，可以加快有很多表的database的vacuum

Benchmark显示20000个表，10个autovacuum进程并发执行，可以将性能提高三倍以上。

4） Vacuum可以激进地将新删除的B－tree页添加到空闲空间映射表中，以便重用。

之前版本，vacuum只能将之前已存在的被删除的页添加到空闲空间映射表中。这个改进可以减少B－tree索引新页的空间分配，优化空间大小。

5） Vacuum可以回收位置有的heap line指针使用的空间

避免了某些负载的行指针膨胀，尤其时涉及在同一个表中进行持续范围删除和批量插入的操作

6）在CREATE INDEX CONCURRENTLY和REINDEX CONCURRENTLY操作期间，vacuum可以积极地删除死记录。

PG14中的性能改进

该版本包含了一些可以提高性能的改进。

1）多CPU和高会话计数的系统上计算MVCC可见性快照的速度得到改进：当有许多空闲会话时，这也可以提高性能。对于只读查询的大量连接，大约有2倍的增益。

2）当只有少数分区受到影响时，分区表上的更新／删除性能得到改进：允许分区表上执行删除／更新时使用execution－time分区修剪；对于继承的UPDATE／DELETE，不是为每个目标关系生成单独的子计划，而是生成一个与SELECT计划完成相同的单个子计划，然后在其上添加ModifyTable。

3）引用多个外部表的查询，现在可以并行执行外部表扫描：目前唯一可以同时运行的阶段类型是ForeignScan，他是Append的直接字节点；一个ForeignScan访问不同远程服务器上数据时，可以并行执行ForeignScan，重叠操作改进性能；如果设置了async＿enable，postgres－fdw支持这种类型的扫描

4） LZ4压缩可以用于TOAST数据：可以在列级别设置或者通过default＿toast＿compression设置默认值。服务必须－－with－lz4编译。默认仍是PGLZ；LZ4的压缩性能比PGLZ更好，使用更少CPU。测试表明，性能可以提升2倍以上，空间大小仅比PGLZ稍大。我建议在使用任何一种方法之前使用生产数据对此进行测试；Haiying Tang 描述了如何使用这个选项

5）添加的B－tree索引可以删除过期的索引条目，以防页分裂：帮助减小频繁更新索引列的造成的索引膨胀；当怀疑连续update带来的版本流失造成重复项出现时，该机制会试图删除重复项。

6） libpq中改进了pipeline模式：允许发送多个查询，并仅当发送了指定的同步消息时等待完成；它增加了客户端应用程序的复杂性，并且需要格外小心以防止客户端／服务器死锁，但管道模式可以提供相当大的性能改进，以换取内存使用量的增加，从而使状态保持更长时间；管道模式在服务器距离较远时最有用，即当网络延迟ping 时间较长时，以及许多小操作正在快速连续执行时。

7） Executor方法添加到了nextloop join的inner表缓冲结果中：如果在inner检查一小部分行时很有用，由enable＿memorize控制；当查找的不同值较少且每个值的查找次数较大时，使用带有结果缓存的参数化嵌套循环的好处会增加

8） FDW API 和 postgres＿fdw 已扩展为允许批量插入外部表：如果FDW支持批量，并且请求了批量，那么累积行并以批量形式插入，否则每次插入一行；由于到外部服务器的每次往返都有很高的延迟，因此批处理通常比插入单个行更有效

9）改进了带有表达式IN（const－1，const－2，等）子句的查询性能：通过hash表查询替换当前顺序查询达到改进性能的目的

10）改进了在具有大量共享缓冲区的集群上恢复期间对小表执行 CREATE TABLE 操作的截断、删除或中止性能。在许多情况下，当几个小表（用 1，000 个关系测试）被截断，并且服务器配置有大量共享缓冲区（大于等于 100 GB）时，这将性能提高了 100 倍以上

11）改进了恢复、备机回放、大量更新的vacuum的性能：性能提升来自于压缩页面的算法优化，我们需要在大更新后使用它

12）改进了并行顺序扫描的 I／O 性能：以组的形式将块分配给并发进程，从而提升性能。

PG15及更高版本

最后列出PG社区正讨论的特性，可能加入到PG15或之后的版本中。以下功能仅是个人观点，不保证最后是否会实现并合入未来版本。

1）逻辑复制的各种改进

在订阅者端支持2PC；schema的发布；允许解决冲突的选项或工具；sequence的复制；行级别的过滤器使数据分片更加便利；列级别的过滤；不发送空事务，提高网络带宽；备机开启逻辑复制

2）备份技术中服务端进行压缩

3）自动switchover／failover的改进

4） hash索引的改进：允许唯一索引、允许多列索引

5）共享内存的统计采集：更加可靠，无需通过UDP协议进行通信；减少读、写，提高性能

6）并行写：并行insert、并行COPY FROM．．．、并行查询性能改进

7）异步IO：允许预取数据并提高系统的速度

8） DIRECT IO：绕过操作系统缓冲，在某些情况下带来更好性能

9）通过FDW的2PC：为了进一步推进基于PG的分配解决方案

10）通过使用性能数据结构改进VACUUM

11）全局临时表：临时表更加方便管理，迁移更加便利

12）物化视图的增量维护

13）事务ID的64位实现

．．．

PostgreSQL 14及更高版本改进

相关阅读

yzsDBA

yzsDBA

举报文章问题

举报评论问题

用户登录×