菜单

Mysql主从同步错误

2019年2月19日 - 科技中心

原标题:复制状态与变量记录表 | performance_schema全方位介绍(六)

Coordinator stopped because there were error(s) in the worker(s). The
most recent failure being: Worker 2 failed executing transaction
‘ANONYMOUS’ at master log mysql-bin.005656, end_log_pos 4529152. See
error log and/or
performance_schema.replication_applier_status_by_worker table for
more details about this failure or others, if any.

402.com 1

在从库中查看表performance_schema.replication_applier_status_by_worker
select * from
performance_schema.replication_applier_status_by_worker\G

出品 沃趣科技

*************************** 2. row
***************************
CHANNEL_NAME:
WORKER_ID: 2
THREAD_ID: NULL
SERVICE_STATE: OFF
LAST_SEEN_TRANSACTION: ANONYMOUS
LAST_ERROR_NUMBER: 1168
LAST_ERROR_MESSAGE: Worker 2 failed executing transaction ‘ANONYMOUS’
at master log mysql-bin.005656, end_log_pos 4529152; Error executing
row event: ‘Uerlying table which is differently defined or of non-MyISAM
type or doesn’t exist’
LAST_ERROR_TIMESTAMP: 2017-12-01 08:57:55

IT从业多年,历任运维工程师,高级运维工程师,运维经理,数据库工程师,曾参与版本发布系统,轻量级监控系统,运维管理平台,数据库管理平台的设计与编写,熟悉MySQL的体系结构时,InnoDB存储引擎,喜好专研开源技术,追求完美。

去主库查找binlog日志,看看发生了什么事情(日志定位方式有点挫)
mysqlbinlog –start-position=4529152 –stop-position=4539152
mysql-bin.005656 | more
这条命令是从4529152位置开始,但是我们出错的位置(end_log_pos)是这个位置结束,所以刚好错过,再往前一点就好
了。
通过这条命令看到日志时间是2017-12-01 01:47:41,所以我用了另外一条命令
mysqlbinlog –start-datetime=2017-12-01 01:47:41
–stop-datetime=2017-12-01 01:47:50 mysql-bin.005656 | more
找到日志:

不知不觉中,performance_schema系列快要接近尾声了,今天将带领大家一起踏上系列第六篇的征程(全系共6个篇章),在这一期里,我们将为大家全面讲解performance_schema中的复制状态与变量统计表。下面,请跟随我们一起开始performance_schema系统的学习之旅吧~

402.com 2

01

image.png

复制信息统计表

查看这个ID为332的这张表,发现这张表是自动创建的,创建的时候没有指定存储引擎,所以主从都出错了

通常,DBA或相关数据库运维人员在查看从库的复制相关的信息,都习惯性的使用show
slave
status语句查看。也许你会说,我也会用performance_schema下的表查看一些复制报错信息什么的。但是,你知道show
slave
status语句、mysql系统库下的复制信息记录表、performance_schema系统库下的复制信息记录表之间有什么区别吗?不知道?别急,本文即将为你详细介绍show
slave
status语句与performance_schema系统库下的复制信息记录表的区别(mysql系统库下的复制表区别详见后续
“mysql系统库全方位介绍”系列)。

在开始详细介绍每一张复制信息表之前,我们先花费一些篇幅来整体认识一下这些表。

performance_schema
系统库下提供了如下几个与复制状态相关的表(表含义详见本文后续小节):

这些复制表中记录的信息生命周期如下(生命周期即指的是这些表中的信息什么时候写入,什么时候会被修改,什么时候会被清理等):

performance_schema
系统库中保存的复制信息与SHOW SLAVE
STATUS输出的信息有所不同(performance_schema 中记录的一些复制信息是show
slave status语句输出信息中没有的,但是也仍然有一些show slave
status语句输出的复制信息是performance_schema
中没有的),因为这些表面向全局事务标识符(GTID)使用,而不是基于binlog
pos位置,所以这些表记录server UUID值,而不是server ID值。show slave
status语句输出的信息在performance_schema 中缺少的内容如下:

用于引用binlog file、pos和relay log
file、pos等信息选项,在performance_schema表中不记录 。

PS1:如下系统状态变量被移动到了这些复制状态表中进行记录(MySQL
5.7.5版之前使用以下状态变量查看):

PS2:对于组复制架构,组复制的监控信息散布在如下几张表中

通过以上内容,我们从整体上能够大致了解了performance_schema中的复制信息表记录了什么信息,下面依次详细介绍这些复制信息表。

1.replication_applier_configuration表

该表中记录从库线程延迟复制的配置参数(延迟复制的线程被称为普通线程,比如CHANNEL_NAME和DESIRED_DELAY字段记录某个复制通道是否需要执行延迟复制,如果是MGR集群,则记录组复制从节点的延迟复制配置参数),该表中的记录在Server运行时可以使用CHANGE
MASTER
TO语句进行更改,我们先来看看表中记录的统计信息是什么样子的。

# 如果是单主或多主复制,则该表中会为每个复制通道记录一条类似如下信息

admin@localhost : performance_schema 02:49:12> select * from
replication_applier_configuration;

+————–+—————+

| CHANNEL_NAME |DESIRED_DELAY |

+————–+—————+

|| 0 |

+————–+—————+

1row inset ( 0. 00sec)

# 如果是MGR集群,则该表中会记录类似如下MGR集群信息

root@localhost : performance_schema 10:56:49> select * from
replication_applier_configuration;

+—————————-+—————+

| CHANNEL_NAME |DESIRED_DELAY |

+—————————-+—————+

|group_replication_applier | 0 |

| group_replication_recovery |0|

+—————————-+—————+

2 rows inset (0.00 sec)

表中各字段含义及与show slave
status输出字段对应关系如下:

402.com 3

对于replication_applier_configuration表,不允许执行TRUNCATE
TABLE语句。

2. replication_applier_status表

该表中记录的是从库当前的一般事务执行状态(该表也记录组复制架构中的复制状态信息)

我们先来看看表中记录的统计信息是什么样子的。

#
单线程复制和多线程复制时表中的记录相同,如果是多主复制,则每个复制通道记录一行信息

admin@localhost : performance_schema 02:49:28> select * from
replication_applier_status;

+————–+—————+—————–+—————————-+

| CHANNEL_NAME |SERVICE_STATE | REMAINING_DELAY
|COUNT_TRANSACTIONS_RETRIES |

+————–+—————+—————–+—————————-+

|| ON |NULL | 0 |

+————–+—————+—————–+—————————-+

1row inset ( 0. 00sec)

# 如果是MGR集群,则该表会记录如下MGR集群信息

root@localhost : performance_schema 10:58:33> select * from
replication_applier_status;

+—————————-+—————+—————–+—————————-+

| CHANNEL_NAME |SERVICE_STATE | REMAINING_DELAY
|COUNT_TRANSACTIONS_RETRIES |

+—————————-+—————+—————–+—————————-+

|group_replication_applier | ON |NULL | 0 |

| group_replication_recovery |OFF | NULL |0|

+—————————-+—————+—————–+—————————-+

2 rows inset (0.00 sec)

表中各字段含义及与show slave
status输出字段对应关系如下:

402.com 4

对于replication_applier_status表,不允许执行TRUNCATE
TABLE语句。

3. replication_applier_status_by_coordinator表

该表中记录的是从库使用多线程复制时,从库的协调器工作状态记录,当从库使用多线程复制时,每个通道下将创建一个协调器和多个工作线程,使用协调器线程来管理这些工作线程。如果从库使用单线程,则此表为空(对应的记录转移到replication_applier_status_by_worker表中记录),我们先来看看表中记录的统计信息是什么样子的。

#
单线程主从复制时,该表为空,为多线程主从复制时表中记录协调者线程状态信息,多主复制时每个复制通过记录一行信息

admin@localhost : performance_schema 02:49:50> select * from
replication_applier_status_by_coordinator;

+————–+———–+—————+——————-+——————–+———————-+

| CHANNEL_NAME |THREAD_ID | SERVICE_STATE |LAST_ERROR_NUMBER |
LAST_ERROR_MESSAGE |LAST_ERROR_TIMESTAMP |

+————–+———–+—————+——————-+——————–+———————-+

|| 43 |ON | 0 || 0000-00-00 00:00:00 |

+————–+———–+—————+——————-+——————–+———————-+

1row inset ( 0. 00sec)

# 如果是MGR集群,则该表中会记录类似如下MGR集群信息

root@localhost : performance_schema 11:00:11> select * from
replication_applier_status_by_coordinator;

+—————————+———–+—————+——————-+——————–+———————-+

| CHANNEL_NAME |THREAD_ID | SERVICE_STATE |LAST_ERROR_NUMBER |
LAST_ERROR_MESSAGE |LAST_ERROR_TIMESTAMP |

+—————————+———–+—————+——————-+——————–+———————-+

|group_replication_applier | 91 |ON | 0 || 0000-00-00 00:00:00 |

+—————————+———–+—————+——————-+——————–+———————-+

1row inset ( 0. 00sec)

表中各字段含义及与show slave
status输出字段对应关系如下:

402.com 5

402.com,对于replication_applier_status_by_coordinator表,不允许执行TRUNCATE
TABLE语句。

4. replication_applier_status_by_worker表

如果从库是单线程,则该表记录一条WORKER_ID=0的SQL线程的状态。如果从库是多线程,则该表记录系统参数slave_parallel_workers指定个数的工作线程状态(WORKER_ID从1开始编号),此时协调器/SQL线程状态记录在replication_applier_status_by_coordinator表,每一个通道都有自己独立的工作线程和协调器线程(每个通道的工作线程个数由slave_parallel_workers参数变量指定,如果是MGR集群时,则该表中记录的工作线程记录为slave_parallel_workers个group_replication_applier线程+1个group_replication_recovery线程),我们先来看看表中记录的统计信息是什么样子的。

# 单线程主从复制时表中记录的内容如下

root@localhost : performance_schema 12:46:10> select * from
replication_applier_status_by_worker;

+————–+———–+———–+—————+———————–+——————-+——————–+———————-+

| CHANNEL_NAME |WORKER_ID | THREAD_ID |SERVICE_STATE |
LAST_SEEN_TRANSACTION |LAST_ERROR_NUMBER | LAST_ERROR_MESSAGE
|LAST_ERROR_TIMESTAMP |

+————–+———–+———–+—————+———————–+——————-+——————–+———————-+

|| 0 |82| ON || 0 || 0000-00-00 00:00:00 |

+————–+———–+———–+—————+———————–+——————-+——————–+———————-+

1row inset ( 0. 00sec)

#
多线程主从复制时表中的记录内容如下(如果是多主复制,则每个复制通道记录slave_parallel_workers参数指定个数的worker线程信息)

admin@localhost : performance_schema 02:50:18> select * from
replication_applier_status_by_worker;

+————–+———–+———–+—————+———————–+——————-+——————–+———————-+

| CHANNEL_NAME |WORKER_ID | THREAD_ID |SERVICE_STATE |
LAST_SEEN_TRANSACTION |LAST_ERROR_NUMBER | LAST_ERROR_MESSAGE
|LAST_ERROR_TIMESTAMP |

+————–+———–+———–+—————+———————–+——————-+——————–+———————-+

|| 1 |44| ON || 0 || 0000-00-00 00:00:00 |

| |2| 45 |ON | |0| |0000- 00- 0000:00:00|

|| 3 |46| ON || 0 || 0000-00-00 00:00:00 |

| |4| 47 |ON | |0| |0000- 00- 0000:00:00|

+————–+———–+———–+—————+———————–+——————-+——————–+———————-+

4 rows inset (0.00 sec)

# 如果是MGR集群,则该表中会记录类似如下MGR集群信息

root@localhost : performance_schema 11:00:16> select * from
replication_applier_status_by_worker;

+—————————-+———–+———–+—————+————————————————+——————-+——————–+———————-+

|CHANNEL_NAME | WORKER_ID |THREAD_ID | SERVICE_STATE
|LAST_SEEN_TRANSACTION | LAST_ERROR_NUMBER |LAST_ERROR_MESSAGE |
LAST_ERROR_TIMESTAMP |

+—————————-+———–+———–+—————+————————————————+——————-+——————–+———————-+

| group_replication_recovery |0| NULL |OFF | |0| |0000- 00-
0000:00:00|

|group_replication_applier | 1 |92| ON |aaaaaaaa-aaaa-aaaa-aaaa-
aaaaaaaaaaaa:104099082| 0 || 0000-00-00 00:00:00 |

| group_replication_applier |2| 93 |ON | |0| |0000- 00- 0000:00:00|

……

+—————————-+———–+———–+—————+————————————————+——————-+——————–+———————-+

17 rows inset (0.00 sec)

表中各字段含义及与show slave
status输出字段对应关系如下:

402.com 6

402.com 7

402.com 8

402.com 9

402.com 10

对于replication_applier_status_by_worker表,不允许执行TRUNCATE
TABLE语句。

5. replication_connection_configuration表

该表中记录从库用于连接到主库的配置参数,该表中存储的配置信息在执行change
master语句时会被修改

我们先来看看表中记录的统计信息是什么样子的。

#
单线程、多线程主从复制时表中记录的内容相同,如果是多主复制,则每个复制通道各自有一行记录信息

admin@localhost : performance _schema 02:51:00> select * from
replication_connection_configurationG;

*************************** 1. row
***************************

CHANNEL_NAME:

HOST: 10.10.20.14

PORT: 3306

USER: qfsys

NETWORK_INTERFACE:

AUTO_POSITION: 1

SSL_ALLOWED: NO

SSL _CA_FILE:

SSL _CA_PATH:

SSL_CERTIFICATE:

SSL_CIPHER:

SSL_KEY:

SSL _VERIFY_SERVER_CERTIFICATE: NO

SSL _CRL_FILE:

SSL _CRL_PATH:

CONNECTION _RETRY_INTERVAL: 60

CONNECTION _RETRY_COUNT: 86400

HEARTBEAT_INTERVAL: 5.000

TLS_VERSION:

1 row in set (0.00 sec)

# 如果是MGR集群,则该表中会记录类似如下MGR集群信息

root@localhost : performance _schema 11:02:03> select * from
replication_connection_configurationG

*************************** 1. row
***************************

CHANNEL _NAME: group_replication_applier

HOST: <NULL>

……

*************************** 2. row
***************************

CHANNEL _NAME: group_replication_recovery

HOST: <NULL>

……

2 rows in set (0.00 sec)

表中各字段含义以及与change master
to语句的选项对应关系如下:

402.com 11

402.com 12

注意:对于replication_connection_configuration表,不允许执行TRUNCATE
TABLE语句。

6. replication_connection_status表

该表中记录的是从库IO线程的连接状态信息(也记录组复制架构中其他节点的连接信息,组复制架构中一个节点加入集群之前的数据需要使用异步复制通道进行数据同步,组复制的异步复制通道信息在show
slave
status中不可见),我们先来看看表中记录的统计信息是什么样子的。

#
多线程和单线程主从复制时表中记录相同,如果是多主复制,则每个复制通道在表中个记录一行信息

root@localhost : performance _schema 12:55:26> select * from
replication_connection_statusG

*************************** 1. row
***************************

CHANNEL_NAME:

GROUP_NAME:

SOURCE_UUID: ec123678-5e26-11e7-9d38-000c295e08a0

THREAD_ID: 101

SERVICE_STATE: ON

COUNT _RECEIVED_HEARTBEATS: 136

LAST _HEARTBEAT_TIMESTAMP: 2018-06-12 00:55:22

RECEIVED _TRANSACTION_SET:

LAST _ERROR_NUMBER: 0

LAST _ERROR_MESSAGE:

LAST _ERROR_TIMESTAMP: 0000-00-00 00:00:00

1 row in set (0.00 sec)

# 如果是MGR集群,则该表中会记录类似如下MGR集群信息

root@localhost : performance _schema 10:56:40> select * from
replication_connection_statusG

*************************** 1. row
***************************

CHANNEL _NAME: group_replication_applier

GROUP_NAME: aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa

SOURCE_UUID: aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa

THREAD_ID: NULL

SERVICE_STATE: ON

COUNT _RECEIVED_HEARTBEATS: 0

LAST _HEARTBEAT_TIMESTAMP: 0000-00-00 00:00:00

RECEIVED _TRANSACTION_SET:
aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa:104099082

LAST _ERROR_NUMBER: 0

LAST _ERROR_MESSAGE:

LAST _ERROR_TIMESTAMP: 0000-00-00 00:00:00

*************************** 2. row
***************************

CHANNEL _NAME: group_replication_recovery

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图