明輝手游網(wǎng)中心:是一個(gè)免費(fèi)提供流行視頻軟件教程、在線學(xué)習(xí)分享的學(xué)習(xí)平臺(tái)!

Mysql一次死鎖排查過(guò)程的全紀(jì)錄分享

[摘要]在測(cè)試環(huán)境測(cè)試給用戶并發(fā)發(fā)送卡券時(shí),出現(xiàn)了死鎖,通過(guò)查找相關(guān)的資料解決了這個(gè),所以想著總結(jié)出來(lái),所以下面這篇文章主要是關(guān)于一次Mysql死鎖排查過(guò)程的全紀(jì)錄,需要的朋友可以參考下,希望大家從中能有所幫助。前言之前接觸到的數(shù)據(jù)庫(kù)死鎖,都是批量更新時(shí)加鎖順序不一致而導(dǎo)致的死鎖,但是上周卻遇到了一個(gè)很難...
在測(cè)試環(huán)境測(cè)試給用戶并發(fā)發(fā)送卡券時(shí),出現(xiàn)了死鎖,通過(guò)查找相關(guān)的資料解決了這個(gè),所以想著總結(jié)出來(lái),所以下面這篇文章主要是關(guān)于一次Mysql死鎖排查過(guò)程的全紀(jì)錄,需要的朋友可以參考下,希望大家從中能有所幫助。

前言

之前接觸到的數(shù)據(jù)庫(kù)死鎖,都是批量更新時(shí)加鎖順序不一致而導(dǎo)致的死鎖,但是上周卻遇到了一個(gè)很難理解的死鎖。借著這個(gè)機(jī)會(huì)又重新學(xué)習(xí)了一下mysql的死鎖知識(shí)以及常見(jiàn)的死鎖場(chǎng)景。在多方調(diào)研以及和同事們的討論下終于發(fā)現(xiàn)了這個(gè)死鎖問(wèn)題的成因,收獲頗多。雖然是后端程序員,我們不需要像DBA一樣深入地去分析與鎖相關(guān)的源碼,但是如果我們能夠掌握基本的死鎖排查方法,對(duì)我們的日常開(kāi)發(fā)還是大有裨益的。

PS:本文不會(huì)介紹死鎖的基本知識(shí),mysql的加鎖原理可以參考本文的參考資料提供的鏈接。

死鎖起因

先介紹一下數(shù)據(jù)庫(kù)和表情況,因?yàn)樯婕暗焦緝?nèi)部真是的數(shù)據(jù),所以以下都做了模擬,不會(huì)影響具體的分析。

我們采用的是5.5版本的mysql數(shù)據(jù)庫(kù),事務(wù)隔離級(jí)別是默認(rèn)的RR(Repeatable-Read),采用innodb引擎。假設(shè)存在test表:

CREATE TABLE `test` (
 `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
 `a` int(11) unsigned DEFAULT NULL,
 PRIMARY KEY (`id`),
 UNIQUE KEY `a` (`a`)
) ENGINE=InnoDB AUTO_INCREMENT=100 DEFAULT CHARSET=utf8;

表的結(jié)構(gòu)很簡(jiǎn)單,一個(gè)主鍵id,另一個(gè)唯一索引a。表里的數(shù)據(jù)如下:

mysql> select * from test;
+----+------+
  id   a  
+----+------+
  1   1  
  2   2  
  4   4  
+----+------+
3 rows in set (0.00 sec)

出現(xiàn)死鎖的操作如下:

步驟事務(wù)1事務(wù)2
1
begin
2
delete from test where a = 2;
3begin
4delete from test where a = 2; (事務(wù)1卡。
5提示出現(xiàn)死鎖:ERROR 1213 (40001): Deadlock found when trying to get lock; try restarting transactioninsert into test (id, a) values (10, 2);

然后我們可以通過(guò)SHOW ENGINE INNODB STATUS;來(lái)查看死鎖日志:

------------------------
LATEST DETECTED DEADLOCK
------------------------
170219 13:31:31
*** (1) TRANSACTION:
TRANSACTION 2A8BD, ACTIVE 11 sec starting index read
mysql tables in use 1, locked 1
LOCK WAIT 2 lock struct(s), heap size 376, 1 row lock(s)
MySQL thread id 448218, OS thread handle 0x2abe5fb5d700, query id 18923238 renjun.fangcloud.net 121.41.41.92 root updating
delete from test where a = 2
*** (1) WAITING FOR THIS LOCK TO BE GRANTED:
RECORD LOCKS space id 0 page no 923 n bits 80 index `a` of table `oauthdemo`.`test` trx id 2A8BD lock_mode X waiting
Record lock, heap no 3 PHYSICAL RECORD: n_fields 2; compact format; info bits 32
 0: len 4; hex 00000002; asc ;;
 1: len 4; hex 00000002; asc ;;
*** (2) TRANSACTION:
TRANSACTION 2A8BC, ACTIVE 18 sec inserting
mysql tables in use 1, locked 1
4 lock struct(s), heap size 1248, 3 row lock(s), undo log entries 2
MySQL thread id 448217, OS thread handle 0x2abe5fd65700, query id 18923239 renjun.fangcloud.net 121.41.41.92 root update
insert into test (id,a) values (10,2)
*** (2) HOLDS THE LOCK(S):
RECORD LOCKS space id 0 page no 923 n bits 80 index `a` of table `oauthdemo`.`test` trx id 2A8BC lock_mode X locks rec but not gap
Record lock, heap no 3 PHYSICAL RECORD: n_fields 2; compact format; info bits 32
 0: len 4; hex 00000002; asc ;;
 1: len 4; hex 00000002; asc ;;
*** (2) WAITING FOR THIS LOCK TO BE GRANTED:
RECORD LOCKS space id 0 page no 923 n bits 80 index `a` of table `oauthdemo`.`test` trx id 2A8BC lock mode S waiting
Record lock, heap no 3 PHYSICAL RECORD: n_fields 2; compact format; info bits 32
 0: len 4; hex 00000002; asc ;;
 1: len 4; hex 00000002; asc ;;
*** WE ROLL BACK TRANSACTION (1)

分析

閱讀死鎖日志

遇到死鎖,第一步就是閱讀死鎖日志。死鎖日志通常分為兩部分,上半部分說(shuō)明了事務(wù)1在等待什么鎖:

170219 13:31:31
*** (1) TRANSACTION:
TRANSACTION 2A8BD, ACTIVE 11 sec starting index read
mysql tables in use 1, locked 1
LOCK WAIT 2 lock struct(s), heap size 376, 1 row lock(s)
MySQL thread id 448218, OS thread handle 0x2abe5fb5d700, query id 18923238 renjun.fangcloud.net 121.41.41.92 root updating
delete from test where a = 2
*** (1) WAITING FOR THIS LOCK TO BE GRANTED:
RECORD LOCKS space id 0 page no 923 n bits 80 index `a` of table `oauthdemo`.`test` trx id 2A8BD lock_mode X waiting
Record lock, heap no 3 PHYSICAL RECORD: n_fields 2; compact format; info bits 32
 0: len 4; hex 00000002; asc ;;
 1: len 4; hex 00000002; asc ;;

從日志里我們可以看到事務(wù)1當(dāng)前正在執(zhí)行delete from test where a = 2,該條語(yǔ)句正在申請(qǐng)索引a的X鎖,所以提示lock_mode X waiting。

然后日志的下半部分說(shuō)明了事務(wù)2當(dāng)前持有的鎖以及等待的鎖:

*** (2) TRANSACTION:
TRANSACTION 2A8BC, ACTIVE 18 sec inserting
mysql tables in use 1, locked 1
4 lock struct(s), heap size 1248, 3 row lock(s), undo log entries 2
MySQL thread id 448217, OS thread handle 0x2abe5fd65700, query id 18923239 renjun.fangcloud.net 121.41.41.92 root update
insert into test (id,a) values (10,2)
*** (2) HOLDS THE LOCK(S):
RECORD LOCKS space id 0 page no 923 n bits 80 index `a` of table `oauthdemo`.`test` trx id 2A8BC lock_mode X locks rec but not gap
Record lock, heap no 3 PHYSICAL RECORD: n_fields 2; compact format; info bits 32
 0: len 4; hex 00000002; asc ;;
 1: len 4; hex 00000002; asc ;;
*** (2) WAITING FOR THIS LOCK TO BE GRANTED:
RECORD LOCKS space id 0 page no 923 n bits 80 index `a` of table `oauthdemo`.`test` trx id 2A8BC lock mode S waiting
Record lock, heap no 3 PHYSICAL RECORD: n_fields 2; compact format; info bits 32
 0: len 4; hex 00000002; asc ;;
 1: len 4; hex 00000002; asc ;;

從日志的HOLDS THE LOCKS(S)塊中我們可以看到事務(wù)2持有索引a的X鎖,并且是記錄鎖(Record Lock)。該鎖是通過(guò)事務(wù)2在步驟2執(zhí)行的delete語(yǔ)句申請(qǐng)的。由于是RR隔離模式下的基于唯一索引的等值查詢(Where a = 2),所以會(huì)申請(qǐng)一個(gè)記錄鎖,而非next-key鎖。

從日志的WAITING FOR THIS LOCK TO BE GRANTED塊中我們可以看到事務(wù)2正在申請(qǐng)S鎖,也就是共享鎖。該鎖是insert into test (id,a) values (10,2)語(yǔ)句申請(qǐng)的。insert語(yǔ)句在普通情況下是會(huì)申請(qǐng)排他鎖,也就是X鎖,但是這里出現(xiàn)了S鎖。這是因?yàn)閍字段是一個(gè)唯一索引,所以insert語(yǔ)句會(huì)在插入前進(jìn)行一次duplicate key的檢查,為了使這次檢查成功,需要申請(qǐng)S鎖防止其他事務(wù)對(duì)a字段進(jìn)行修改。

那么為什么該S鎖會(huì)失敗呢?這是對(duì)同一個(gè)字段的鎖的申請(qǐng)是需要排隊(duì)的。S鎖前面還有一個(gè)未申請(qǐng)成功的X鎖,所以S鎖必須等待,所以形成了循環(huán)等待,死鎖出現(xiàn)了。

通過(guò)閱讀死鎖日志,我們可以清楚地知道兩個(gè)事務(wù)形成了怎樣的循環(huán)等待,再加以分析,就可以逆向推斷出循環(huán)等待的成因,也就是死鎖形成的原因。

死鎖形成流程圖

為了讓大家更好地理解死鎖形成的原因,我們?cè)偻ㄟ^(guò)表格的形式闡述死鎖形成的流程:

步驟事務(wù)1事務(wù)2
1
begin
2
delete from test where a = 2; 執(zhí)行成功,事務(wù)2占有a=2下的X鎖,類型為記錄鎖。
3begin
4delete from test where a = 2; 事務(wù)1希望申請(qǐng)a=2下的X鎖,但是由于事務(wù)2已經(jīng)申請(qǐng)了一把X鎖,兩把X鎖互斥,所以X鎖申請(qǐng)進(jìn)入鎖請(qǐng)求隊(duì)列。
5出現(xiàn)死鎖,事務(wù)1權(quán)重較小,所以被選擇回滾(成為犧牲品)。insert into test (id, a) values (10, 2); 由于a字段建立了唯一索引,所以需要申請(qǐng)S鎖以便檢查duplicate key,由于插入的a的值還是2,所以排在X鎖后面。但是前面的X鎖的申請(qǐng)只有在事務(wù)2commit或者rollback之后才能成功,此時(shí)形成了循環(huán)等待,死鎖產(chǎn)生。


拓展

在排查死鎖的過(guò)程中,有個(gè)同事還發(fā)現(xiàn)了上述場(chǎng)景會(huì)產(chǎn)生另一種死鎖,該場(chǎng)景無(wú)法通過(guò)手工復(fù)現(xiàn),只有高并發(fā)場(chǎng)景下才有可能復(fù)現(xiàn)。

該死鎖對(duì)應(yīng)的日志這里就不貼出了,與上一個(gè)死鎖的核心差別是事務(wù)2等待的鎖從S鎖換成了X鎖,也就是lock_mode X locks gap before rec insert intention waiting

我們還是通過(guò)表格來(lái)詳細(xì)說(shuō)明該死鎖產(chǎn)生的流程:

步驟事務(wù)1事務(wù)2
1
begin
2
delete from test where a = 2; 執(zhí)行成功,事務(wù)2占有a=2下的X鎖,類型為記錄鎖。
3begin
4
【insert第1階段】insert into test (id, a) values (10, 2); 事務(wù)2申請(qǐng)S鎖進(jìn)行duplicate key進(jìn)行檢查。檢查成功。
5delete from test where a = 2; 事務(wù)1希望申請(qǐng)a=2下的X鎖,但是由于事務(wù)2已經(jīng)申請(qǐng)了一把X鎖,兩把X鎖互斥,所以X鎖申請(qǐng)進(jìn)入鎖請(qǐng)求隊(duì)列。
6出現(xiàn)死鎖,事務(wù)1權(quán)重較小,所以被選擇回滾(成為犧牲品)。【insert第2階段】insert into test (id, a) values (10, 2); 事務(wù)2開(kāi)始插入數(shù)據(jù),S鎖升級(jí)為X鎖,類型為insert intention。同理,X鎖進(jìn)入隊(duì)列排隊(duì),形成循環(huán)等待,死鎖產(chǎn)生。


總結(jié)

排查死鎖時(shí),首先需要根據(jù)死鎖日志分析循環(huán)等待的場(chǎng)景,然后根據(jù)當(dāng)前各個(gè)事務(wù)執(zhí)行的SQL分析出加鎖類型以及順序,逆向推斷出如何形成循環(huán)等待,這樣就能找到死鎖產(chǎn)生的原因了。

以上就是Mysql一次死鎖排查過(guò)程的全紀(jì)錄分享的詳細(xì)內(nèi)容,更多請(qǐng)關(guān)注php中文網(wǎng)其它相關(guān)文章!


學(xué)習(xí)教程快速掌握從入門(mén)到精通的SQL知識(shí)。