明輝手游網(wǎng)中心:是一個免費提供流行視頻軟件教程、在線學(xué)習(xí)分享的學(xué)習(xí)平臺!

對于MySQL引擎特征以及InnoDB崩潰恢復(fù)詳細(xì)說明

[摘要]前言數(shù)據(jù)庫系統(tǒng)與文件系統(tǒng)最大的區(qū)別在于數(shù)據(jù)庫能保證操作的原子性,一個操作要么不做要么都做,即使在數(shù)據(jù)庫宕機(jī)的情況下,也不會出現(xiàn)操作一半的情況,這個就需要數(shù)據(jù)庫的日志和一套完善的崩潰恢復(fù)機(jī)制來保證。本...

前言

數(shù)據(jù)庫系統(tǒng)與文件系統(tǒng)最大的區(qū)別在于數(shù)據(jù)庫能保證操作的原子性,一個操作要么不做要么都做,即使在數(shù)據(jù)庫宕機(jī)的情況下,也不會出現(xiàn)操作一半的情況,這個就需要數(shù)據(jù)庫的日志和一套完善的崩潰恢復(fù)機(jī)制來保證。本文仔細(xì)剖析了InnoDB的崩潰恢復(fù)流程,代碼基于5.6分支。

基礎(chǔ)知識

lsn: 可以理解為數(shù)據(jù)庫從創(chuàng)建以來產(chǎn)生的redo日志量,這個值越大,說明數(shù)據(jù)庫的更新越多,也可以理解為更新的時刻。此外,每個數(shù)據(jù)頁上也有一個lsn,表示最后被修改時的lsn,值越大表示越晚被修改。比如,數(shù)據(jù)頁A的lsn為100,數(shù)據(jù)頁B的lsn為200,checkpoint lsn為150,系統(tǒng)lsn為300,表示當(dāng)前系統(tǒng)已經(jīng)更新到300,小于150的數(shù)據(jù)頁已經(jīng)被刷到磁盤上,因此數(shù)據(jù)頁A的最新數(shù)據(jù)一定在磁盤上,而數(shù)據(jù)頁B則不一定,有可能還在內(nèi)存中。
redo日志: 現(xiàn)代數(shù)據(jù)庫都需要寫redo日志,例如修改一條數(shù)據(jù),首先寫redo日志,然后再寫數(shù)據(jù)。在寫完redo日志后,就直接給客戶端返回成功。這樣雖然看過去多寫了一次盤,但是由于把對磁盤的隨機(jī)寫入(寫數(shù)據(jù))轉(zhuǎn)換成了順序的寫入(寫redo日志),性能有很大幅度的提高。當(dāng)數(shù)據(jù)庫掛了之后,通過掃描redo日志,就能找出那些沒有刷盤的數(shù)據(jù)頁(在崩潰之前可能數(shù)據(jù)頁僅僅在內(nèi)存中修改了,但是還沒來得及寫盤),保證數(shù)據(jù)不丟。
undo日志: 數(shù)據(jù)庫還提供類似撤銷的功能,當(dāng)你發(fā)現(xiàn)修改錯一些數(shù)據(jù)時,可以使用rollback指令回滾之前的操作。這個功能需要undo日志來支持。此外,現(xiàn)代的關(guān)系型數(shù)據(jù)庫為了提高并發(fā)(同一條記錄,不同線程的讀取不沖突,讀寫和寫讀不沖突,只有同時寫才沖突),都實現(xiàn)了類似MVCC的機(jī)制,在InnoDB中,這個也依賴undo日志。為了實現(xiàn)統(tǒng)一的管理,與redo日志不同,undo日志在Buffer Pool中有對應(yīng)的數(shù)據(jù)頁,與普通的數(shù)據(jù)頁一起管理,依據(jù)LRU規(guī)則也會被淘汰出內(nèi)存,后續(xù)再從磁盤讀取。與普通的數(shù)據(jù)頁一樣,對undo頁的修改,也需要先寫redo日志。
檢查點: 英文名為checkpoint。數(shù)據(jù)庫為了提高性能,數(shù)據(jù)頁在內(nèi)存修改后并不是每次都會刷到磁盤上。checkpoint之前的數(shù)據(jù)頁保證一定落盤了,這樣之前的日志就沒有用了(由于InnoDB redolog日志循環(huán)使用,這時這部分日志就可以被覆蓋),checkpoint之后的數(shù)據(jù)頁有可能落盤,也有可能沒有落盤,所以checkpoint之后的日志在崩潰恢復(fù)的時候還是需要被使用的。InnoDB會依據(jù)臟頁的刷新情況,定期推進(jìn)checkpoint,從而減少數(shù)據(jù)庫崩潰恢復(fù)的時間。檢查點的信息在第一個日志文件的頭部。
崩潰恢復(fù): 用戶修改了數(shù)據(jù),并且收到了成功的消息,然而對數(shù)據(jù)庫來說,可能這個時候修改后的數(shù)據(jù)還沒有落盤,如果這時候數(shù)據(jù)庫掛了,重啟后,數(shù)據(jù)庫需要從日志中把這些修改后的數(shù)據(jù)給撈出來,重新寫入磁盤,保證用戶的數(shù)據(jù)不丟。這個從日志中撈數(shù)據(jù)的過程就是崩潰恢復(fù)的主要任務(wù),也可以成為數(shù)據(jù)庫前滾。當(dāng)然,在崩潰恢復(fù)中還需要回滾沒有提交的事務(wù),提交沒有提交成功的事務(wù)。由于回滾操作需要undo日志的支持,undo日志的完整性和可靠性需要redo日志來保證,所以崩潰恢復(fù)先做redo前滾,然后做undo回滾。

我們從源碼角度仔細(xì)剖析一下數(shù)據(jù)庫崩潰恢復(fù)過程。整個過程都在引擎初始化階段完成(innobase_init),其中最主要的函數(shù)是innobase_start_or_create_for_mysql,innodb通過這個函數(shù)完成創(chuàng)建和初始化,包括崩潰恢復(fù)。首先來介紹一下數(shù)據(jù)庫的前滾。

redo日志前滾數(shù)據(jù)庫

前滾數(shù)據(jù)庫,主要分為兩階段,首先是日志掃描階段,掃描階段按照數(shù)據(jù)頁的space_id和page_no分發(fā)redo日志到hash_table中,保證同一個數(shù)據(jù)頁的日志被分發(fā)到同一個哈希桶中,且按照lsn大小從小到大排序。掃描完后,再遍歷整個哈希表,依次應(yīng)用每個數(shù)據(jù)頁的日志,應(yīng)用完后,在數(shù)據(jù)頁的狀態(tài)上至少恢復(fù)到了崩潰之前的狀態(tài)。我們來詳細(xì)分析一下代碼。
首先,打開所有的ibdata文件(open_or_create_data_files)(ibdata可以有多個),每個ibdata文件有個flush_lsn在頭部,計算出這些文件中的max_flush_lsn和min_flush_lsn,因為ibdata也有可能有數(shù)據(jù)沒寫完整,需要恢復(fù),后續(xù)(recv_recovery_from_checkpoint_start_func)通過比較checkpont_lsn和這兩個值來確定是否需要對ibdata前滾。
接著,打開系統(tǒng)表空間和日志表空間的所有文件(fil_open_log_and_system_tablespace_files),防止出現(xiàn)文件句柄不足,清空buffer pool(buf_pool_invalidate)。接下來就進(jìn)入最最核心的函數(shù):recv_recovery_from_checkpoint_start_func,注意,即使數(shù)據(jù)庫是正常關(guān)閉的,也會進(jìn)入。
雖然recv_recovery_from_checkpoint_start_func看過去很冗長,但是很多代碼都是為了LOG_ARCHIVE特性而編寫的,真正數(shù)據(jù)崩潰恢復(fù)的代碼其實不多。
首先,初始化一些變量,查看srv_force_recovery這個變量,如果用戶設(shè)置跳過前滾階段,函數(shù)直接返回。
接著,初始化recv_sys結(jié)構(gòu),分配hash_table的大小,同時初始化flush list rbtree。recv_sys結(jié)構(gòu)主要在崩潰恢復(fù)前滾階段使用。hash_table就是之前說的用來存不同數(shù)據(jù)頁日志的哈希表,哈希表的大小被初始化為buffer_size_in_bytes/512, 這個是哈希表最大的長度,超過就存不下了,幸運的是,需要恢復(fù)的數(shù)據(jù)頁的個數(shù)不會超過這個值,因為buffer poll最多(數(shù)據(jù)庫崩潰之前臟頁的上線)只能存放buffer_size_in_bytes/16KB個數(shù)據(jù)頁,即使考慮壓縮頁,最多也只有buffer_size_in_bytes/1KB個,此外關(guān)于這個哈希表內(nèi)存分配的大小,可以參考bug#53122。flush list rbtree這個主要是為了加入插入臟頁列表,InnoDB的flush list必須按照數(shù)據(jù)頁的最老修改lsn(oldest_modifcation)從小到大排序,在數(shù)據(jù)庫正常運行時,可以通過log_sys->mutex和log_sys->log_flush_order_mutex保證順序,在崩潰恢復(fù)則沒有這種保證,應(yīng)用數(shù)據(jù)的時候,是從第一個元素開始遍歷哈希表,不能保證數(shù)據(jù)頁按照最老修改lsn(oldest_modifcation)從小到大排序,這樣就需要線性遍歷flush_list來尋找插入位置,效率太低,因此引入紅黑樹,加快查找插入的位置。
接著,從ib_logfile0的頭中讀取checkpoint信息,主要包括checkpoint_lsn和checkpoint_no。由于InnoDB日志是循環(huán)使用的,且最少要有2個,所以ib_logfile0一定存在,把checkpoint信息存在里面很安全,不用擔(dān)心被刪除。checkpoint信息其實會寫在文件頭的兩個地方,兩個checkpoint域輪流寫。為什么要兩個地方輪流寫呢?假設(shè)只有一個checkpoint域,一直更新這個域,而checkpoint域有512字節(jié)(OS_FILE_LOG_BLOCK_SIZE),如果剛好在寫這個512字節(jié)的時候,數(shù)據(jù)庫掛了,服務(wù)器也掛了(先不考慮硬件的原子寫特性,早期的硬件沒有這個特性),這個512字節(jié)可能只寫了一半,導(dǎo)致整個checkpoint域不可用。這樣數(shù)據(jù)庫將無法做崩潰恢復(fù),從而無法啟動。如果有兩個checkpoint域,那么即使一個寫壞了,還可以用另外一個嘗試恢復(fù),雖然有可能這個時候日志已經(jīng)被覆蓋,但是至少提高了恢復(fù)成功的概率。兩個checkpoint域輪流寫,也能減少磁盤扇區(qū)故障帶來的影響。checkpoint_lsn之前的數(shù)據(jù)頁都已經(jīng)落盤,不需要前滾,之后的數(shù)據(jù)頁可能還沒落盤,需要重新恢復(fù)出來,即使已經(jīng)落盤也沒關(guān)系,因為redo日志時冪等的,應(yīng)用一次和應(yīng)用兩次都一樣(底層實現(xiàn): 如果數(shù)據(jù)頁上的lsn大于等于當(dāng)前redo日志的lsn,就不應(yīng)用,否則應(yīng)用。checkpoint_no可以理解為checkpoint域?qū)懕P的次數(shù),每次刷盤遞增1,同時這個值取模2可以用來實現(xiàn)checkpoint_no域的輪流寫。正常邏輯下,選取checkpoint_no值大的作為最終的checkpoint信息,用來做后續(xù)崩潰恢復(fù)掃描的起始點。
接著,使用checkpoint域的信息初始化recv_sys結(jié)構(gòu)體的一些信息后,就進(jìn)入日志解析的核心函數(shù)recv_group_scan_log_recs,這個函數(shù)后續(xù)我們再分析,主要作用就是解析redo日志,如果內(nèi)存不夠了,就直接調(diào)用應(yīng)用(recv_apply_hashed_log_recs)日志,然后再接著解析。如果需要應(yīng)用的日志很少,就僅僅解析分發(fā)日志,到recv_recovery_from_checkpoint_finish函數(shù)中在應(yīng)用日志。
接著,依據(jù)當(dāng)前刷盤的數(shù)據(jù)頁狀態(tài)做一次checkpoint,因為在recv_group_scan_log_recs里可能已經(jīng)應(yīng)用部分日志了。至此recv_recovery_from_checkpoint_start_func函數(shù)結(jié)束。
recv_recovery_from_checkpoint_finish函數(shù)中,如果srv_force_recovery設(shè)置正確,就開始調(diào)用函數(shù)recv_apply_hashed_log_recs應(yīng)用日志,然后等待刷臟的線程退出(線程是崩潰恢復(fù)時臨時啟動的),最后釋放recv_sys的相關(guān)資源以及hash_table占用的內(nèi)存。
至此,數(shù)據(jù)庫前滾結(jié)束。接下來,我們詳細(xì)分析一下redo日志解析函數(shù)以及redo日志應(yīng)用函數(shù)的實現(xiàn)細(xì)節(jié)。

redo日志解析函數(shù)

解析函數(shù)的最上層是recv_group_scan_log_recs,這個函數(shù)調(diào)用底層函數(shù)(log_group_read_log_seg),按照RECV_SCAN_SIZE(64KB)大小分批讀取。讀取出來后,首先通過block_no和lsn之間的關(guān)系以及日志checksum判斷是否讀到了日志最后(所以可以看出,并沒一個標(biāo)記在日志頭標(biāo)記日志的有效位置,完全是按照上述兩個條件判斷是否到達(dá)了日志尾部),如果讀到最后則返回(之前說了,即使數(shù)據(jù)庫是正常關(guān)閉的,也要走崩潰恢復(fù)邏輯,那么在這里就返回了,因為正常關(guān)閉的checkpoint值一定是指向日志最后),否則則把日志去頭掐尾放到一個recv_sys->buf中,日志頭里面存了一些控制信息和checksum值,只是用來校驗和定位,在真正的應(yīng)用中沒有用。在放到recv_sys->buf之前,需要檢驗一下recv_sys->buf有沒有滿(RECV_PARSING_BUF_SIZE,2M),滿了就報錯(如果上一批解析有不完整的日志,日志解析函數(shù)不會分發(fā),而是把這些不完整的日志留在recv_sys->buf中,直到解析到完整的日志)。接下的事情就是從recv_sys->buf中解析日志(recv_parse_log_recs)。日志分兩種:single_rec和multi_rec,前者表示只對一個數(shù)據(jù)頁進(jìn)行一種操作,后者表示對一個或者多個數(shù)據(jù)頁進(jìn)行多種操作。日志中還包括對應(yīng)數(shù)據(jù)頁的space_id,page_no,操作的type以及操作的內(nèi)容(recv_parse_log_rec)。解析出相應(yīng)的日志后,按照space_id和page_no進(jìn)行哈希(如果對應(yīng)的表空間在內(nèi)存中不存在,則表示表已經(jīng)被刪除了),放到hash_table里面(日志真正存放的位置依然在buffer pool)即可,等待后續(xù)應(yīng)用。這里有幾個點值得注意:

  • 如果是multi_rec類型,則只有遇到MLOG_MULTI_REC_END這個標(biāo)記,日志才算完整,才會被分發(fā)到hash_table中。查看代碼,我們可以發(fā)現(xiàn)multi_rec類型的日志被解析了兩次,一次用來校驗完整性(尋找MLOG_MULTI_REC_END),第二次才用來分發(fā)日志,感覺這是一個可以優(yōu)化的點。

  • 目前日志的操作type有50多種,每種操作后面的內(nèi)容都不一樣,所以長度也不一樣,目前日志的解析邏輯,需要依次解析出所有的內(nèi)容,然后確定長度,從而定位下一條日志的開始位置。這種方法效率略低,其實可以在每種操作的頭上加上一個字段,存儲后面內(nèi)容的長度,這樣就不需要解析太多的內(nèi)容,從而提高解析速度,進(jìn)一步提高崩潰恢復(fù)速度,從結(jié)果看,可以提高一倍的速度(從38秒到14秒,詳情可以參見bug#82937)。

  • 如果發(fā)現(xiàn)checkpoint之后還有日志,說明數(shù)據(jù)庫之前沒有正常關(guān)閉,需要做崩潰恢復(fù),因此需要做一些額外的操作(recv_init_crash_recovery),比如在錯誤日志中打印我們常見的“Database was not shutdown normally!”和“Starting crash recovery.”,還要從double write buffer中檢查是否發(fā)生了數(shù)據(jù)頁半寫,如果有需要恢復(fù)(buf_dblwr_process),還需要啟動一個線程用來刷新應(yīng)用日志產(chǎn)生的臟頁(因為這個時候buf_flush_page_cleaner_thread還沒有啟動)。最后還需要打開所有的表空間。。注意是所有的表。。。我們在阿里云RDS MySQL的運維中,常常發(fā)現(xiàn)數(shù)據(jù)庫hang在了崩潰恢復(fù)階段,在錯誤日志中有類似“Reading tablespace information from the .ibd files...”字樣,這就表示數(shù)據(jù)庫正在打開所有的表,然后一看表的數(shù)量,發(fā)現(xiàn)有幾十甚至上百萬張表。。。數(shù)據(jù)庫之所以要打開所有的表,是因為在分發(fā)日志的時候,需要確定space_id對應(yīng)哪個ibd文件,通過打開所有的表,讀取space_id信息來確定,另外一個原因是方便double write buffer檢查半寫數(shù)據(jù)頁。針對這個表數(shù)量過多導(dǎo)致恢復(fù)過慢的問題,MySQL 5.7做了優(yōu)化,WL#7142, 主要思想就是在每次checkpoint后,在第一次修改某個表時,先寫一個新日志mlog_file_name(包括space_id和filename的映射),來表示對這個表進(jìn)行了操作,后續(xù)對這個表的操作就不用寫這個新日志了,當(dāng)需要崩潰恢復(fù)時候,多一次掃描,通過搜集mlog_file_name來確定哪些表被修改過,這樣就不需要打開所有的表來確定space_id了。

  • 最后一個值得注意的地方是內(nèi)存。之前說過,如果有太多的日志已經(jīng)被分發(fā),占用了太多的內(nèi)存,日志解析函數(shù)會在適當(dāng)?shù)臅r候應(yīng)用日志,而不是等到最后才一起應(yīng)用。那么問題來了,使用了多大的內(nèi)存就會出發(fā)應(yīng)用日志邏輯。答案是:buffer_pool_size_in_bytes - 512 * buffer_pool_instance_num * 16KB。由于buffer_pool_instance_num一般不會太大,所以可以任務(wù),buffer pool的大部分內(nèi)存都被用來存放日志。剩下的那些主要留給應(yīng)用日志時讀取的數(shù)據(jù)頁,因為目前來說日志應(yīng)用是單線程的,讀取一個日志,把所有日志應(yīng)用完,然后就可以刷回磁盤了,不需要太多的內(nèi)存。

redo日志應(yīng)用函數(shù)

應(yīng)用日志的上層函數(shù)為recv_apply_hashed_log_recs(應(yīng)用日志也可能在io_helper函數(shù)中進(jìn)行),主要作用就是遍歷hash_table,從磁盤讀取對每個數(shù)據(jù)頁,依次應(yīng)用哈希桶中的日志。應(yīng)用完所有的日志后,如果需要則把buffer_pool的頁面都刷盤,畢竟空間有限。有以下幾點值得注意:

  • 同一個數(shù)據(jù)頁的日志必須按照lsn從小到大應(yīng)用,否則數(shù)據(jù)會被覆蓋。只應(yīng)用redo日志lsn大于page_lsn的日志,只有這些日志需要重做,其余的忽略。應(yīng)用完日志后,把臟頁加入臟頁列表,由于臟頁列表是按照最老修改lsn(oldest_modification)來排序的,這里通過引入一顆紅黑樹來加速查找插入的位置,時間復(fù)雜度從之前的線性查找降為對數(shù)級別。

  • 當(dāng)需要某個數(shù)據(jù)頁的時候,如果發(fā)現(xiàn)其沒有在Buffer Pool中,則會查看這個數(shù)據(jù)頁周圍32個數(shù)據(jù)頁,是否也需要做恢復(fù),如果需要則可以一起讀取出來,相當(dāng)于做了一次io合并,減少io操作(recv_read_in_area)。由于這個是異步讀取,所以最終應(yīng)用日志的活兒是由io_helper線程來做的(buf_page_io_complete),此外,為了防止短時間發(fā)起太多的io,在代碼中加了流量控制的邏輯(buf_read_recv_pages)。如果發(fā)現(xiàn)某個數(shù)據(jù)頁在內(nèi)存中,則直接調(diào)用recv_recover_page應(yīng)用日志。由此我們可以看出,InnoDB應(yīng)用日志其實并不是單線程的來應(yīng)用日志的,除了崩潰恢復(fù)的主線程外,io_helper線程也會參與恢復(fù)。并發(fā)線程數(shù)取決于io_helper中讀取線程的個數(shù)。

執(zhí)行完了redo前滾數(shù)據(jù)庫,數(shù)據(jù)庫的所有數(shù)據(jù)頁已經(jīng)處于一致的狀態(tài),undo回滾數(shù)據(jù)庫就可以安全的執(zhí)行了。數(shù)據(jù)庫崩潰的時候可能有一些沒有提交的事務(wù)或者已經(jīng)提交的事務(wù),這個時候就需要決定是否提交。主要分為三步,首先是掃描undo日志,重新建立起undo日志鏈表,接著是,依據(jù)上一步建立起的鏈表,重建崩潰前的事務(wù),即恢復(fù)當(dāng)時事務(wù)的狀態(tài)。最后,就是依據(jù)事務(wù)的不同狀態(tài),進(jìn)行回滾或者提交。

undo日志回滾數(shù)據(jù)庫

recv_recovery_from_checkpoint_start_func之后,recv_recovery_from_checkpoint_finish之前,調(diào)用了trx_sys_init_at_db_start,這個函數(shù)做了上述三步中的前兩步。
第一步在函數(shù)trx_rseg_array_init中處理,遍歷整個undo日志空間(最多TRX_SYS_N_RSEGS(128)個segment),如果發(fā)現(xiàn)某個undo segment非空,就進(jìn)行初始化(trx_rseg_create_instance)。整個每個undo segment,如果發(fā)現(xiàn)undo slot非空(最多TRX_RSEG_N_SLOTS(1024)個slot),也就行初始化(trx_undo_lists_init)。在初始化undo slot后,就把不同類型的undo日志放到不同鏈表中(trx_undo_mem_create_at_db_start)。undo日志主要分為兩種:TRX_UNDO_INSERT和TRX_UNDO_UPDATE。前者主要是提供給insert操作用的,后者是給update和delete操作使用。之前說過,undo日志有兩種作用,事務(wù)回滾時候用和MVCC快照讀取時候用。由于insert的數(shù)據(jù)不需要提供給其他線程用,所以只要事務(wù)提交,就可以刪除TRX_UNDO_INSERT類型的undo日志。TRX_UNDO_UPDATE在事務(wù)提交后還不能刪除,需要保證沒有快照使用它的時候,才能通過后臺的purge線程清理。
第二步在函數(shù)trx_lists_init_at_db_start中進(jìn)行,由于第一步中,已經(jīng)在內(nèi)存中建立起了undo_insert_list和undo_update_list(鏈表每個undo segment獨立),所以這一步只需要遍歷所有鏈表,重建起事務(wù)的狀態(tài)(trx_resurrect_inserttrx_resurrect_update)。簡單的說,如果undo日志的狀態(tài)是TRX_UNDO_ACTIVE,則事務(wù)的狀態(tài)為TRX_ACTIVE,如果undo日志的狀態(tài)是TRX_UNDO_PREPARED,則事務(wù)的狀態(tài)為TRX_PREPARED。這里還要考慮變量srv_force_recovery的設(shè)置,如果這個變量值為非0,所有的事務(wù)都會回滾(即事務(wù)被設(shè)置為TRX_ACTIVE),即使事務(wù)的狀態(tài)應(yīng)該為TRX_STATE_PREPARED。重建起事務(wù)后,按照事務(wù)id加入到trx_sys->trx_list鏈表中。最后,在函數(shù)trx_sys_init_at_db_start中,會統(tǒng)計所有需要回滾的事務(wù)(事務(wù)狀態(tài)為TRX_ACTIVE)一共需要回滾多少行數(shù)據(jù),輸出到錯誤日志中,類似:5 transaction(s) which must be rolled back or cleaned up。InnoDB: in total 342232 row operations to undo的字樣。
第三步的操作在兩個地方被調(diào)用。一個是在recv_recovery_from_checkpoint_finish的最后,另外一個是在recv_recovery_rollback_active中。前者主要是回滾對數(shù)據(jù)字典的操作,也就是回滾DDL語句的操作,后者是回滾DML語句。前者是在數(shù)據(jù)庫可提供服務(wù)之前必須完成,后者則可以在數(shù)據(jù)庫提供服務(wù)(也即是崩潰恢復(fù)結(jié)束)之后繼續(xù)進(jìn)行(通過新開一個后臺線程trx_rollback_or_clean_all_recovered來處理)。因為InnoDB認(rèn)為數(shù)據(jù)字典是最重要的,必須要回滾到一致的狀態(tài)才行,而用戶表的數(shù)據(jù)可以稍微慢一點,對外提供服務(wù)后,慢慢恢復(fù)即可。因此我們常常在會發(fā)現(xiàn)數(shù)據(jù)庫已經(jīng)啟動起來了,然后錯誤日志中還在不斷的打印回滾事務(wù)的信息。事務(wù)回滾的核心函數(shù)是trx_rollback_or_clean_recovered,邏輯很簡單,只需要遍歷trx_sys->trx_list,按照事務(wù)不同的狀態(tài)回滾或者提交即可(trx_rollback_resurrected)。這里要注意的是,如果事務(wù)是TRX_STATE_PREPARED狀態(tài),那么在InnoDB層,不做處理,需要在Server層依據(jù)binlog的情況來決定是否回滾事務(wù),如果binlog已經(jīng)寫了,事務(wù)就提交,因為binlog寫了就可能被傳到備庫,如果主庫回滾會導(dǎo)致主備數(shù)據(jù)不一致,如果binlog沒有寫,就回滾事務(wù)。

崩潰恢復(fù)相關(guān)參數(shù)解析

innodb_fast_shutdown:
innodb_fast_shutdown = 0。這個表示在MySQL關(guān)閉的時候,執(zhí)行slow shutdown,不但包括日志的刷盤,數(shù)據(jù)頁的刷盤,還包括數(shù)據(jù)的清理(purge),ibuf的合并,buffer pool dump以及l(fā)azy table drop操作(如果表上有未完成的操作,即使執(zhí)行了drop table且返回成功了,表也不一定立刻被刪除)。
innodb_fast_shutdown = 1。這個是默認(rèn)值,表示在MySQL關(guān)閉的時候,僅僅把日志和數(shù)據(jù)刷盤。
innodb_fast_shutdown = 2。這個表示關(guān)閉的時候,僅僅日志刷盤,其他什么都不做,就好像MySQL crash了一樣。
這個參數(shù)值越大,MySQL關(guān)閉的速度越快,但是啟動速度越慢,相當(dāng)于把關(guān)閉時候需要做的工作挪到了崩潰恢復(fù)上。另外,如果MySQL要升級,建議使用第一種方式進(jìn)行一次干凈的shutdown。

innodb_force_recovery:
這個參數(shù)主要用來控制InnoDB啟動時候做哪些工作,數(shù)值越大,做的工作越少,啟動也更加容易,但是數(shù)據(jù)不一致的風(fēng)險也越大。當(dāng)MySQL因為某些不可控的原因不能啟動時,可以設(shè)置這個參數(shù),從1開始逐步遞增,知道MySQL啟動,然后使用SELECT INTO OUTFILE把數(shù)據(jù)導(dǎo)出,盡最大的努力減少數(shù)據(jù)丟失。
innodb_force_recovery = 0。這個是默認(rèn)的參數(shù),啟動的時候會做所有的事情,包括redo日志應(yīng)用,undo日志回滾,啟動后臺master和purge線程,ibuf合并。檢測到了數(shù)據(jù)頁損壞了,如果是系統(tǒng)表空間的,則會crash,用戶表空間的,則打錯誤日志。
innodb_force_recovery = 1。如果檢測到數(shù)據(jù)頁損壞了,不會crash也不會報錯(buf_page_io_complete),啟動的時候也不會校驗表空間第一個數(shù)據(jù)頁的正確性(fil_check_first_page),表空間無法訪問也繼續(xù)做崩潰恢復(fù)(fil_open_single_table_tablespace、fil_load_single_table_tablespace),ddl操作不能進(jìn)行(check_if_supported_inplace_alter),同時數(shù)據(jù)庫也被不能進(jìn)行寫入操作(row_insert_for_mysqlrow_update_for_mysql等),所有的prepare事務(wù)也會被回滾(trx_resurrect_inserttrx_resurrect_update_in_prepared_state)。這個選項還是很常用的,數(shù)據(jù)頁可能是因為磁盤壞了而損壞了,設(shè)置為1,能保證數(shù)據(jù)庫正常啟動。
innodb_force_recovery = 2。除了設(shè)置1之后的操作不會運行,后臺的master和purge線程就不會啟動了(srv_master_threadsrv_purge_coordinator_thread等),當(dāng)你發(fā)現(xiàn)數(shù)據(jù)庫因為這兩個線程的原因而無法啟動時,可以設(shè)置。
innodb_force_recovery = 3。除了設(shè)置2之后的操作不會運行,undo回滾數(shù)據(jù)庫也不會進(jìn)行,但是回滾段依然會被掃描,undo鏈表也依然會被創(chuàng)建(trx_sys_init_at_db_start)。srv_read_only_mode會被打開。
innodb_force_recovery = 4。除了設(shè)置3之后的操作不會運行,ibuf的操作也不會運行(ibuf_merge_or_delete_for_page),表信息統(tǒng)計的線程也不會運行(因為一個壞的索引頁會導(dǎo)致數(shù)據(jù)庫崩潰)(info_lowdict_stats_update等)。從這個選項開始,之后的所有選項,都會損壞數(shù)據(jù),慎重使用。
innodb_force_recovery = 5。除了設(shè)置4之后的操作不會運行,回滾段也不會被掃描(recv_recovery_rollback_active),undo鏈表也不會被創(chuàng)建,這個主要用在undo日志被寫壞的情況下。
innodb_force_recovery = 6。除了設(shè)置5之后的操作不會運行,數(shù)據(jù)庫前滾操作也不會進(jìn)行,包括解析和應(yīng)用(recv_recovery_from_checkpoint_start_func)。

總結(jié)

InnoDB實現(xiàn)了一套完善的崩潰恢復(fù)機(jī)制,保證在任何狀態(tài)下(包括在崩潰恢復(fù)狀態(tài)下)數(shù)據(jù)庫掛了,都能正常恢復(fù),這個是與文件系統(tǒng)最大的差別。此外,崩潰恢復(fù)通過redo日志這種物理日志來應(yīng)用數(shù)據(jù)頁的方法,給MySQL Replication帶來了新的思路,備庫是否可以通過類似應(yīng)用redo日志的方式來同步數(shù)據(jù)呢?阿里云RDS MySQL團(tuán)隊在后續(xù)的產(chǎn)品中,給大家?guī)砹祟愃频奶匦裕凑埰诖?p>以上就是關(guān)于MySQL引擎特性以及InnoDB崩潰恢復(fù)詳解的詳細(xì)內(nèi)容,更多請關(guān)注php中文網(wǎng)其它相關(guān)文章!


學(xué)習(xí)教程快速掌握從入門到精通的SQL知識。