About ART - Part 2 - Garbage Collection

已經看過《Year End Report - GC - Give me space! (Java)》的讀者,可將此篇當成續篇來看;還未看過的讀者,建議可先看完前篇,再接續此篇的內容。

目前更新到2008 - 2018年,以下圖片來自不同年份的Google IO或Android Dev Summit。

前面我們提到ART compiler的演進,接著我們來看從Dalvik到ART,Google做了哪些調整。不過帶出ART GC之前,必須先提Dalvik GC。

Dalvik GC

The GC flow

dalvik_gc_1

圖中是Dalvik GC的標準運作流程:

  • 產生物件並放入。
  • 建立初始標記。
  • 從初始標記延伸標記其他物件。
  • 刪除未使用的物件。

在這幾個步驟內,會強制停止所有thread的步驟是與標記有關的階段,以下圖為例:

dalvik_gc_2

  • 第一個pause:在標記初始階段,需要找出所有使用中的物件,以此來建立標記的基準。因此得強制lock所有thread,避免查詢過程中,又有狀態改變的情況。標記完後lock會打開,GC會與程式同時運行,並由前面建立的標記為起點,繼續延伸做標記。
  • 第二個pause:透過前面步驟,所有使用中的物件已被標記,但還是需要做一次確認,確保沒有已標記物件的狀態在這過程中又被改變,所以又再次lock所有thread。確認完後進入刪除的階段,此階段與使用中的物件無關,因此可以與程式並行處理。

一般來說,VSYNC會伴隨畫面繪製(深綠色區塊),但因為GC會lock所有thread,所以看到在第二次pause時,繪製無法順利執行,就產生掉frame的狀況。

GCs back to back

Dalvik GC為了有效使用記憶體空間,會彈性的逐步增加記憶體可佔用的空間範圍,直到系統預設的最大值。這些設定存於system內的build.prop,設定的前綴是dalvik.vm。

但這無法避免記憶體過度零散(heap fragmentation)的問題,原因如下:

  • 物件佔用記憶體後,就會一直在固定位置;所以歷經GC後,物件之間會有些許未使用片段。

這使得記憶體屆滿的情況下,大型物件就容易找不到適合的位置放置,就會不斷觸發清除的動作,也就是前面提過先標記後刪除的過程。在畫面呈現上,就會產生長時間的停頓:

dalvik_gc_3

到此,我們總結Dlavik GC面臨的幾個問題:

  • 每次pause都會lock所有thread。
  • 物件存放後不會再移動,產生記憶體過度零散的狀況。
  • 大型物件在記憶體零散或吃緊時,會不斷觸發GC,造成長時間延遲。

接著來看ART GC如何來解決這樣的情況。

ART GC

art_gc_1

  • 第一個pause:ART GC轉由Application自行標記物件,就不需要lock所有thread,省去pause並達到與原本Dalvik GC第一個pause相同的效果。且就官方說法此步驟非常短暫,Application執行完馬上就會繼續其他工作,不會造成有感的延遲。接著會和Dalvik一樣進行延伸標記。
  • 第二個pause:原本在Dalvik GC,這邊需要處理已標記物件的狀態又改變的狀況,但ART將此工作移到pause之前,此方法稱作Concurrent Card Precleaning,所以這邊pause時間長度也降低許多。

GCs back to back

ART使用LOS(Large Object Heap),從記憶體切出一個獨立的區塊,只存放大物件,避免大物件不斷的觸發GC。而餘下的記憶體區塊中存放小物件,就可以有效避免記憶體過度零散。

一般來說,大物件會是圖片(bitmap),此類並不會引用到其他物件的物件。所以可以合理將其分開存放:

art_gc_2

What’s more

以上提到的改變,已經從根本上解決Dalvik GC的問題。但Google在ART引入了自訂的allocator和不同類型的GC,更加的極大化ART GC所帶來的效益。

Allocator

近年內,Google不斷對allocator進行調整,依照順序介紹如下:

Rosalloc (2014 - 2017)

基於Doug Lea的allocator(dlmalloc),Google自己作了一個allocator,來更有效的分配記憶體。簡單來說,Rosalloc會各別劃分大小物件所能使用的記憶體區塊:小物件在thread local,又稱Thread-Local Allocation Buffers(TLABs),大物件則在共用的區塊內。

Thread-Local Allocation Buffers (2014 - present)

在初始化時,thread會直接被分配各自的記憶體,由於其他thread沒辦法使用,所以不用lock也可以直接存取。而前面提到的大物件則是各自有自己的lock。這兩者搭配起來就能進行同步分配的操作,提升整理效率。

art_gc_3

Bump-the-pointer allocator (2017 - present)

Rosalloc的資料結構是free-list,特色是在宣告或是刪除記憶體時很快,缺點是每個區塊的大小是固定的,如果物件的大小不符,則可能會需要較多的搜尋成本。可以預期的,list的結構多少依然會使得記憶體零散。

Google在2017年使用Bump-the-pointer取代free-list,原因以下兩點,皆出自Oracle文檔

  • Bump-the-pointer只紀錄未被佔用的記憶體區塊的頭尾,這建立在記憶體零散程度很低的前提上。在2017年導入的Concurrent GC,在程式執行過程中就集中記憶體,完成這個前提。
  • Bump-the-pointer面臨的問題是無法被使用在多執行緒上,但可以搭配TLABs解決,這TLABs已經有實作在Rosalloc,因此可以順利轉換。

Multiple types of GC

除了改變GC的行為外,Google也在ART引入各種不同的GC,依照功能分成Non-moving GC和Moving GC:

Non-moving GC

此種GC還可以細分成以下三種類型,並有各自負責的範圍:

  • Concurrent mark sweep:簡稱CMS,負責所有記憶體區塊,包含Zygote和Application的記憶體區塊。
  • Concurrent partial mark sweep:負責Application的記憶體區塊。
  • Concurrent sticky mark sweep:負責前一次沒有被GC的記憶體區塊。

實務上,Google刻意讓Sticky GC執行的頻率高於Partial GC和CMS,因為根據generational hypothesis,越新佔用的的記憶體,越有可能在下一次GC時回收。而在官方實測後,的確如預期得到更高的效率,但效果不打折。

Moving GC

用於集中記憶體區塊,降低記憶體區塊零散的問題,同時代表原本零散區塊間的記憶體可以被有效利用。不過直接移動記憶體區塊,勢必會影響Application的效率。所以依照是否與程式同步又可細分成Concurrent和Non-Concurrent。

Concurrent
  • Concurrent copy

    2017年加入,與其他Moving GC一樣是搬移記憶體,分成幾個步驟如下:

    Pause phase

    concurrent_gc_1如同其他Moving GC,一開始會先將所有thread停住(Stop the world),進行標記的動作,並將記憶體依照一定的大小,做區塊的切分,並分成allocated region和unused region。

    Coping & reclaim phase

    concurrent_gc_2
    切分區塊後,接著決定需要調動的region,這邊選用中間兩個當成source region,在talk內是說因為他們零散程度大於20%。

    Concurrent GC會搬移裡面的記憶體到新的region,然後重新進行指標的連結:例如bar的位置被搬移了,所以foo.x將從原本在source region的位置,改為指向dest region內的bar。

    與其他Moving GC不同的是:因為是與程式執行過程同步,所以在此過程中會攔截讀取的動作,並同時完成搬移和指標轉移。

    結束這環節之後,就不會有任何指標會指向source region,就可以將此段記憶體回收。

    concurrent_gc_3

Nonconcurrent
  • Semi space:劃出新的記憶體空間,直接將要集中的記憶體區塊搬過去。
  • **Mark Compact**:直接在原地將記憶體區塊集中。

非同步的Moving GC會盡量在不影響使用者的狀況下執行,官方說明是有各種方式判定執行時機,舉例如下:

  • Zygote啟動時。
  • Application進入背景時。