數(shù)據(jù)庫表分割技術(shù)淺析(水平分割/垂直分割/庫表散列)
2024-08-29 13:55:36
供稿:網(wǎng)友
一.水平分割
什么是水平分割?打個(gè)比較形象的比喻,在食堂吃飯的時(shí)候,只有一個(gè)窗口,排隊(duì)打飯的隊(duì)伍太長了,都排成S型了,這時(shí)容易讓排隊(duì)的人產(chǎn)生焦慮情緒,容易產(chǎn)生混亂,這時(shí)一個(gè)管理者站出來,增加多個(gè)打飯窗口,把那條長長的隊(duì)伍攔腰截?cái)喑蓭钻?duì)。更形象一點(diǎn)的理解,你拿一把“手術(shù)刀”,把一個(gè)大表猛的切了幾刀,結(jié)果這個(gè)大表,變成了幾個(gè)小表.
水平分割根據(jù)某些條件將數(shù)據(jù)放到兩個(gè)或多個(gè)獨(dú)立的表中。即按記錄進(jìn)分分割,不同的記錄可以分開保存,每個(gè)子表的列數(shù)相同。水平切割將表分為多個(gè)表。每個(gè)表包含的列數(shù)相同,但是數(shù)據(jù)行更少。例如,可以將一個(gè)包含十億行的表水平分區(qū)成 12 個(gè)表,每個(gè)小表表示特定年份內(nèi)一個(gè)月的數(shù)據(jù)。任何需要特定月份數(shù)據(jù)的查詢只需引用相應(yīng)月份的表。
通常用來水平分割表的條件有:日期時(shí)間維度、地區(qū)維度等,當(dāng)然還有更多的業(yè)務(wù)維度。下面我舉幾個(gè)例子來解說一下
案例1:某個(gè)公司銷售記錄數(shù)據(jù)量太大了,我們可以對(duì)它按月進(jìn)行水平分割,每個(gè)月的銷售記錄單獨(dú)成一張表。
案例2:某個(gè)集團(tuán)在各個(gè)地區(qū)都有分公司,該集團(tuán)的訂單數(shù)據(jù)表太大了,我們可以按分公司所在的地區(qū)進(jìn)行水平切割。
案例3:某電信公司的話單按日期、地市水平切割后,發(fā)現(xiàn)數(shù)據(jù)量太大,然后他們又按品牌、號(hào)碼段進(jìn)行水平切割
水平分割通常在下面的情況下使用:
?。?)表數(shù)據(jù)量很大,分割后可以降低在查詢時(shí)需要讀的數(shù)據(jù)和索引的頁數(shù),同時(shí)也降低了索引的層數(shù),加快了查詢速度。
?。?)表中的數(shù)據(jù)本來就有獨(dú)立性,例如表中分別記錄各個(gè)地區(qū)的數(shù)據(jù)或不同時(shí)期的數(shù)據(jù),特別是有些數(shù)據(jù)常用,而另外一些數(shù)據(jù)不常用。
(3)需要把數(shù)據(jù)存放到多個(gè)介質(zhì)上。
?。?)需要把歷史數(shù)據(jù)和當(dāng)前的數(shù)據(jù)拆分開。
優(yōu)點(diǎn):
1:降低在查詢時(shí)需要讀的數(shù)據(jù)和索引的頁數(shù),同時(shí)也降低了索引的層數(shù),加快了查詢速度。
缺點(diǎn):
1:水平分割會(huì)給應(yīng)用增加復(fù)雜度,它通常在查詢時(shí)需要多個(gè)表名,查詢所有數(shù)據(jù)需要union操作。在許多數(shù)據(jù)庫應(yīng)用中,這種復(fù)雜性會(huì)超過它帶來的優(yōu)點(diǎn),因?yàn)橹灰饕P(guān)鍵字不大,則在索引用于查詢時(shí),表中增加兩到三倍數(shù)據(jù)量,查詢時(shí)也就增加讀一個(gè)索引層的磁盤次數(shù)。
二.垂直分割
什么是垂直分割呢?打個(gè)形象的比喻,一個(gè)小公司通過短短幾年發(fā)展變成了一個(gè)跨國大企業(yè),以前的部門架構(gòu)明顯不能滿足現(xiàn)在的業(yè)務(wù)發(fā)展,CEO噼里啪啦的把公司分成了財(cái)務(wù)部、人事部、生產(chǎn)部、銷售部門.....,一下子成立了多個(gè)部門,各司其職。這個(gè)還算比較形象吧,有木有?呵呵
你垂直分割表(不破壞第三范式),把主碼(主鍵)和一些列放到一個(gè)表,然后把主碼(主鍵)和另外的一些列放到另一個(gè)表中。將原始表分成多個(gè)只包含較少列的表。如果一個(gè)表中某些列常用,而另外一些列不常用,則可以采用垂直分割。
優(yōu)點(diǎn):
1:垂直分割可以使得行數(shù)據(jù)變小,一個(gè)數(shù)據(jù)塊(Block)就能存放更多的數(shù)據(jù),在查詢時(shí)就會(huì)減少I/O次數(shù)(每次查詢時(shí)讀取的Block 就少)。
2:垂直分割表可以達(dá)到最大化利用Cache的目的。
缺點(diǎn):
1:表垂直分割后,主碼(主鍵)出現(xiàn)冗余,需要管理冗余列
2:會(huì)引起表連接JOIN操作(增加CPU開銷)需要從業(yè)務(wù)上規(guī)避
三. 庫表散列
表散列與水平分割相似,但沒有水平分割那樣的明顯分割界限,采用Hash算法把數(shù)據(jù)分散到各個(gè)分表中, 這樣IO更加均衡。一般來說,我們會(huì)按照業(yè)務(wù)或者功能模塊將數(shù)據(jù)庫進(jìn)行分離,不同的模塊對(duì)應(yīng)不同的數(shù)據(jù)庫或者表,再按照一定的策略對(duì)某個(gè)頁面或者功能進(jìn)行更小的數(shù)據(jù)庫散列,比如用戶表,按照用戶ID進(jìn)行表散列,散列128張表,則應(yīng)就能夠低成本的提升系統(tǒng)的性能并且有很好的擴(kuò)展性