這是系統(tǒng)邏輯框圖,基于PCIe switch的框圖,前中后,前面是兩種背板,這是32個(gè)Ruler SSD,中間是PCIe交換單元,中間虛擬都是table,兩個(gè)switch之間的互連或者向后去連PCIe或者向前連NVMe背板,都可以通過配置來實(shí)現(xiàn)。下面按照這個(gè)框圖給大家介紹每個(gè)單元里,框圖本身通過一些PCIe table的連接方式,我可以接一個(gè)SOC卡,第一種方式,當(dāng)你的業(yè)務(wù)希望的性能稍微低一點(diǎn),有一點(diǎn)的收斂比。如果你覺得對(duì)業(yè)務(wù)的性能更高,用中間的性能方式,只需要改變table,多插一張卡就實(shí)現(xiàn)了。如果想要是裸盤交付的方式,不用插任何卡下面是AI計(jì)算Server的連接方式,可以把兩個(gè)box同時(shí)掛給一臺(tái)服務(wù)器CPU,實(shí)現(xiàn)業(yè)務(wù)的要求。
PCIe switch目前我們選擇的是Microsemi,兩個(gè)96 lane的PCIe switch,PCIe交換模塊采用的是模塊化的。這種設(shè)計(jì)能讓我們?cè)O(shè)計(jì)在第一張框圖里table之間靈活的配置。如果需要降成本,你設(shè)計(jì)一個(gè)系統(tǒng),如果我需要四個(gè)PCIe switch做擴(kuò)展做節(jié)點(diǎn),連就好了。向上可以擴(kuò)展4個(gè),向下去掉一個(gè)。兩個(gè)盒子之間級(jí)聯(lián)或者T-Flex去連,用外部table,內(nèi)部table是x8的。內(nèi)部互聯(lián)有了每一對(duì),是不是包括PCIe標(biāo)準(zhǔn)型號(hào)的,包括USB、串口等,這些都是可以支持Micron Server的。包括一些Micron Server Control。
Riser卡,B和C都是采用Flex定義,從switch板過來的可以直接連到Riser上,下面的T-Flex Standard Riser,按照T-Flex Riser卡定義的Micron Server去實(shí)現(xiàn)自定義。這個(gè)是兩種背板,怎么來實(shí)現(xiàn)U.2背板和EDSFF背板,背板位置不一樣,U.2背板是在前面,EDSFF背板是在上面的空間。
簡(jiǎn)單介紹幾個(gè)應(yīng)用場(chǎng)景,第一個(gè)是SSD池化,T-Flex,第一個(gè)應(yīng)里是沒有任何計(jì)算節(jié)點(diǎn)的是,是純SSD,實(shí)現(xiàn)硬盤SSD資源的存儲(chǔ)池化功能。這個(gè)是異構(gòu)計(jì)算,T-Flex通過每一個(gè)Flex里接一些GPU設(shè)備,服務(wù)器租用 免備案服務(wù)器,最多可以實(shí)現(xiàn)16卡的AI計(jì)算的功能。
最后看一下我們貢獻(xiàn)什么,在ODCC上我們會(huì)把整個(gè)T-Flex的所有設(shè)計(jì)貢獻(xiàn)給ODCC,包括整個(gè)系統(tǒng)的結(jié)構(gòu)設(shè)計(jì)等,后面我會(huì)把所有的設(shè)計(jì)打包放在ODCC組織里,大家需要可以后續(xù)去ODCC獲取。
首先看一下T-Flex系統(tǒng),介紹一下實(shí)現(xiàn)這個(gè)系統(tǒng)的關(guān)鍵部件及設(shè)計(jì),接下來挑幾個(gè)典型應(yīng)用場(chǎng)景介紹一下,后面是今天比較重要的部分,我們決定把T-Flex設(shè)計(jì)貢獻(xiàn)給ODCC,給大家講一下具體有哪些內(nèi)容,開源的,大家可以直接用。
劉超:大家好,我是劉超,來自于騰訊,目前在騰訊負(fù)責(zé)服務(wù)器硬件構(gòu)架設(shè)計(jì)。今天給大家介紹一下目前在騰訊批量部署的IO資源池化系統(tǒng)T-Flex。
天蝎3.0的主要工作方向是資源池化,在此之前,基于SAS switch的已經(jīng)在騰訊部署了,SAS switch解決的是將應(yīng)用資源和計(jì)算資源解耦,實(shí)現(xiàn)硬盤資源池化。主要面向的業(yè)務(wù)需求是在冷存儲(chǔ),也有一定的溫存儲(chǔ)。業(yè)務(wù)本身對(duì)于高性能的IO或者異構(gòu)計(jì)算,或者是高性能的存儲(chǔ)有強(qiáng)烈的需求。我們面臨的第一個(gè)問題是需求多樣化的問題,不同的業(yè)務(wù)對(duì)硬件IO性能要求,包括對(duì)設(shè)備配置配比要求不一樣。我們要求我們硬件設(shè)備有頂層的配置可編程能力,這樣才能滿足多元化資源的敏捷交付。這是2U通用服務(wù)器的形態(tài)。T-Flex在大多數(shù)的配置情況下是一個(gè)box,云主機(jī)租用,里面不含計(jì)算資源,但是有些可以獨(dú)立加上資源成為一個(gè)系統(tǒng)。前窗,一種是比較常見的24個(gè)U.2的,第二種是Ruler SSD,單條最大是32T,兩個(gè)前窗之間可以非常靈活的轉(zhuǎn)換,本身在系統(tǒng)級(jí)配置有比較強(qiáng)的擴(kuò)展能力,F(xiàn)lex,系統(tǒng)相對(duì)來說比較靈活。我們現(xiàn)在給大家展示的機(jī)柜上的配置裝置,首先說明的這種配置方式里面沒有計(jì)算資源,一個(gè)單獨(dú)的T-Flex可以支持16個(gè)節(jié)點(diǎn),如果一臺(tái)服務(wù)器配多個(gè)T-Flex,一臺(tái)服務(wù)器最多接4個(gè)box。T-Flex剛才我們看到第一頁支持的是標(biāo)準(zhǔn)的PCI-E,當(dāng)有些情況下我們需要在box內(nèi)部配置一個(gè)Micro Server的時(shí)候配一個(gè)這種后窗,可以通過非常方便的方式,這個(gè)后窗可以支持幾種Micro Server,第一種是OCP,T-Flex后窗可以支持這兩種Micron Server。
10月17日,2018年開放數(shù)據(jù)峰會(huì)(Open Data Center Summit 2018)于上午在北京國際會(huì)議中心開幕。作為數(shù)據(jù)中心行業(yè)的一大盛事,ODCC每年都將匯聚數(shù)千名數(shù)據(jù)中心專家與幾十名主流媒體。本屆峰會(huì)時(shí)間為16日-17日,ODCC將發(fā)布最新研究成果,碰撞尖端熱點(diǎn)技術(shù),分享國際技術(shù)進(jìn)展,展示主流產(chǎn)品應(yīng)用。
今天我的介紹就這么多。