(2)基于分布式內(nèi)存的并行計(jì)算
(3)多尺度時(shí)間窗口漂移的動(dòng)態(tài)數(shù)據(jù)處理
基于“流立方”流式大數(shù)據(jù)實(shí)時(shí)處理技術(shù),研發(fā)了“流立方”流式大數(shù)據(jù)實(shí)時(shí)處理平臺(tái)。其應(yīng)用框架如圖1所示,具有良好的靈活性和適應(yīng)性。平臺(tái)的數(shù)據(jù)裝載模塊負(fù)責(zé)從具體業(yè)務(wù)系統(tǒng)中接入實(shí)時(shí)流數(shù)據(jù),數(shù)據(jù)抽取模塊負(fù)責(zé)批量抽取歷史數(shù)據(jù),模型裝載模塊負(fù)責(zé)將分析處理模型集中的計(jì)算模型和腳本加載到平臺(tái)中。當(dāng)收到業(yè)務(wù)系統(tǒng)發(fā)出的實(shí)時(shí)查詢請(qǐng)求時(shí),“流立方”平臺(tái)能夠根據(jù)分析處理模型在完整大數(shù)據(jù)集上實(shí)時(shí)計(jì)算出相應(yīng)的指標(biāo),并進(jìn)行判斷,將結(jié)果反饋給業(yè)務(wù)系統(tǒng)。
基于“流立方”的金融風(fēng)控反欺詐技術(shù)體系包含技術(shù)(如設(shè)備指紋、代理偵測(cè)、生物識(shí)別、關(guān)聯(lián)分析、機(jī)器學(xué)習(xí)等技術(shù))、知識(shí)(如盜卡反欺詐、偽卡反欺詐、信用卡套現(xiàn)、營(yíng)銷反欺詐等規(guī)則與模型)、數(shù)據(jù)(如虛假手機(jī)數(shù)據(jù)、代理IP數(shù)據(jù)、P2P失信數(shù)據(jù)等標(biāo)識(shí)數(shù)據(jù))三大板塊。技術(shù)部分中的設(shè)備指紋技術(shù)通過(guò)主被動(dòng)混合的形式采集設(shè)備中軟硬相關(guān)要素,結(jié)合概率論等算法為每一個(gè)設(shè)備頒發(fā)一個(gè)全球唯一的指紋編碼,這些指紋編碼在反欺詐的整個(gè)過(guò)程中起到非常積極的作用;代理偵測(cè)技術(shù)通過(guò)短時(shí)間內(nèi)掃描IP相關(guān)端口來(lái)識(shí)別那些開(kāi)啟代理的IP,并在這些IP訪問(wèn)金融服務(wù)時(shí)進(jìn)行識(shí)別;生物識(shí)別技術(shù)通過(guò)采集設(shè)備上用戶的鼠標(biāo)點(diǎn)擊、觸摸、鍵盤(pán)敲擊等行為識(shí)別操作者是人還是機(jī)器以及是否操作者本人的問(wèn)題;關(guān)聯(lián)分析技術(shù)在底層通過(guò)圖數(shù)據(jù)庫(kù)存儲(chǔ)不同節(jié)點(diǎn)以及關(guān)系信息,最終在界面上通過(guò)圖的形式進(jìn)行欺詐者關(guān)聯(lián)分析及復(fù)雜網(wǎng)絡(luò)分析;機(jī)器學(xué)習(xí)技術(shù)通過(guò)有監(jiān)督、無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法提升欺詐識(shí)別的準(zhǔn)確率及覆蓋率,并結(jié)合流立方技術(shù)提供模型的事中預(yù)測(cè)能力。
舉個(gè)例子來(lái)說(shuō):我們把數(shù)據(jù)當(dāng)成水庫(kù)的話,水庫(kù)里面存在的水就是批式大數(shù)據(jù),進(jìn)來(lái)的水是流式大數(shù)據(jù)
在測(cè)試環(huán)境為8臺(tái)服務(wù)器(每臺(tái)服務(wù)器配置24核 CPU、256 GB內(nèi)存),同時(shí)計(jì)算16個(gè)統(tǒng)計(jì)指標(biāo)(涉及4個(gè)維度,包含計(jì)數(shù)、求和、平衡、最大、最小、標(biāo)準(zhǔn)差、過(guò)濾、去重、排序、復(fù)雜事件處理等多種算法)的性能測(cè)試中,“流立方”平臺(tái)達(dá)到了單節(jié)點(diǎn)寫(xiě)入大于43 000 TPS、8節(jié)點(diǎn)讀取大于100萬(wàn)TPS、平均時(shí)延為1~2 ms的優(yōu)異性能,如圖2所示。