當(dāng)前位置:首頁 > IT技術(shù) > 數(shù)據(jù)庫 > 正文

企業(yè)如何通過圖數(shù)據(jù)庫及知識(shí)圖譜形成業(yè)務(wù)壁壘
2021-09-28 16:52:34

隨著業(yè)務(wù)數(shù)據(jù)量級(jí)猛增、業(yè)務(wù)數(shù)據(jù)類型愈加多樣化、業(yè)務(wù)復(fù)雜程度的激增,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫早已無法反映企業(yè)業(yè)務(wù)情況的全貌,對(duì)于分析對(duì)象之間的關(guān)系洞察也顯露出了能力瓶頸。在這樣的大背景下,企業(yè)對(duì)圖數(shù)據(jù)庫的需求應(yīng)運(yùn)而生。

區(qū)別于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,圖數(shù)據(jù)庫以實(shí)體為點(diǎn),點(diǎn)與點(diǎn)的關(guān)聯(lián)關(guān)系為邊,對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)。企業(yè)開始使用原生圖存儲(chǔ)的形式存儲(chǔ)多樣化的數(shù)據(jù),是希望能夠使用圖的計(jì)算形式來對(duì)實(shí)體間錯(cuò)綜復(fù)雜的關(guān)系快速形成深入洞察,從而沉淀成企業(yè)智慧,進(jìn)一步提升業(yè)務(wù)的智能化水平,降低現(xiàn)有高昂的人力成本,解決以往的人力決策難以跟上業(yè)務(wù)數(shù)據(jù)發(fā)展的問題。



以大數(shù)據(jù)能力為堅(jiān)實(shí)底座

圖數(shù)據(jù)庫+TDH計(jì)算引擎實(shí)現(xiàn)優(yōu)異的性能表現(xiàn)

目前市面上的開源圖數(shù)據(jù)庫較適用于個(gè)人用戶,對(duì)于企業(yè)用戶而言,圖數(shù)據(jù)一般來源于已有的大數(shù)據(jù)系統(tǒng),隨著數(shù)據(jù)量的增長(zhǎng)和業(yè)務(wù)模型逐漸復(fù)雜,開源圖數(shù)據(jù)庫既無法承受大規(guī)模圖存儲(chǔ)和計(jì)算,也無法融入大數(shù)據(jù)生態(tài),徒增系統(tǒng)復(fù)雜程度。

基于此痛點(diǎn),星環(huán)科技自主研發(fā)了分布式圖數(shù)據(jù)庫StellarDB,以分布式的計(jì)算引擎為動(dòng)力,可幫助用戶實(shí)現(xiàn)任意數(shù)據(jù)規(guī)模的圖計(jì)算,且計(jì)算能力隨節(jié)點(diǎn)數(shù)線性擴(kuò)展,可以支撐萬億級(jí)別圖規(guī)模存儲(chǔ)。除了支持大規(guī)模的數(shù)據(jù)集外,StellarDB還具備深度的圖分析能力,支持10層以上的深度復(fù)雜圖遍歷。

星環(huán)圖數(shù)據(jù)庫StellarDB為大數(shù)據(jù)平臺(tái)提供了良好的兼容服務(wù),可以快速接入已有的大數(shù)據(jù)平臺(tái)。

企業(yè)如何通過圖數(shù)據(jù)庫及知識(shí)圖譜形成業(yè)務(wù)壁壘_知識(shí)圖譜

圖1 星環(huán)科技分布式圖數(shù)據(jù)庫StellarDB


StellarDB的查詢性能和圖算法能力已經(jīng)達(dá)到行業(yè)領(lǐng)先水平。本次測(cè)試采用了公開數(shù)據(jù)集twitter-2010,其點(diǎn)邊規(guī)模分別為四千萬和十四億。對(duì)比圖數(shù)據(jù)庫分別為:StellarDB 3.0.12,Neo4j 4.3.3,ArangoDB 3.7.11,以及JanusGraph 0.5.2。本次比較的內(nèi)容包括:數(shù)據(jù)導(dǎo)入測(cè)試、多度查詢測(cè)試、多度最短路徑測(cè)試,以及圖算法測(cè)試。

最終結(jié)果如圖2所示,橫坐標(biāo)表示耗時(shí)的倍數(shù),以StellarDB的運(yùn)行時(shí)長(zhǎng)為基準(zhǔn),設(shè)定為1,柱越長(zhǎng)代表查詢或?qū)肴蝿?wù)耗時(shí)越久,無柱狀表示超過2h無結(jié)果返回或出現(xiàn)OOM報(bào)錯(cuò)。

我們首先來看數(shù)據(jù)導(dǎo)入速度,StellarDB在面對(duì)十億邊數(shù)據(jù)量集的導(dǎo)入速度在15分鐘左右,其他開源數(shù)據(jù)庫的導(dǎo)入時(shí)間在近半小時(shí)級(jí)至半天級(jí)不等。我們接下來對(duì)2度及3度查詢進(jìn)行比較,可以看到在4次查詢?nèi)蝿?wù)當(dāng)中,StellarDB均有較好的性能表現(xiàn):2度鄰居查詢的性能分別為其他產(chǎn)品的5-20倍不等;2度最短路徑查詢甚至達(dá)到1~40倍不等;3度最短路徑查詢達(dá)到1.4倍;而在3層鄰居查詢?nèi)蝿?wù)中,StellarDB能在亞分鐘級(jí)查詢出4.3億條結(jié)果,而ArangoDB在4項(xiàng)查詢?nèi)蝿?wù)中均超時(shí)。在圖算法方面,StellarDB的PageRank結(jié)果返回速度也超其他返回結(jié)果速度2倍以上。

可見,面對(duì)國外廠商N(yùn)eo4j擅長(zhǎng)的小數(shù)據(jù)量短查詢場(chǎng)景,StellarDB在大圖2度鄰居查詢中表現(xiàn)出了5倍的較大優(yōu)勢(shì),并快速查詢出Neo4j無法返回的3度鄰居查詢??梢?strong>StellarDB對(duì)于海量的大圖數(shù)據(jù)集有明顯的性能優(yōu)勢(shì),且隨著層數(shù)的增大,對(duì)多度及最短路徑的查詢優(yōu)勢(shì)愈加明顯,而其他圖數(shù)據(jù)庫往往會(huì)產(chǎn)生報(bào)錯(cuò)、無法返回結(jié)果等情況。

企業(yè)如何通過圖數(shù)據(jù)庫及知識(shí)圖譜形成業(yè)務(wù)壁壘_知識(shí)圖譜_02

圖2 StellarDB性能測(cè)試耗時(shí)對(duì)比圖


在使用便捷性方面,StellarDB內(nèi)置了近20種常見的圖算法,可滿足用戶各類圖分析需求,并且支持2D/3D的全景分析及展現(xiàn),利用可視化技術(shù)幫助用戶快速獲取數(shù)據(jù)基于關(guān)聯(lián)性的深度洞察。同時(shí),StellarDB可以滿足實(shí)時(shí)圖查詢和離線算法分析的需求,無需學(xué)習(xí)特定的編程語言,只需基于主流的openCypher圖形查詢語言,即可完成復(fù)雜的查詢?nèi)蝿?wù)。在某些金融場(chǎng)景,用戶甚至無需輸入圖形查詢語言,使用自然語言即可進(jìn)行快速檢索。

成本方面,StellarDB采用了多種數(shù)據(jù)編碼和壓縮策略,有效降低海量圖數(shù)據(jù)對(duì)于存儲(chǔ)資源的需求。相較于開源圖數(shù)據(jù)庫,StellarDB可使用更少的節(jié)點(diǎn)實(shí)現(xiàn)更快的查詢。跑在更少的服務(wù)器資源上,可極大降低用戶的采購、運(yùn)維、空間及能耗成本及開銷,以滿足企業(yè)“碳達(dá)峰”、“碳中和”的需求。

企業(yè)級(jí)功能方面,StellarDB具備完整的企業(yè)級(jí)功能,為企業(yè)客戶設(shè)計(jì)了多維度的權(quán)限控制模型,支持圖級(jí)別、標(biāo)簽級(jí)別、屬性級(jí)別三層權(quán)限設(shè)置;提供了數(shù)據(jù)加密和配置掩碼規(guī)則,保障敏感數(shù)據(jù)的安全性;提供增量和全量數(shù)據(jù)備份,以及在線跨集群數(shù)據(jù)恢復(fù),協(xié)助客戶保障集群數(shù)據(jù)完整性;提供安全認(rèn)證和訪問控制,支持Kerberos和LDAP登陸和授權(quán)。

產(chǎn)品資質(zhì)方面,StellarDB具備自主知識(shí)產(chǎn)權(quán),且已獲得圖數(shù)據(jù)庫基礎(chǔ)能力專項(xiàng)測(cè)評(píng)證書,可與國產(chǎn)的操作系統(tǒng)和硬件平臺(tái)兼容。



輔以KG等AI驅(qū)動(dòng)的應(yīng)用開發(fā)工具

實(shí)現(xiàn)金融風(fēng)控全鏈路支撐

基于圖數(shù)據(jù)庫,用戶可以在上層開發(fā)通用或行業(yè)知識(shí)圖譜,將企業(yè)的業(yè)務(wù)規(guī)則、決策智慧沉淀下來,并賦能搜索引擎、推薦系統(tǒng)、實(shí)時(shí)風(fēng)險(xiǎn)預(yù)警等應(yīng)用系統(tǒng),實(shí)現(xiàn)集團(tuán)的數(shù)字化轉(zhuǎn)型。

以金融監(jiān)管機(jī)構(gòu)為例,可實(shí)現(xiàn)集團(tuán)派系知識(shí)圖譜、產(chǎn)業(yè)鏈知識(shí)圖譜、擔(dān)保鏈知識(shí)圖譜、反洗錢知識(shí)圖譜等的構(gòu)建;以銀行為例,星環(huán)科技可以幫助用戶構(gòu)建企業(yè)管理關(guān)系圖譜、小微企業(yè)風(fēng)險(xiǎn)事件圖譜、社交畫像知識(shí)圖譜、供應(yīng)鏈知識(shí)圖譜,從而實(shí)現(xiàn)貸后資金穿透管理和風(fēng)險(xiǎn)傳遞預(yù)估;投資圖譜方面,星環(huán)科技可幫助證券、基金、期貨企業(yè)構(gòu)建智能投研知識(shí)圖譜、FOF投研知識(shí)圖譜、大宗商品知識(shí)圖譜等,可實(shí)現(xiàn)輿情事件的實(shí)時(shí)接入、風(fēng)險(xiǎn)事件的實(shí)時(shí)預(yù)警及風(fēng)險(xiǎn)傳導(dǎo)的可視化。

除以上應(yīng)用外,圖數(shù)據(jù)庫及知識(shí)圖譜技術(shù)也大量應(yīng)用于可疑團(tuán)伙發(fā)現(xiàn)、產(chǎn)品或服務(wù)的精準(zhǔn)推薦、社交網(wǎng)絡(luò)分析、疫情溯源與防控等領(lǐng)域。

企業(yè)如何通過圖數(shù)據(jù)庫及知識(shí)圖譜形成業(yè)務(wù)壁壘_知識(shí)圖譜_03

圖3 星環(huán)科技Sophon KG的企業(yè)知識(shí)圖譜界面




星環(huán)科技提供用戶

從點(diǎn)到線再到面的立體智能分析能力

星環(huán)科技為用戶串聯(lián)起了從底層的關(guān)系型數(shù)據(jù)庫、大數(shù)據(jù)平臺(tái)到中層的圖數(shù)據(jù)庫,再到上層知識(shí)圖譜應(yīng)用的全棧產(chǎn)品,實(shí)現(xiàn)了從最底層獨(dú)立的“點(diǎn)”分析到關(guān)系的“線”分析再到事件的“面”分析,最終形成行業(yè)全面的“體”分析的全棧智能分析賦能。從點(diǎn)到面再到體的一站式分析工具提供,可以搭建緊密相扣的工作流鏈路,對(duì)于用戶而言,能夠大量節(jié)省開發(fā)成本和基礎(chǔ)算力,顯著提升分析性能。

展開來講:

(1)“點(diǎn)”:傳統(tǒng)數(shù)據(jù)分析是利用關(guān)系型數(shù)據(jù)庫或不含圖數(shù)據(jù)庫的OLAP大數(shù)據(jù)平臺(tái),針對(duì)單個(gè)實(shí)體或?qū)傩赃M(jìn)行統(tǒng)計(jì)分析或機(jī)器學(xué)習(xí)建模,它只能處理單個(gè)或多個(gè)獨(dú)立“點(diǎn)”的信息。


(2)“線”:而當(dāng)用戶想基于點(diǎn)和點(diǎn)之間的關(guān)系進(jìn)行多層關(guān)聯(lián)關(guān)系分析時(shí),關(guān)系型數(shù)據(jù)庫會(huì)遇到多表join的挑戰(zhàn)而無法返回結(jié)果。此時(shí)使用分布式的圖數(shù)據(jù)庫即可在快速返回海量的大圖分析結(jié)果,實(shí)現(xiàn)對(duì)“線”的分析。


(3)“面”:當(dāng)錯(cuò)綜復(fù)雜的線形成一個(gè)網(wǎng)絡(luò)時(shí),我們需要使用屬性圖、圖建模的技術(shù)來對(duì)復(fù)雜網(wǎng)絡(luò)進(jìn)行分析,如提取網(wǎng)絡(luò)中的特征或模式,并固化這些模式和知識(shí),泛化至業(yè)務(wù)系統(tǒng)當(dāng)中,形成企業(yè)的知識(shí)資產(chǎn)。


(4)“體”:最后,當(dāng)遇到多層次、多維度的網(wǎng)絡(luò)時(shí),有異構(gòu)圖分析能力的知識(shí)圖譜可以幫助企業(yè)形成語義網(wǎng)絡(luò),比方說將企業(yè)上下游、輿情信息等多源異構(gòu)的網(wǎng)絡(luò)進(jìn)行整體分析,形成對(duì)某一標(biāo)的的價(jià)格走勢(shì)預(yù)判,最終實(shí)現(xiàn)對(duì)“體”的分析。



企業(yè)如何通過圖數(shù)據(jù)庫及知識(shí)圖譜形成業(yè)務(wù)壁壘_知識(shí)圖譜_04

圖4 星環(huán)科技從“點(diǎn)”到“面”的立體智能分析能力


星環(huán)科技從點(diǎn)至面的立體智能分析方案,其底層除支持TDH極速大數(shù)據(jù)平臺(tái)外,利用聯(lián)邦計(jì)算技術(shù)可集成多個(gè)異構(gòu)數(shù)據(jù)源、跨平臺(tái)的數(shù)據(jù)擁有方,做到在不直接進(jìn)行數(shù)據(jù)交換的前提下,獲得全體數(shù)據(jù)的計(jì)算結(jié)果。此外,基于多模型的大數(shù)據(jù)技術(shù)架構(gòu),可通過8種獨(dú)立的存儲(chǔ)引擎支持業(yè)界主流的10種存儲(chǔ)模型,對(duì)于用戶來說,可對(duì)關(guān)系型數(shù)據(jù)、文本數(shù)據(jù)、地理空間數(shù)據(jù)、圖數(shù)據(jù)、時(shí)序數(shù)據(jù)等進(jìn)行統(tǒng)一的存儲(chǔ)、查詢計(jì)算和融合分析。

我們相信,圖數(shù)據(jù)庫作為Gartner發(fā)布的2021數(shù)據(jù)分析十大技術(shù)之一,將以極大的潛能挖掘海量數(shù)據(jù)的無限價(jià)值,并輔以知識(shí)圖譜等AI驅(qū)動(dòng)的開發(fā)工具,從圖計(jì)算及圖模式探索中不斷沉淀新的業(yè)務(wù)規(guī)則,實(shí)時(shí)賦能上層業(yè)務(wù)。隨著圖計(jì)算和處理技術(shù)的不斷普及,企業(yè)能通過掌握從“點(diǎn)”到“線”至“面”的立體智能分析能力,不斷積累知識(shí)和業(yè)務(wù)深層規(guī)律,最終構(gòu)成企業(yè)堅(jiān)實(shí)的業(yè)務(wù)壁壘。

本文摘自 :https://blog.51cto.com/u

開通會(huì)員,享受整站包年服務(wù)立即開通 >