技術(shù)
導(dǎo)讀:對(duì)于BI、大數(shù)據(jù)和AI之間的關(guān)系,可以理解為,大數(shù)據(jù)是AI場(chǎng)景應(yīng)用的重要基礎(chǔ),而AI是大數(shù)據(jù)的應(yīng)用的重要領(lǐng)域。
對(duì)于BI、大數(shù)據(jù)和AI之間的關(guān)系,可以理解為,大數(shù)據(jù)是AI場(chǎng)景應(yīng)用的重要基礎(chǔ),而AI是大數(shù)據(jù)的應(yīng)用的重要領(lǐng)域。
近年,隨著企業(yè)數(shù)字化轉(zhuǎn)型的不斷深入,以及對(duì)智能化場(chǎng)景應(yīng)用需求的日趨迫切,使得企業(yè)對(duì)大數(shù)據(jù)、人工智能、BI等技術(shù)越來越關(guān)注。這使得企業(yè)在數(shù)據(jù)應(yīng)用實(shí)踐中面臨一個(gè)問題,到底是選擇大數(shù)據(jù)還是BI?這是其實(shí)是兩者實(shí)際上時(shí)相互依賴,相互滲透遞進(jìn)的。
什么是商業(yè)智能?
商業(yè)智能,英文是Business Intelligence,縮寫B(tài)I,是用來幫助企業(yè)更好地利用數(shù)據(jù)提高決策質(zhì)量的技術(shù)集合,是從大量的數(shù)據(jù)中鉆取信息與知識(shí)的過程。對(duì)于概念大家可能一知半解。如什么叫高質(zhì)量決策的技術(shù)集合?什么叫鉆取信息與知識(shí)?對(duì)于完全沒有基礎(chǔ)的人是很難理解?下面就從到一個(gè)餐廳點(diǎn)單開始說起。
餐廳點(diǎn)單的時(shí)候,顧客點(diǎn)了一份水煮魚片,這是一個(gè)需求。有了這個(gè)需求,餐廳就得照單備菜,這就需要我們把原材料準(zhǔn)備好,比如草魚或青魚、配菜如豆芽和千張等,備好的菜統(tǒng)一放置到菜架,廚師就可以直接炒菜了。
對(duì)應(yīng)BI,客戶點(diǎn)菜等同于企業(yè)提出一個(gè)業(yè)務(wù)需求,比如管理者要查看過去一周全國的銷售數(shù)據(jù),備菜過程就相當(dāng)于我們要準(zhǔn)備一張報(bào)表,這張報(bào)表要按照需求準(zhǔn)備相關(guān)數(shù)據(jù),比如銷售總數(shù)據(jù)、子產(chǎn)品數(shù)據(jù)以及相關(guān)的銷售人員數(shù)據(jù)等。同樣的,這些備好數(shù)據(jù)從各種數(shù)據(jù)源抽取后放到“數(shù)據(jù)倉庫”,報(bào)表開發(fā)人員可以從里面直接找到數(shù)據(jù)制作報(bào)表。
當(dāng)然,這只是一個(gè)簡單的流程,真正的過程還涉及很多步驟。比如下鍋炒菜之前,你不能直接把魚丟盡鍋里,你還得給魚開膛破腹,把內(nèi)臟取出并進(jìn)行清洗,還要按照客戶的需求,將魚切成一片片的,這是一個(gè)把源材料變成一個(gè)真正可用可下鍋的一個(gè)過程。對(duì)BI而言,這個(gè)過程就是ETL——Extract抽取,把魚拿出來;Transformation轉(zhuǎn)換,把魚變成魚片,完成清洗和轉(zhuǎn)換工作;Loading加載,把洗凈的魚片放到菜架以供隨時(shí)下鍋。
數(shù)據(jù)的準(zhǔn)備過程和菜品原材料的清洗過程是一樣的道理,數(shù)據(jù)是存放在一些數(shù)據(jù)表中,但是并不是所有的數(shù)據(jù)都需要抽取出來,只有需要用到的數(shù)據(jù)才會(huì)被抽?。‥xtract);涉及到一些數(shù)據(jù)需要去重、合并計(jì)算、格式轉(zhuǎn)換等都屬于Transformation階段;Loading,最后把數(shù)據(jù)統(tǒng)一加載到數(shù)據(jù)倉庫Data Warehouse,數(shù)據(jù)倉庫中有一組表。
源數(shù)據(jù)的采集和加載也是同樣的道理,數(shù)據(jù)可能是來自外部系統(tǒng),也可能來自內(nèi)部的不同業(yè)務(wù)系統(tǒng),比如CRM、ERP,也有來自業(yè)務(wù)人員的EXCEL表格,這些統(tǒng)稱為Data Source數(shù)據(jù)源。
亦策觀數(shù)臺(tái)幾乎可以連接任何數(shù)據(jù)源,包括基于文件的源,特定于應(yīng)用程序的源以及大數(shù)據(jù)源。無需事先對(duì)其進(jìn)行完全建?;蝾A(yù)先聚合數(shù)據(jù)。觀數(shù)臺(tái)自助數(shù)據(jù)準(zhǔn)備工具,為復(fù)雜的場(chǎng)景提供強(qiáng)大的數(shù)據(jù)集成腳本。這些數(shù)據(jù)準(zhǔn)備功能有助于公開數(shù)據(jù)區(qū)域和可能存在問題的業(yè)務(wù),可以創(chuàng)建價(jià)值而無需外部工具或數(shù)據(jù)倉庫。
這些數(shù)據(jù)通過ETL工具原封不動(dòng)的抽取到一個(gè)叫做ODS或者STAGING的數(shù)據(jù)庫先存放起來,就類似于把菜買回來先放到廚房,先放起來。后面才有數(shù)據(jù)的清洗、整理,完畢之后才放到數(shù)據(jù)倉庫,在之后就是制作報(bào)表的過程。
在亦策觀數(shù)臺(tái)中,ODS數(shù)據(jù)庫作為業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉庫之間的一個(gè)隔離層,用于存放從業(yè)務(wù)系統(tǒng)直接抽取出來的數(shù)據(jù)。一方面ODS數(shù)據(jù)庫使數(shù)據(jù)從粒度、組織方式等各個(gè)方面都保持與業(yè)務(wù)系統(tǒng)一致,原來由業(yè)務(wù)系統(tǒng)產(chǎn)生的報(bào)表、細(xì)節(jié)數(shù)據(jù)的查詢自然能夠從ODS中進(jìn)行,降低對(duì)業(yè)務(wù)系統(tǒng)的查詢壓力。另一方面數(shù)據(jù)倉庫存儲(chǔ)的數(shù)據(jù)都是匯總過的數(shù)據(jù),并不存儲(chǔ)每筆交易產(chǎn)生的細(xì)節(jié)數(shù)據(jù),在某些特殊的應(yīng)用中,可能需要對(duì)交易細(xì)節(jié)數(shù)據(jù)進(jìn)行查詢,這時(shí)就需要把細(xì)節(jié)數(shù)據(jù)查詢的功能轉(zhuǎn)移到ODS來完成,ODS的數(shù)據(jù)模型按照面向主題的方式進(jìn)行存儲(chǔ),可以方便地支持多維分析等查詢功能。
大數(shù)據(jù)不是BI的簡單升級(jí)
隨著大數(shù)據(jù)、AI等技術(shù)快速發(fā)展,以及大數(shù)據(jù)應(yīng)用在行業(yè)的落地,企業(yè)對(duì)BI和大數(shù)據(jù)的選擇陷入到一個(gè)“非此即彼”的思維。專業(yè)人士告訴你,不必如此。
雖然大數(shù)據(jù)與BI是兩種不同概念和工具,但卻是社會(huì)發(fā)展到不同階段的產(chǎn)物,大數(shù)據(jù)對(duì)于BI,既有傳承,也有發(fā)展。大數(shù)據(jù)和AI在落地應(yīng)用的過程中需要一系列產(chǎn)品作為技術(shù)承載體,而BI就是一個(gè)比較理想的承載體。BI可以看成是技術(shù)與業(yè)務(wù)結(jié)合的橋梁。當(dāng)前企業(yè)在進(jìn)行人工智能改造過程中并不能馬上脫離原有的信息化體系,既如此,就必須借助于BI來完成智能化過渡。
從思想角度上來看,大數(shù)據(jù)和BI都是遵循“數(shù)據(jù)-信息-知識(shí)-智慧”的發(fā)展過程,兩者的區(qū)別在于以下幾點(diǎn):
第一,數(shù)據(jù)來源。BI的數(shù)據(jù)來源一般為企業(yè)內(nèi)部信息化系統(tǒng)中的數(shù)據(jù),大數(shù)據(jù)的數(shù)據(jù)來源不僅包含企業(yè)內(nèi)部的信息化系統(tǒng)的數(shù)據(jù),還包括各種外部系統(tǒng)、機(jī)器設(shè)備、數(shù)據(jù)庫的數(shù)據(jù)。大數(shù)據(jù)的數(shù)據(jù)來源更廣泛,而且數(shù)據(jù)更多的來自于云端,可無限擴(kuò)展。
第二,發(fā)展方向。對(duì)企業(yè)來說,BI是一種管理和思維方式的轉(zhuǎn)變,對(duì)企業(yè)內(nèi)部數(shù)據(jù)進(jìn)行分析,支撐企業(yè)運(yùn)營與決策,從傳統(tǒng)商業(yè)模式走向商業(yè)智能。大數(shù)據(jù)除了解決企業(yè)業(yè)務(wù)問題,還包括與行業(yè)、產(chǎn)業(yè)的深度融合,不同行業(yè)所呈現(xiàn)的內(nèi)容與分析維度各不相同,是用全新的數(shù)據(jù)技術(shù)手段來拓展和優(yōu)化企業(yè)業(yè)務(wù)。
第三,技術(shù)標(biāo)簽。BI的技術(shù)標(biāo)簽包括ETL、數(shù)據(jù)倉庫、OLAP、可視化報(bào)表。大數(shù)據(jù)的技術(shù)標(biāo)簽則包括Hadoop、MPP、HDFS、MapReduce、流處理等。隨著時(shí)代的變革與技術(shù)的迭代,BI經(jīng)歷了多次優(yōu)化和變革,新型BI被賦予更多“大數(shù)據(jù)”潛能,既滿足海量實(shí)時(shí)數(shù)據(jù)分析,也滿足決策型的業(yè)務(wù)分析。
目前廠商推出一站式大數(shù)據(jù)分析平臺(tái),基本上都是大數(shù)據(jù)與BI相結(jié)合的產(chǎn)物,既解決了大數(shù)據(jù)和BI之間如何取舍的問題,還融入了AI增強(qiáng)功能。比如亦策觀數(shù)臺(tái)就是新一代增強(qiáng)智能協(xié)同BI平臺(tái),不僅全面支持中文自然語言查詢,還能讓用戶在所有可視化、圖表、圖形和其他對(duì)象中進(jìn)行選擇,并可以使用全局搜索來表現(xiàn)數(shù)據(jù)、關(guān)聯(lián)和分析。
因此,對(duì)于BI、大數(shù)據(jù)和AI之間的關(guān)系,可以理解為,大數(shù)據(jù)是AI場(chǎng)景應(yīng)用的重要基礎(chǔ),而AI是大數(shù)據(jù)的應(yīng)用的重要領(lǐng)域。大數(shù)據(jù)的重要價(jià)值體現(xiàn):一是人工智能產(chǎn)品,為智能體提供的數(shù)據(jù)量越大,智能體運(yùn)行的效果就會(huì)越好,因?yàn)橹悄荏w通常需要大量的數(shù)據(jù)進(jìn)行“訓(xùn)練”和“驗(yàn)證”,從而保障運(yùn)行的可靠性和穩(wěn)定性。二是人工智能需要大量的數(shù)據(jù)作為“思考”和“決策”的基礎(chǔ),另一方面大數(shù)據(jù)也需要人工智能技術(shù)進(jìn)行數(shù)據(jù)價(jià)值化操作,比如機(jī)器學(xué)習(xí)就是數(shù)據(jù)分析的常用方式。