很多事實(shí)證明,利用大數(shù)據(jù)可以獲取App的巨大商業(yè)價(jià)值,正是有了這些大數(shù)據(jù),企業(yè)運(yùn)營(yíng)者才能參考這些數(shù)據(jù),并以之為起點(diǎn),從大數(shù)據(jù)中挖掘出更多的“機(jī)會(huì)”。但要抓住大數(shù)據(jù)的機(jī)會(huì)并從中獲取商業(yè)價(jià)值,需要建立在具有先進(jìn)分析方法的基礎(chǔ)上。
大數(shù)據(jù)分析方法,通常有以下幾種。
(1)可視化分析
數(shù)據(jù)的可視化分析,是指將數(shù)據(jù)加以收集、篩選、分析、歸納、組合,通過(guò)不同的展現(xiàn)方式提供給用戶,讓其發(fā)現(xiàn)不同數(shù)據(jù)之間的關(guān)聯(lián)信息??梢暬治鲎畲蟮奶攸c(diǎn)就是直觀,這個(gè)特點(diǎn)更有利于用戶接受,使復(fù)雜的數(shù)據(jù)如同看圖說(shuō)話一樣簡(jiǎn)單明了。
大數(shù)據(jù)分析的特征:
①實(shí)時(shí)性:數(shù)據(jù)可視化分析適應(yīng)了大數(shù)據(jù)時(shí)代數(shù)據(jù)爆炸式增長(zhǎng)的需求,更新速度快、周期短,緊隨市場(chǎng)形勢(shì)變化。
②簡(jiǎn)單操作:數(shù)據(jù)可視化快速開發(fā)、易于操作,同時(shí)也便于用戶的理解。
③展現(xiàn)方式多樣化:數(shù)據(jù)可視化具有更豐富的展現(xiàn)方式,能充分滿足數(shù)據(jù)展現(xiàn)的多維度要求。
④多種數(shù)據(jù)集成支持方式:數(shù)據(jù)的來(lái)源不僅僅局限于數(shù)據(jù)庫(kù),還可以依賴于數(shù)據(jù)可視化工具,互聯(lián)網(wǎng)協(xié)作、數(shù)據(jù)倉(cāng)庫(kù)、文本等多種方式。
(2)數(shù)據(jù)挖掘算法
數(shù)據(jù)挖掘是大數(shù)據(jù)分析的理論核心,因此,進(jìn)行數(shù)據(jù)分析離不開數(shù)據(jù)挖掘算法。所謂的數(shù)據(jù)挖掘算法,是指根據(jù)數(shù)據(jù)創(chuàng)建、數(shù)據(jù)挖掘模型進(jìn)行計(jì)算的一組方法,算法有很多種,各種算法都是基于不同的數(shù)據(jù)類型和模式。
這種方法能更加科學(xué)地呈現(xiàn)出數(shù)據(jù)本身的特點(diǎn),深入數(shù)據(jù)內(nèi)部,挖掘出公認(rèn)的價(jià)值。數(shù)據(jù)挖掘比較常用的有六大算法,分別如下。
①C4.5
這是一種決策樹算法(由于這種決策分支畫成圖形很像一棵樹的樹干,故稱決策樹),這種方法是需要每次選擇一個(gè)好的特征以及分裂點(diǎn)作為當(dāng)前節(jié)點(diǎn)的分類條件。
這種方法是ID3的改進(jìn)算法,ID3選擇屬性用的是子樹的信息增益,而C4.5用的是信息增益率,所以基本上了解了一半決策樹構(gòu)造方法就能構(gòu)造決
策樹。
②CART
CART也是一種決策樹算法,相對(duì)于上面有條件實(shí)現(xiàn)一個(gè)節(jié)點(diǎn)下面有多個(gè)子樹的多元分類,CART只是分為兩個(gè)子樹,這樣實(shí)現(xiàn)起來(lái)稍稍簡(jiǎn)便些。所以說(shuō)CART算法生成的決策樹是結(jié)構(gòu)簡(jiǎn)潔的二叉樹。
③K-Means
K-Means是一種使用最廣泛的聚類方法,算法很簡(jiǎn)單。
a.首先,從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類中心。
b.對(duì)于所剩下的其他對(duì)象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類。
c.然后計(jì)算每個(gè)所獲新聚類的聚類中心(該聚類中所有對(duì)象的均值)。
d.不斷重復(fù)這一過(guò)程,直到標(biāo)準(zhǔn)測(cè)度函數(shù)開始收斂為止。值得注意的是,這種方法一般采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù),k個(gè)聚類具有以下特點(diǎn):各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。
④Apriori
這種算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過(guò)候選集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集,即是通過(guò)支持度和置信度兩個(gè)量來(lái)工作。現(xiàn)已經(jīng)被廣泛應(yīng)用于商業(yè)、網(wǎng)絡(luò)安全等各個(gè)領(lǐng)域。
具體的算法如下。
a.第一步,首先找出所有的頻繁項(xiàng)集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。
b.第二步,然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則(這些規(guī)則必須滿足最小支持度和最小可信度)。
c.再使用第一步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng)(一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才能被留下來(lái))。
在這個(gè)過(guò)程中,可通過(guò)頻繁項(xiàng)集的一些規(guī)律(頻繁項(xiàng)集的子集必定是頻繁項(xiàng)集)進(jìn)行剪枝,過(guò)濾掉非頻繁項(xiàng)集,來(lái)減少計(jì)算復(fù)雜度。
⑤GSP
全稱為Generalized Sequential Pattern(廣義序貫?zāi)J剑且环N序列挖掘算法。有點(diǎn)類似于Apriori算法,采用冗余候選模式的剪除策略和特殊的數(shù)據(jù)結(jié)構(gòu)——哈希樹來(lái)實(shí)現(xiàn)候選模式的快速訪存。
具體的算法如下。
a.掃描序列數(shù)據(jù)庫(kù),得到長(zhǎng)度為1的序列模式L1,作為初始的種子集。
b.根據(jù)長(zhǎng)度為i的種子集Li,通過(guò)連接操作和修剪操作生成長(zhǎng)度為i+1的候選序列模式Ci+1。
C.然后掃描序列數(shù)據(jù)庫(kù),計(jì)算每個(gè)候選序列模式的支持度,產(chǎn)生長(zhǎng)度為i+1的序列模式Li+1,并將Li+1作為新的種子集。
d.重復(fù)第二步,直到?jīng)]有新的序列模式或新的候選序列模式產(chǎn)生為止。產(chǎn)生候選序列模式主要分兩步:
a.連接階段:如果去掉序列模式s1的第一個(gè)項(xiàng)目與去掉序列模式s2的最后一個(gè)項(xiàng)目所得到的序列相同,則可以將s1與s2進(jìn)行連接,即將s2的最后一個(gè)項(xiàng)目添加到s1中。
b.修切階段:若某候選序列模式的某個(gè)子序列不是序列模式,則此候選序列模式不可能是序列模式,將它從候選序列模式中刪除。
⑥Adaboost
這個(gè)不能說(shuō)是一種算法,應(yīng)該是一種方法,因?yàn)樗梢越⒃谌魏我环N分類算法上,包括決策樹、NB、SVM等。
Adaboost是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集的分類器(弱分類器),然后把這些弱分類器集合起來(lái),構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。
其算法通過(guò)改變數(shù)據(jù)分布來(lái)實(shí)現(xiàn),根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來(lái)確定每個(gè)樣本的權(quán)值。將修改過(guò)權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練,最后將每次訓(xùn)練得到的分類器最后融合起來(lái),作為最后的決策分類器。使用Adaboost分類器可以排除一些不必要的訓(xùn)練數(shù)據(jù),并將重點(diǎn)放在關(guān)鍵的訓(xùn)練數(shù)據(jù)上面。
(3)預(yù)測(cè)性分析
大數(shù)據(jù)預(yù)測(cè)分析(Big Data Predictive Analytics)是大數(shù)據(jù)分析中主要的一環(huán)。同時(shí),這也是大數(shù)據(jù)分析中一個(gè)極端困難的任務(wù),實(shí)施成功的預(yù)測(cè)分析非常困難,并非普通的分析人士所能完成的。做好大數(shù)據(jù)的預(yù)測(cè)性分析,需要具備以下四個(gè)條件。
以上四種方法是大數(shù)據(jù)分析最基本的方法,運(yùn)營(yíng)者可根據(jù)數(shù)據(jù)類型、數(shù)據(jù)特點(diǎn)以及實(shí)際需求進(jìn)行有針對(duì)性的選擇,從而對(duì)大數(shù)據(jù)進(jìn)行更加深入的、更加專業(yè)的分析。
大數(shù)據(jù)的分析方法的分享到這里,希望能給您的工作帶來(lái)幫助,謝謝關(guān)注,博納網(wǎng)絡(luò)編輯整理。