通信企業CRM的數據挖掘技術研究 |
發布時間: 2012/8/8 11:02:41 |
未來中國通信市場上還會有一段充滿變數時間,數據挖掘會將大量通信數據轉換成可靠的、商用的決策支持信息的最好解決方案,面向通信企業客戶關系管理系統的數據挖掘可以為通信企業提供市場分析力量。
一、數據挖掘的概念 數據挖掘是根據企業的既定業務目標和存在的問題,對大量的業務數據進行探索,揭示其中隱藏的規律,并將其模型化,指導并應用于企業的實際經營。數據挖掘是建立在數據倉庫基礎上的高層應用,但數據挖掘跟數據倉庫的其它一些應用如OLAP分析、預定義報表和即席查詢等有很大的區別。后三者通常是用戶根據已知的情況對所關心的業務指標進行分析;而前者則是在業務問題和目標明確但考察的問題不清楚時,對數據進行探索,揭示隱藏其中的規律性,進而將其模型化。 二、數據挖掘的方法 1.神經網絡方法 神經網絡由于本身良好的自組織自適應性、并行處理、分布存儲和高度容錯等特性非常適合解決數據挖掘的問題,因此近年來越來越受到人們的關注。典型的神經網絡模型主要分3大類:以感知機、BP反向傳播模型、函數型網絡為代表的,用于分類、預測和模式識別的前饋式神經網絡模型;以Hopfield的離散模型和連續模型為代表的,分別用于聯想記憶和優化計算的反饋式神經網絡模型;以ART模型、Koholon模型為代表的,用于聚類的自組織映射方法。神經網絡方法的缺點是“黑箱”性,人們難以理解網絡的學習和決策過程。 2.遺傳算法 遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優化方法。遺傳算法具有的隱含并行性、易于和其它模型結合等性質使得它在數據挖掘中被加以應用。Sunil已成功地開發了一個基于遺傳算法的數據挖掘工具,利用該工具對兩個飛機失事的真實數據庫進行了數據挖掘實驗,結果表明遺傳算法是進行數據挖掘的有效方法之一。遺傳算法的應用還體現在與神經網絡、粗集等技術的結合上。如利用遺傳算法優化神經網絡結構,在不增加錯誤率的前提下,刪除多余的連接和隱層單元;用遺傳算法和BP算法結合訓練神經網絡,然后從網絡提取規則等。但遺傳算法的算法較復雜,收斂于局部極小的較早收斂問題尚未解決。 3.決策樹方法 決策樹是一種常用于預測模型的算法,它通過將大量數據有目的分類,從中找到一些有價值的,潛在的信息。它的主要優點是描述簡單,分類速度快,特別適合大規模的數據處理。最有影響和最早的決策樹方法是由Quinlan提出的著名的基于信息熵的ID3算法。它的主要問題是:ID3是非遞增學習算法;ID3決策樹是單變量決策樹,復雜概念的表達困難;同性間的相互關系強調不夠;抗噪性差。針對上述問題,出現了許多較好的改進算法,如Schlimmer和Fisher設計了ID4遞增式學習算法;鐘鳴,陳文偉等提出了IBLE算法等。 4.粗集方法 粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優點:不需要給出額外信息;簡化輸入信息的表達空間;算法簡單,易于操作。粗集處理的對象是類似二維關系表的信息表。目前成熟的關系數據庫管理系統和新發展起來的數據倉庫管理系統,為粗集的數據挖掘奠定了堅實的基礎。但粗集的數學基礎是集合論,難以直接處理連續的屬性。而現實信息表中連續屬性是普遍存在的。因此連續屬性的離散化是制約粗集理論實用化的難點,F在國際上已經研制出來了一些基于粗集的工具應用軟件,如加拿大Regina大學開發的KDD-R1美國Kansas大學開發的LERS等。 5.覆蓋正倒排斥反倒方法 它是利用覆蓋所有正例、排斥所有反例的思想來尋找規則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與字段取值構成的選擇子相容則舍去,相反則保留。按此思想循環所有正例種子,將得到正例的規則(選擇子的合取式)。比較典型的算法有Michalski的AQ11方法、洪家榮改進的AQ15方法以及他的AE5方法。 6.統計分析方法 在數據庫字段項之間存在兩種關系:函數關系(能用函數公式表示的確定性關系)和相關關系(不能用函數公式表示,但仍是相關確定性關系),對它們的分析可采用統計學方法,即利用統計學原理對數據庫中的信息進行分析?蛇M行常用統計(求大量數據中的最大值、最小值、總和、平均值等)、回歸分析(用回歸方程來表示變量間的數量關系),相關分析(用相關系數來度量變量間的相關程度)、差異分析(從樣本統計量的值得出差異來確定總體參數之間是否存在差異)等。 7.模糊集方法 即利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。系統的復雜性越高,模糊性越強,一般模糊集合理論是用隸屬度來刻畫模糊事物的亦此亦彼性的。李德毅等人在傳統模糊理論和概率統計的基礎上,提出了定性定量不確定性轉換模型——云模型,并形成了云理論。 三、數據挖掘的流程 1.定義問題:清晰地定義出業務問題,確定數據挖掘的目的。 2.數據準備:數據準備包括:選擇數據——在大型數據庫和數據倉庫目標中提取數據挖掘的目標數據集;數據預處理——進行數據再加工,包括檢查數據的完整性及數據的一致性、去噪聲,填補丟失的域,刪除無效數據等。 3.數據挖掘:根據數據功能的類型和和數據的特點選擇相應的算法,在凈化和轉換過的數據集上進行數據挖掘。 4.結果分析:對數據挖掘的結果進行解釋和評價,轉換成為能夠最終被用戶理解的知識。 5.知識的運用:將分析所得到的知識集成到業務信息系統的組織結構中去。 四、客戶關系管理(CRM) 客戶關系管理(CRM)首先是一種管理理念,起源于西方的市場營銷理論,產生和發展在美國。其核心思想是將企業的客戶(包括最終客戶,分銷商和合作伙伴)作為最重要的企業資源,通過完善的客戶服務和深入的客戶分析來滿足客戶的需求,保證實現客戶的終生價值。 客戶關系管理(CRM)又是一種旨在改善企業與客戶之間關系的新型管理機制,它實施于企業的市場營銷、銷售、服務與技術支持等與客戶相關的領域?蛻絷P系管理(CRM)也是一種管理軟件和技術,它將最佳的商業實踐與數據挖掘、數據倉庫、一對一營銷、銷售自動化以及其它信息技術緊密結合在一起,為企業的銷售、客戶服務和決策支持等領域提供了一個業務自動化的解決方案,從而順利實現由傳統企業模式到以電子商務為基礎的現代企業模式的轉化。 五、數據挖掘在通信企業 客戶關系管理中的應用客戶的獲取。把客戶根據其性別、收入、交易行為特征等屬性細分為具有不同需求和交易習慣的群體,同一群體中的客戶對產品的需求以及交易心理等方面具有相似性,而不同群體間差異較大。那么這就有助于企業在營銷中更加貼近顧客需求。分類和聚類等挖掘方法可以把大量的客戶分成不同的類(群體),適合于用來進行客戶細分。通過群體細分,CRM用戶可以更好地理解客戶,發現群體客戶的行為規律。在行為分組完成后,還要進行客戶理解、客戶行為規律發現和客戶組之間的交叉分析。 重點客戶發現。就是找出對企業具有重要意義的客戶,重點客戶發現主要包括:發現有價值的潛在客戶;發現有更多的消費需求的同一客戶;發現更多使用的同一種產品或服務;保持客戶的忠誠度。根據80/20(即20%的客戶貢獻80%的銷售額)以及開發新客戶的費用是保留老客戶費用的5倍等營銷原則,重點客戶發現在CRM中具有舉足輕重的作用。 交叉營銷。商家與其客戶之間的商業關系是一種持續的不斷發展的關系,通過不斷地相互是接觸和交流,客戶得到了更好更貼切的服務質量,商家則因為增加了銷售量而獲利。交叉營銷指向已購買商品的客戶推薦其它產品和服務。這種策略成功的關鍵是要確保推銷的產品是用戶所感興趣的,有幾種挖掘方法都可以應用于此問題,關聯規則分析能夠發現顧客傾向于關聯購買哪些商品。聚類分析能夠發現對特定產品感興趣的用戶群,神經網絡、回歸等方法能夠預測顧客購買該新產品的可能性。 客戶流失分析。分類等技術能夠判斷具備哪些特性的客戶群體最容易流失,建立客戶流失預測模型。從而幫助企業對有流失風險的顧客提前采取相應營銷措施。利用數據挖掘技術,可以通過挖掘大量的客戶信息來構建預測模型,較準確地找出易流失客戶群,并制定相應的方案,最大程度地保持住老客戶。通過研究,認為數據挖掘技術中的決策樹技術(Decision Tree)能夠較好地應用在這一方面。 性能評估。以客戶所提供的市場反饋為基礎,通過數據倉庫的數據清潔與集中過程,將客戶對市場的反饋自動地輸入到數據倉庫中,從而進行客戶行為跟蹤。性能分析與客戶行為分析和重點客戶發現是相互交迭的過程,這樣才能保證企業的客戶關系管理能夠達到既定的目標,建立良好的客戶關系。 對不同信譽度用戶給予不同的服務及優惠。 五、小結 數據挖掘的出現只有短短的幾年時間,而它所表現出的廣闊應用前景令人矚目。CRM作為一個涉及知識管理、業務流程再造和企業信息化的概念正以前所未有的速度發展,并且迅速擴大著用戶群體。隨著市場經濟的推動和信息技術的發展,尤其是網絡通信和數據倉庫技術,廣大用戶也越來越注重CRM的實用價值。 CRM的良好應用前景會進一步加快數據挖掘技術的成熟和發展。在CRM中有效利用數據挖掘,可以指導企業高層決策者制定最優的企業營銷策略,降低企業運營成本,增加利潤,加速企業的發展。只有融合了數據挖掘技術的高效的客戶關系管理才能更好地適應當今信息時代及其網絡化特征,成為現代企業在激烈的市場競爭中生存的根本和制勝的關鍵。 本文出自:億恩科技【www.endtimedelusion.com】 本文出自:億恩科技【www.enidc.com】 --> |