數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。
數(shù)據(jù)挖掘涉及的內(nèi)容比較泛,機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、人工智能,但實(shí)際上這些知識(shí)大多是相通的,機(jī)器學(xué)習(xí)實(shí)戰(zhàn)這本書(shū)是我看的啟蒙書(shū)里很好的一本了,該有的都有,難度較小,有理論有實(shí)踐,可以較快的對(duì)各種知識(shí)有個(gè)大概的了解,但是想要長(zhǎng)期在這個(gè)行業(yè)發(fā)展,還需要學(xué)習(xí)更多的知識(shí),比如說(shuō)提到回歸模型,你不僅僅要知道最小二乘法,你還要想到怎么進(jìn)行數(shù)據(jù)清洗、哪些數(shù)據(jù)需要清洗,怎么規(guī)范數(shù)據(jù),數(shù)據(jù)是否過(guò)多,要不要進(jìn)行歸約和降維,采用哪種回歸模型,精確度大致要達(dá)到什么水平,要不要考慮過(guò)擬合和欠擬合,要不要進(jìn)行交叉驗(yàn)證,幾折交叉驗(yàn)證效果好,如果回歸模型不適用,有哪些備選方案等等。
(1)定義問(wèn)題。在開(kāi)始知識(shí)發(fā)現(xiàn)之前最先的也是最重要的要求就是了解數(shù)據(jù)和業(yè)務(wù)問(wèn)題。必須要對(duì)目標(biāo)有一個(gè)清晰明確的定義,即決定到底想干什么。比如,想提高電子信箱的利用率時(shí),想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價(jià)值”,要解決這兩個(gè)問(wèn)題而建立的模型幾乎是完全不同的,必須做出決定。
(2)建立數(shù)據(jù)挖掘庫(kù)。建立數(shù)據(jù)挖掘庫(kù)包括以下幾個(gè)步驟:數(shù)據(jù)收集,數(shù)據(jù)描述,選擇,數(shù)據(jù)質(zhì)量評(píng)估和數(shù)據(jù)清理,合并與整合,構(gòu)建元數(shù)據(jù),加載數(shù)據(jù)挖掘庫(kù),維護(hù)數(shù)據(jù)挖掘庫(kù)。
(3)分析數(shù)據(jù)。分析的目的是找到對(duì)預(yù)測(cè)輸出影響最大的數(shù)據(jù)字段,和決定是否需要定義導(dǎo)出字段。如果數(shù)據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時(shí)和累人的事情,這時(shí)需要選擇一個(gè)具有好的界面和功能強(qiáng)大的工具軟件來(lái)協(xié)助你完成這些事情。
(4)準(zhǔn)備數(shù)據(jù)。這是建立模型之前的最后一步數(shù)據(jù)準(zhǔn)備工作??梢园汛瞬襟E分為四個(gè)部分:選擇變量,選擇記錄,創(chuàng)建新變量,轉(zhuǎn)換變量。
(5)建立模型。建立模型是一個(gè)反復(fù)的過(guò)程。需要仔細(xì)考察不同的模型以判斷哪個(gè)模型對(duì)面對(duì)的商業(yè)問(wèn)題最有用。先用一部分?jǐn)?shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來(lái)測(cè)試和驗(yàn)證這個(gè)得到的模型。有時(shí)還有第三個(gè)數(shù)據(jù)集,稱為驗(yàn)證集,因?yàn)闇y(cè)試集可能受模型的特性的影響,這時(shí)需要一個(gè)獨(dú)立的數(shù)據(jù)集來(lái)驗(yàn)證模型的準(zhǔn)確性。訓(xùn)練和測(cè)試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分成兩個(gè)部分,一個(gè)用于模型訓(xùn)練,另一個(gè)用于模型測(cè)試。
(6)評(píng)價(jià)模型。模型建立好之后,必須評(píng)價(jià)得到的結(jié)果、解釋模型的價(jià)值。從測(cè)試集中得到的準(zhǔn)確率只對(duì)用于建立模型的數(shù)據(jù)有意義。在實(shí)際應(yīng)用中,需要進(jìn)一步了解錯(cuò)誤的類型和由此帶來(lái)的相關(guān)費(fèi)用的多少。經(jīng)驗(yàn)證明,有效的模型并不一定是正確的模型。造成這一點(diǎn)的直接原因就是模型建立中隱含的各種假定,因此,直接在現(xiàn)實(shí)世界中測(cè)試模型很重要。先在小范圍內(nèi)應(yīng)用,取得測(cè)試數(shù)據(jù),覺(jué)得滿意之后再向大范圍推廣。
(7)實(shí)施。模型建立并經(jīng)驗(yàn)證之后,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應(yīng)用到不同的數(shù)據(jù)集上。
消防工程專業(yè)是一門綜合性的學(xué)科,涉及與諸多學(xué)科的相互交叉、滲透、融合,它涉及物理學(xué)、化學(xué)、數(shù)學(xué)、機(jī)械、電子、建筑、信息、心理、生理等多種自然...
人力資源管理專業(yè)培養(yǎng)熟練掌握人力資源管理的各種理論和技術(shù),能獨(dú)立從事人力資源管理不同功能模塊方案設(shè)計(jì)、操作和實(shí)施的應(yīng)用型專門人才。那么人力資...
會(huì)計(jì)專業(yè)學(xué)哪些課程,就業(yè)前景如何,以下是會(huì)計(jì)專業(yè)的相關(guān)內(nèi)容,希望能夠?qū)δ兴鶇⒖寂c幫助。
網(wǎng)絡(luò)技術(shù)專業(yè)學(xué)習(xí)數(shù)據(jù)庫(kù)原理與SQL,SERVER,Oracle數(shù)據(jù)庫(kù)管理、面向?qū)ο蟪绦蛟O(shè)計(jì),網(wǎng)絡(luò)安全管理與維護(hù)技術(shù)等。
人力資源管理專業(yè)培養(yǎng)具備管理、經(jīng)濟(jì)、法律及人力資源管理等方面的知識(shí)和能力,能在事業(yè)單位及政府部門從事人力資源管理以及教學(xué)、科研方面工作的工商...
計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)培養(yǎng)具有一定計(jì)算機(jī)網(wǎng)絡(luò)基本理論和開(kāi)發(fā)技術(shù),具備從事程序設(shè)計(jì)、Web的軟件開(kāi)發(fā)、計(jì)算機(jī)網(wǎng)絡(luò)的組建、網(wǎng)絡(luò)設(shè)備配置、網(wǎng)絡(luò)管理和安全維...
廣告學(xué)專業(yè)是將廣告以學(xué)術(shù)性的方法進(jìn)行研究的專業(yè)。它通過(guò)研究市場(chǎng)經(jīng)濟(jì)、消費(fèi)心理、美學(xué),來(lái)增強(qiáng)人們的消費(fèi)意識(shí),產(chǎn)生社會(huì)心理共鳴。那么廣告學(xué)專業(yè)主...
大學(xué)會(huì)計(jì)專業(yè)的會(huì)計(jì)課程有哪些,小編整理了會(huì)計(jì)的相關(guān)內(nèi)容,希望內(nèi)購(gòu)對(duì)您有所幫助與參考。
心理學(xué)的專業(yè)課程有心理學(xué)、普通心理學(xué)、實(shí)驗(yàn)心理學(xué)、心理統(tǒng)計(jì)、心理測(cè)量、生理心理學(xué)、人格心理學(xué)、社會(huì)心理學(xué)、認(rèn)知心理學(xué)、發(fā)展心理學(xué)等等。
會(huì)計(jì)專業(yè)是現(xiàn)今大學(xué)生報(bào)考的幾大熱門專業(yè)之一,那么2022大學(xué)會(huì)計(jì)專業(yè)主要有哪些課程呢,小編進(jìn)行了以下整理。
很多人想知道室內(nèi)設(shè)計(jì)工資一般多少,室內(nèi)設(shè)計(jì)師前景好不好呢?下面小編為大家介紹一下!
通脹,即通過(guò)膨脹,是經(jīng)濟(jì)學(xué)中的一個(gè)重要知識(shí)點(diǎn)。指的是當(dāng)一個(gè)經(jīng)濟(jì)中的大多數(shù)商品和勞務(wù)的價(jià)格連續(xù)在一段時(shí)間內(nèi)普遍上漲時(shí),宏觀經(jīng)濟(jì)學(xué)就稱這個(gè)經(jīng)濟(jì)經(jīng)...
高考后選擇軟件工程專業(yè)的同學(xué)或者正在讀軟件工程專業(yè)的同學(xué),你們當(dāng)初選擇這個(gè)專業(yè)的時(shí)候或者學(xué)到現(xiàn)在,是否在迷茫:軟件工程專業(yè)應(yīng)該怎么學(xué)?下面有...
想要寫(xiě)好大學(xué)四級(jí)英語(yǔ)作文,長(zhǎng)期的積累和練習(xí)是必要的。如果沒(méi)有那么大的詞匯量,考前背誦一些關(guān)于英語(yǔ)作文的萬(wàn)能句型,也是提高英語(yǔ)作文得分的關(guān)鍵。...
想要寫(xiě)好大學(xué)英語(yǔ)作文,考前背誦一些關(guān)于英語(yǔ)作文的萬(wàn)能句型,是提高英語(yǔ)作文得分的關(guān)鍵。下面是小編整理的大學(xué)英語(yǔ)作文萬(wàn)能句子參考,希望對(duì)大家有所...