數據挖掘是一個術語,那些人甚至沒有參與行業或市場營銷廣告都很熟悉。這是因為數據挖掘的一部分發生在互聯網上和普通互聯網消費者聽到這個術語應用於自己的在線活動。在本文中,我們要徹底研究數據挖掘一詞,一切進入它。
什麼是數據挖掘?
我們必須回答的第一個問題是“什麼是數據挖掘”。技術術語有點複雜,但將其分解成相對簡單的東西,數據挖掘是當一個電腦專門為收集數據的目的,發現模式或在做什麼統計分析。然而,這個過程使用人工智能來做數據挖掘。所以,收集的數據並不是完全免費,任何數據存在哪裏聚集起來。相反,有聰明的方法用於查找數據模式和提取信息。
事實上,數據分析可能比數據挖掘一個更好的詞,因為這個詞實際上指的過程中發現這些模式的集合,而不是數據本身。數據收集是更複雜更容易理解。為了進一步證明它,想象你是收集電子郵件地址。如果你收集每一個電子郵件地址,你可以在網上發現的,比如那些發布在概要文件,論壇或網站聯係信息,你會做數據收集。
但如果你隻從某一群人收集電子郵件,或電子郵件來自一個源,你知道將包含一個特定的一群人,那麼它可能是更接近數據挖掘。如果收集到的電子郵件地址,我們都從女性年齡在23歲到33歲之間,這將是數據挖掘的一個例子。你會使用非常聰明的方法為了找到這些電子郵件地址,並確保他們能勝任你收集他們。
數據挖掘是如何工作的呢?
為了更好地理解這個詞,我們應該討論的過程是如何工作的。讓我們用你當地的雜貨店為例。您可能注意到,你必須有一個儲蓄卡為了商店在美國這些天。如果你沒有信用卡,你將不得不支付比那些更高的價格。
這些的目的購物的卡片不是幫你省錢,實際上,他們是一個主要的不便的客戶忘記它們,而是工具來幫助雜貨店理解你的購買習慣。雜貨店找出你所購買,以及一大堆其他數據和改善他們的營銷和使用廣告,店內顯示或各種其他方麵的業務。
數據挖掘如何?
電腦軟件是挖掘數據背後的勞動。有許多的商業項目市場但許多公司自己做數據挖掘軟件適合其特定目的。你要做這在很多情況下,因為每個企業都需要是獨一的,一個軟件工程師可能認為業務需求可能完全不同於他們實際需要的東西。所以他們需要的數據必須具體確定的軟件,是開采的方式,他們需要它。
例如,假設一個氣體站鏈希望找出最好的時候是提供一個特殊的填滿或項目內的商店。收集的信息必須保密,這樣就可以將正常組織。數據挖掘有助於創建這類顯示了人們購買的信息,當他們買各種各樣的東西對他們的訪問這些加油站。
數據挖掘的過程
讓我們看一下數據挖掘的五個步驟,這樣您就可以更好地理解這個過程是如何工作的,以及它如何會在自己的公司工作。第一步是將是一個兩部分的步驟。第一步是收集數據。但是為了收集這些數據必須把它的地方。這意味著建立一個數據倉庫。我們將詳細討論數據倉庫,但是現在,才明白,這是一個數據存儲的地方。
第二步是存儲和管理的數據。這個數據可以存儲和各種諸如服務器在公司內部或坐落的地方雲人們可以從任何地方訪問它。
第三,公司管理層決定數據是如何組織的。這通常需要弄明白企業的目標是什麼以及他們如何想使用這些數據來提高特定的操作。可能有很多用途的數據從數據倉庫,它將相應地劃分。
第四步是使用一個應用程序對數據進行排序根據用戶想要什麼。許多公司建立自己的軟件應用程序為此,因為業務的需求也許獨特和一些市場可能不會為他們尋找工作。最後一步是向用戶顯示數據的格式,既易於理解和易於分享。例如,數據可以在一個管理圖或表之類的。
數據倉庫
數據倉庫是數字信息的存儲設備。這是不同數據庫或數據集市。認為一個數據庫的小選擇產品在當地的加油站。數據集市相比有點大,可能是你們當地的雜貨店。有很多更多的存儲,但本質上,可用的物品都是食物和麵向消費者。
另一方麵,數據倉庫是更像好市多。有存儲大量的信息——幾乎所有的業務想要的信息。當然,擁有的所有信息在一個地方不使它更容易使用。但這就是為什麼軟件存在組織數據,正確地管理它,甚至把它轉移到其他地點,以便它可以被使用。
數據挖掘任務的類
有幾種不同的類,可以劃分為數據挖掘任務。我們走在他們每個人,這樣您就可以進一步了解這個過程。第一節課,我們將討論數據的總結和概括。相關的數據,任務需要總結和抽象這將給這些數據的概述。例如,在亞馬遜上購買習慣的人會總結的錢花了,在網站上的總時間,還買了廣告的有效性等等。
接下來我們將討論分類的數據。必須創建一個模型,以便每個對象將被放置到一個類基於特定屬性。這將允許您對未來對象和更好地理解類進行分類。
下節課將協會。協會當你連接對象在一起。這是通過一個稱為關聯規則方法。您確定規則,連接兩個物體在一起。關聯規則允許您查看對象之間的關係,當你看到某些對象出現你知道其他的對象也會出現。這可以證明了雜貨店結賬櫃台。您可能會注意到,糖果和口香糖似乎總是相伴而行。這是因為有人發現買糖果的人也會買些口香糖。
下一個是所謂的聚類。聚類是集的識別和分類的對象或組,特別是對於具有未知的對象類。對象是集群基於什麼是相同的對他們或對他們有什麼不同。一旦創建了集群和特性決定與聚類對象可以變得更有條理。
最後,趨勢分析是數據挖掘的一個重要部分。一種趨勢至少在測量數據挖掘事件的加班。使用一個非常簡單的例子,一個特定產品的銷售;如果一個公司出售玉米片和麥麩麥片,檢查銷售記錄可以確定趨勢如麥麩當玉米片出售,如果有的話,一年的某些時候當一個比另一個更受歡迎或者某些時候麥片的年銷售額高於他人,以及大量的其他信息。趨勢分析查找有趣的模式曆史上的對象。歡樂、痛苦、山峰、峽穀其他模式可以告訴公司很多關於這一組特定的對象。