數(shù)據(jù)挖掘中分類、預測、聚類的定義和區(qū)別。

2022-11-03 14:31

3個回答
你好,
簡單地說,分類(categorization
or
classification)就是按照某種標準給對象貼標簽(label),再根據(jù)標簽來區(qū)分歸類。
簡單地說,聚類是指事先沒有“標簽”而通過某種成團分析找出事物之間存在聚集性原因的過程。
區(qū)別是,分類是事先定義好類別
,類別數(shù)不變
。分類器需要由人工標注的分類訓練語料訓練得到,屬于有指導學習范疇。聚類則沒有事先預定的類別,類別數(shù)不確定。
聚類不需要人工標注和預先訓練分類器,類別在聚類過程中自動生成
。分類適合類別或分類體系已經(jīng)確定的場合,比如按照國圖分類法分類圖書;聚類則適合不存在分類體系、類別數(shù)不確定的場合,一般作為某些應(yīng)用的前端,比如多文檔文摘、搜索引擎結(jié)果后聚類(元搜索)等。
分類的目的是學會一個分類函數(shù)或分類模型(也常常稱作分類器
),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個類中。
要構(gòu)造分類器,需要有一個訓練樣本數(shù)據(jù)集作為輸入。訓練集由一組數(shù)據(jù)庫記錄或元組構(gòu)成,每個元組是一個由有關(guān)字段(又稱屬性或特征)值組成的特征向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可表示為:(v1,v2,...,vn;
c);其中vi表示字段值,c表示類別。分類器的構(gòu)造方法有統(tǒng)計方法、機器學習方法、神經(jīng)網(wǎng)絡(luò)方法等等。
聚類(clustering)是指根據(jù)“物以類聚”原理,將本身沒有類別的樣本聚集成不同的組,這樣的一組數(shù)據(jù)對象的集合叫做簇,并且對每一個這樣的簇進行描述的過程。它的目的是使得屬于同一個簇的樣本之間應(yīng)該彼此相似,而不同簇的樣本應(yīng)該足夠不相似。與分類規(guī)則不同,進行聚類前并不知道將要劃分成幾個組和什么樣的組,也不知道根據(jù)哪些空間區(qū)分規(guī)則來定義組。其目的旨在發(fā)現(xiàn)空間實體的屬性間的函數(shù)關(guān)系,挖掘的知識用以屬性名為變量的數(shù)學方程來表示。聚類技術(shù)正在蓬勃發(fā)展,涉及范圍包括數(shù)據(jù)挖掘、統(tǒng)計學、機器學習、空間數(shù)據(jù)庫技術(shù)、生物學以及市場營銷等領(lǐng)域,聚類分析已經(jīng)成為數(shù)據(jù)挖掘研究領(lǐng)域中一個非常活躍的研究課題。常見的聚類算法包括:k-均值聚類算法、k-中心點聚類算法、clarans、
birch、clique、dbscan等。
希望回答對您有幫助.
數(shù)據(jù)分析挖掘這塊,建議樓主看看帆軟公司的finebi,挺不錯的,強烈推薦一個!

分類是利用已有信息把目標數(shù)據(jù)按照預期分成不同的種類

聚類是利用已有信息把目標數(shù)據(jù)根據(jù)使用的聚類方法不同分成不同的種類

分類和聚類都可以說是預測

相關(guān)問答
什么是數(shù)據(jù)挖掘啊?怎挖掘
1個回答2022-12-27 07:53
數(shù)據(jù)挖掘(Data Mining)就是從大量的,不完全的,有噪聲的,模糊的,隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的,人們事先不知道的,但又是潛在有用的信息和知識的過程.它是通過采用自動或半自動的手段,...
全文
數(shù)據(jù)挖掘的主要目的是什么
1個回答2024-04-01 05:09
主要目的是發(fā)現(xiàn)沒有發(fā)現(xiàn)的規(guī)律。數(shù)據(jù)挖掘區(qū)別于數(shù)據(jù)分析最大的點在于,數(shù)據(jù)分析知道數(shù)據(jù)之間的大致關(guān)系,而數(shù)據(jù)挖掘面對的是海量的毫無規(guī)律的數(shù)據(jù),需要從中挖掘出新的規(guī)律,進而為業(yè)務(wù)帶來新的增長點。以上回...
全文
數(shù)據(jù)挖掘的目的是什么呢
1個回答2024-05-22 20:25
很多人會問:數(shù)據(jù)挖掘的目的是什么呢?我們總結(jié)數(shù)據(jù)挖掘主要有以下三個目的:  ?。?)把握趨勢和模式;通過分析網(wǎng)購交易的記錄數(shù)據(jù)、呼叫中心內(nèi)的投訴數(shù)據(jù)、顧客滿意度的調(diào)查數(shù)據(jù)、購物數(shù)據(jù)等,可以...
全文
數(shù)據(jù)挖掘
1個回答2024-10-02 23:47
從數(shù)據(jù)倉庫中提取隱含的、事先未知的和潛在有用的信息,從而幫助決策者提出問題、發(fā)現(xiàn)問題、解決問題等。具有兩種能力: 1.自動預測傾向和行為,允許使用者實現(xiàn)知識驅(qū)動的決策; 2.自動發(fā)現(xiàn)未知...
全文
數(shù)據(jù)挖掘中分類和聚類有什么區(qū)別?
2個回答2022-11-02 09:09
你好, 簡單地說,分類(Categorization or Classification)就是按照某種標準給對象貼標簽(label),再根據(jù)標簽來區(qū)分歸類。 簡單地說,聚類是指事先沒有“標簽”而通過某...
全文
什么是數(shù)據(jù)挖掘
1個回答2023-04-10 10:02
數(shù)據(jù)挖掘的概念如圖所示
什么是數(shù)據(jù)挖掘?
1個回答2023-08-17 02:47
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。 數(shù)據(jù)挖掘流程: 定義問題:清晰地定義出業(yè)務(wù)問題,確定數(shù)據(jù)挖掘...
全文
數(shù)據(jù)挖掘是什么?
3個回答2023-08-19 06:47
數(shù)據(jù)挖掘(Data Mining)是指通過大量數(shù)據(jù)集進行分類的自動化過程,以通過數(shù)據(jù)分析來識別趨勢和模式,建立關(guān)系來解決業(yè)務(wù)問題。換句話說,數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)...
全文
什么是數(shù)據(jù)挖掘
2個回答2023-08-18 16:35
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。 數(shù)據(jù)挖掘流程: 定義問題:清晰地定義出業(yè)務(wù)問題,確定數(shù)據(jù)挖掘...
全文
數(shù)據(jù)挖掘的經(jīng)典教材推薦
1個回答2024-08-16 16:02
數(shù)據(jù)挖掘與知識發(fā)現(xiàn) 第2版 高等教育出版社 李雄飛等 商務(wù)智能與數(shù)據(jù)分析 北京大學出版社 張公讓等 動態(tài)數(shù)據(jù)挖掘 科學出版社 倪志偉等 智能Web算法 電子工業(yè)出版社 (美) 數(shù)據(jù)挖掘概念與技...
全文
熱門問答