西南財經(jīng)大學(xué)招收碩士生考試說明及考試大綱
適用專業(yè):大數(shù)據(jù)管理
考試科目:《數(shù)據(jù)挖掘綜合》
第一部分:考試內(nèi)容及要求
一. 數(shù)據(jù)挖掘概述
考試內(nèi)容
數(shù)據(jù)挖掘的概念 知識發(fā)現(xiàn)過程 數(shù)據(jù)挖掘數(shù)據(jù)類型 數(shù)據(jù)挖掘功能和模式 數(shù)據(jù)挖掘可利用的技術(shù) 數(shù)據(jù)挖掘應(yīng)用 數(shù)據(jù)挖掘的主要問題
考試要求
1.了解數(shù)據(jù)庫系統(tǒng)技術(shù)的演變過程;理解數(shù)據(jù)挖掘的概念;掌握知識發(fā)現(xiàn)過程的7個步驟。
2.掌握數(shù)據(jù)挖掘的數(shù)據(jù)類型;掌握數(shù)據(jù)挖掘功能和模式;理解數(shù)據(jù)挖掘與統(tǒng)計學(xué)、機器學(xué)習(xí)的聯(lián)系和區(qū)別;了解數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域;了解數(shù)據(jù)挖掘的主要問題。
二. 數(shù)據(jù)預(yù)處理
考試內(nèi)容
數(shù)據(jù)屬性 數(shù)據(jù)基本描述統(tǒng)計 數(shù)據(jù)預(yù)處理概述 數(shù)據(jù)質(zhì)量 數(shù)據(jù)預(yù)處理的主要步驟 數(shù)據(jù)清理 數(shù)據(jù)集成 數(shù)據(jù)變換 數(shù)據(jù)規(guī)約 數(shù)據(jù)離散化
考試要求
1.了解數(shù)據(jù)對象與屬性類型。
2.理解數(shù)據(jù)的基本統(tǒng)計描述,掌握均值、中位數(shù)、眾數(shù)、極差、四分位數(shù)、方差、標(biāo)準(zhǔn)差和四分位數(shù)極差的概念和計算方法;了解數(shù)據(jù)基本統(tǒng)計描述的圖形顯示;了解度量數(shù)據(jù)的相似性和相異性。
3.了解進(jìn)行數(shù)據(jù)預(yù)處理的原因及其重要性;了解數(shù)據(jù)質(zhì)量涉及的因素;掌握數(shù)據(jù)預(yù)處理的主要步驟。
4.了解數(shù)據(jù)清理的概念;了解處理數(shù)據(jù)缺失值的方法;了解處理噪音數(shù)據(jù)的方法。
5.理解數(shù)據(jù)集成的概念;掌握冗余和相關(guān)性分析的方法(檢驗,Pearson積矩系數(shù))。
6.了解數(shù)據(jù)變換的策略;掌握數(shù)據(jù)規(guī)范化的計算方法(最小-最大規(guī)范化、z分?jǐn)?shù)規(guī)范化、按小數(shù)定標(biāo)規(guī)范化)。
7.理解數(shù)據(jù)歸約的概念;了解數(shù)據(jù)歸約的策略;了解線性回歸、對數(shù)線性模型、直方圖、聚類、抽樣等數(shù)據(jù)歸約方法。
8.理解數(shù)據(jù)離散化和概念分層的概念;了解數(shù)據(jù)離散化的方法(分箱、直方圖分析、聚類分析、相關(guān)分析)。
三.數(shù)據(jù)倉庫和聯(lián)機分析處理
考試內(nèi)容
數(shù)據(jù)倉庫基本概念 OLTP和OLAP 數(shù)據(jù)立方體 數(shù)據(jù)倉庫的數(shù)據(jù)模型 概念分層 典型的OLAP操作 數(shù)據(jù)倉庫的設(shè)計 數(shù)據(jù)倉庫的實現(xiàn) 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘
考試要求
1.理解數(shù)據(jù)倉庫的概念和關(guān)鍵特征;了解OLTP和OLAP的概念和主要區(qū)別。
2.了解數(shù)據(jù)倉庫模型的種類;了解元數(shù)據(jù)庫的概念以及與其他數(shù)據(jù)的區(qū)別。
3.理解數(shù)據(jù)立方體的概念;了解數(shù)據(jù)倉庫的數(shù)據(jù)模型(星型模式、雪花模式、事實星座模式);了解典型的OLAP操作方法。
4.了解數(shù)據(jù)倉庫設(shè)計的四種視圖, 了解數(shù)據(jù)倉庫的設(shè)計過程和步驟;了解OLAP查詢處理的步驟。
5.了解三類數(shù)據(jù)倉庫應(yīng)用;了解多維數(shù)據(jù)挖掘的重要性。
四. 挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性
考試內(nèi)容
頻繁項集概念 頻繁項集挖掘方法 Apriori算法 FP-growth算法
考試要求
1.理解項集、閉項集、頻繁項集和關(guān)聯(lián)規(guī)則的概念 ;了解規(guī)則興趣度的兩種度量(支持度和置信度)。
2.了解關(guān)聯(lián)規(guī)則挖掘的步驟。
3.了解Apriori算法的步驟;了解FP-growth算法的步驟和優(yōu)缺點;掌握相關(guān)性度量提升度(lift)的計算方法。
五. 分類和預(yù)測
考試內(nèi)容
數(shù)據(jù)分類和預(yù)測的概念 判定樹歸類算法 信息增益 樹剪枝 回歸分析 分類法的準(zhǔn)確性 組合分類器 類不平衡問題
考試要求
1.理解數(shù)據(jù)分類的概念;了解分類的兩個過程;理解監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別;了解分類和預(yù)測的數(shù)據(jù)預(yù)處理方法;掌握評估分類和預(yù)測方法的標(biāo)準(zhǔn)。
2.了解決策樹的概念和優(yōu)缺點;了解決策樹歸分類的主要步驟;了解常用的屬性選擇度量,掌握信息增益度量的求法;理解兩種常用的樹剪枝方法。
3.了解評估分類器性能的度量;了解評估分類和預(yù)測準(zhǔn)確率的方法(混淆矩陣、靈敏度和特小型、F度量)。
4.了解K-折交叉驗證和自助法的基本思想;了解ROC曲線的概念和特點。
5.了解組合分類器的概念和常用的組合分類方法;了解裝袋和提升的基本思想以及兩者的區(qū)別;了解隨機森林的基本思想。
6.了解類不平衡問題的概念;了解提高類不平衡數(shù)據(jù)分類準(zhǔn)確率的一般方法。
六. 聚類分析
考試內(nèi)容
聚類分析的概念 聚類方法的分類 算法方法的距離度量 劃分方法 層次方法 基于密度的方法 基于網(wǎng)格的方法 聚類評估
考試要求
1.理解聚類分析的概念;了解聚類分析的應(yīng)用領(lǐng)域;了解比較聚類方法的標(biāo)準(zhǔn);了解數(shù)據(jù)挖掘?qū)垲惖牡湫鸵螅涣私獗容^聚類方法的各個方面。
2.理解劃分方法的概念和一般特點,以及典型算法;理解層次方法的概念和一般特點,以及典型算法;理解基于密度的聚類方法的概念和一般特點,以及典型算法;理解基于網(wǎng)格的聚類方法的概念和一般特點,以及典型算法;
3.理解K-均值算法的步驟和優(yōu)缺點;
4.了解算法方法的距離度量。
5.了解聚類評估概念和主要任務(wù);了解測定聚類質(zhì)量的方法。
第二部分:考試方法和考試時間
數(shù)據(jù)挖掘綜合考試采用閉卷、筆試形式,考試時間為180分鐘。
第三部分:試卷結(jié)構(gòu)及參考書目
(一)題分:試卷滿分為150分
(二)題型比例:
選擇題與判斷題 約40%
簡答題和計算題 約60%
(三)參考書目:
《數(shù)據(jù)挖掘 概念與技術(shù)》(原書第3版),作者:Jiawei Han(韓家煒),出版社:機械工業(yè)出版社。
原文鏈接:http://yz.swufe.edu.cn/web/2020-09/16/202009161510146840.html
以上就是“2021考研大綱:西南財經(jīng)大學(xué)817數(shù)據(jù)挖掘綜合2021年碩士研究生入學(xué)考試自命題科目考試大綱及參考書目”的全部內(nèi)容,更多考研大綱信息,請多多關(guān)注!