數(shù)據(jù)建模及模型優(yōu)化大賽輔導(dǎo)實戰(zhàn)

  培訓(xùn)講師:傅一航

講師背景:
傅一航,華為系大數(shù)據(jù)專家。傅一航,男,計算機軟件與理論碩士研究生(研究方向:數(shù)據(jù)挖掘、搜索引擎)。在華為工作十年,五篇國家專利,在華為工作期間獲得華為數(shù)項獎項,曾在英國、日本、荷蘭等國家做項目,對大數(shù)據(jù)有深入的研究。傅老師專注于大數(shù)據(jù)分析與 詳細>>

傅一航
    課程咨詢電話:

數(shù)據(jù)建模及模型優(yōu)化大賽輔導(dǎo)實戰(zhàn)詳細內(nèi)容

數(shù)據(jù)建模及模型優(yōu)化大賽輔導(dǎo)實戰(zhàn)

大數(shù)據(jù)建模大賽輔導(dǎo)實戰(zhàn)
【課程目標(biāo)】
本課程主要面向?qū)I(yè)人士的大數(shù)據(jù)建模競賽輔導(dǎo)需求(假定學(xué)員已經(jīng)完成Python建模及優(yōu)化--回歸篇/分類篇的學(xué)習(xí))。
通過本課程的學(xué)習(xí),達到如下目的:
熟悉大賽常用集成模型
掌握模型優(yōu)化常用措施,掌握超參優(yōu)化策略
掌握特征工程處理,以及對模型質(zhì)量的影響
掌握建模工程管道類(Pipeline, ColumnTransformer)的使用
【授課時間】
2-3天時間,大致內(nèi)容安排(會根據(jù)需求和學(xué)員水平調(diào)整進度)
時間
主題
具體內(nèi)容
目的
第一天
上午
建模流程
建模步驟
模型評估指標(biāo)
模型基本原理
常用建模步驟,構(gòu)建通用common模型,完成模型訓(xùn)練、評估等的封裝
第一天
下午
數(shù)據(jù)清洗
數(shù)據(jù)清洗
缺失值填充
理解異常數(shù)據(jù)對模型的影響
缺失值常用的填充方式(固定值、分類填充、拉格朗日、預(yù)測填充)
不同填充對模型的影響
第二天
上午
特征選擇
特征選擇模式
(Filter/Wrapper/Embedded)
特征選擇的封裝實現(xiàn)
優(yōu)缺點及應(yīng)用場景
(SelectKBest,REF,SelectFromModel)
第二天
下午
變量降維
因子分析
主成份分析
管道實現(xiàn)
變量降維PCA/FA
掌握管道處理技能 (Pipeline, FeatureUnion, ColumnsTransformer等)
第三天
上午
變量變換
變量派生
變量標(biāo)準(zhǔn)化
模型集成思想
利用探索性分析,指導(dǎo)變量派生
不同標(biāo)準(zhǔn)化對模型的影響
特征處理的不同順序?qū)δP托Ч挠绊?br /> 第三天下午
超參優(yōu)化
超參優(yōu)化方法
欠擬合優(yōu)化
過擬合優(yōu)化
其它優(yōu)化(性能、樣本均衡處理)
不同超參的作用(欠擬合/過擬合)
超參優(yōu)化方法
超參優(yōu)化策略
Stacking集成
【授課對象】
參加大數(shù)據(jù)建模大賽的IT專業(yè)人士。
要求精通Python語言,熟悉sklearn庫的基本使用等。
【授課方式】
理論框架 + 落地措施 + 實戰(zhàn)訓(xùn)練
【課程大綱】
常用集成模型
問題:數(shù)據(jù)建模的基本步驟是什么?每一步要重點考慮哪些知識和技能?
數(shù)據(jù)建模六步法
選擇模型:基于業(yè)務(wù)選擇恰當(dāng)?shù)臄?shù)據(jù)模型
特征工程:選擇對目標(biāo)變量有顯著影響的屬性來建模
訓(xùn)練模型:采用合適的算法,尋找到最合適的模型參數(shù)
評估模型:進行評估模型的質(zhì)量,判斷模型是否可用
優(yōu)化模型:如果評估結(jié)果不理想,則需要對模型進行優(yōu)化
應(yīng)用模型:如果評估結(jié)果滿足要求,則可應(yīng)用模型于業(yè)務(wù)場景
模型集成思想
Bagging
Boosting
Stacking
競賽常用的集成模型
RandomForest
Adaboosting/GBDT/XGBoost
各模型的原理及適用場景
數(shù)據(jù)清洗技巧
數(shù)據(jù)清洗處理
重復(fù)值
錯誤值
離群值
缺失值
缺失值填充的常見方式
固定值填充
同類別均值填充
相鄰值填充(向下/向上填充)
兩點插值(相鄰值均值填充)
拉格朗日插值
預(yù)測方法填充
不同填充方式對模型效果的影響
案例:泰坦尼克號沉船幸存者預(yù)測
特征選擇模式
降維的兩大方式:特征選擇與因子合并
特征選擇的三種模式
基于變量本身的重要性篩選
缺失值所占比例過大
標(biāo)準(zhǔn)差/變異系數(shù)過?。╒arianceThreshold)
類別值比值失衡嚴重
類別值與樣本量比例過大
Filter式(特征選擇與模型分離)
常用評估指標(biāo)(相關(guān)系數(shù)/顯著性/互信息等)
f_regression, f_classif, chi2,
mutual_info_regression, mutual_info_classif
案例:運營商流失預(yù)測的特征選擇
Wrapper式(利用模型結(jié)果進行特征選擇)
Sklearn實現(xiàn)(RFE/RFECV-Recursive Feature Elimination)
Embedded式(模型自帶特征選擇功能)
L1正則項(Lasso/ElasticNet)
信息增益(決策樹)
Sklearn實現(xiàn)(SelectFromModel)
不同模式的優(yōu)缺點及應(yīng)用場景
特征選擇的變量個數(shù)
特征合并方法
特征合并與特征選擇
因子分析(FactorAnalysis)
FA原理及思想
載荷矩陣相關(guān)概念(變量共同度/方差貢獻率)
如何確定降維的因子個數(shù)
主成份分析(Principal Component Analysis)
PCA原理
PCA的幾何意義
案例:汽車油效預(yù)測
變量變換影響
為何需要變換變換
假設(shè)條件需求,可比性需要,同權(quán)重需要
因變量變換對模型質(zhì)量的影響
案例:波士頓房價預(yù)測
特征標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化的作用: 縮小,消除/統(tǒng)一量綱
常用標(biāo)準(zhǔn)化方法:MinMaxScaler, StandardScaler,…
不同模型對標(biāo)準(zhǔn)化的要求
不同標(biāo)準(zhǔn)化對模型的影響
案例:醫(yī)院腫瘤預(yù)測
其它變換:正態(tài)化、正則化
變量派生:多項式等
案例:用戶收入預(yù)測
管道實現(xiàn),簡化代碼
管道類Pipeline
列轉(zhuǎn)換類ColumnTransformer
特征合并類FeatureUnion
XGBoost模型詳解及優(yōu)化
基本參數(shù)配置
框架基本參數(shù): n_estimators, objective
性能相關(guān)參數(shù): learning_rate
模型復(fù)雜度參數(shù):max_depth,min_child_weight,gamma
生長策略參數(shù): grow_policy, tree_method, max_bin
隨機性參數(shù):subsample,colsample_bytree
正則項參數(shù):reg_alpha,reg_lambda
樣本不均衡參數(shù): scale_pos_weight
早期停止與基類個數(shù)優(yōu)化(n_estimators、early_stopping_rounds)
樣本不平衡處理
欠抽樣與過抽樣
scale_pos_weight= neg_num/pos_num
XGBoost模型欠擬合優(yōu)化措施
增維,派生新特征
非線性檢驗
相互作用檢驗
降噪,剔除噪聲數(shù)據(jù)
剔除不顯著影響因素
剔除預(yù)測離群值(僅回歸)
多重共線性檢驗(僅回歸)
變量變換
自變量標(biāo)準(zhǔn)化
殘差項檢驗與因變量變換
增加樹的深度與復(fù)雜度
增大max_depth
減小min_child_weight, gamma等
禁止正則項生效
特征重要性評估與自動特征選擇
超參優(yōu)化策略:
分組調(diào)參:參數(shù)分組分別調(diào)優(yōu)
分層調(diào)參:先粗調(diào)再細調(diào)
XGBoost模型過擬合優(yōu)化措施
降維,減少特征數(shù)量
限制樹的深度和復(fù)雜度
減小max_depth
增大min_child_weight,gamma等
采用dart模型來控制過擬合(引入dropout技術(shù))
啟用正則項懲罰:reg_alpha,reg_lambda等
啟用隨機采樣:subsample,colsample_bytree等
Stacking模式:XGBoost+LR、XGBoost+RF等
XGBoost的優(yōu)化模型:LightGBM
實戰(zhàn)訓(xùn)練篇
互聯(lián)網(wǎng)廣告判斷模型
客戶流失預(yù)測模型
直銷響應(yīng)模型
結(jié)束:課程總結(jié)與問題答疑。

 

傅一航老師的其它課程

數(shù)據(jù)分析方法及生產(chǎn)運營實際應(yīng)用【課程目標(biāo)】本課程主要介紹數(shù)據(jù)分析在生產(chǎn)運營過程中的應(yīng)用,適用于制造行業(yè)/保險行業(yè)的數(shù)據(jù)分析人員等。本課程的主要目的是,幫助學(xué)員了解大數(shù)據(jù)的本質(zhì),培養(yǎng)學(xué)員的數(shù)據(jù)意識和數(shù)據(jù)思維,掌握常用的統(tǒng)計分析方法和工具,以及生產(chǎn)、運營過程中的應(yīng)用,并以概率的方式來進行決策,提升學(xué)員的數(shù)據(jù)分析及應(yīng)用能力。本課程具體內(nèi)容包括:數(shù)據(jù)決策邏輯,數(shù)據(jù)決

 講師:傅一航詳情


大數(shù)據(jù)時代的精準(zhǔn)營銷【課程目標(biāo)】本課程從實際的市場營銷問題出發(fā),了解大數(shù)據(jù)在市場營銷領(lǐng)域的價值以及應(yīng)用。并對大數(shù)據(jù)分析與挖掘技術(shù)進行了介紹,通過從大量的市場營銷數(shù)據(jù)中分析潛在的客戶特征,挖掘客戶行為特點,實現(xiàn)精準(zhǔn)營銷,幫助市場營銷團隊深入理解業(yè)務(wù)運作,支持業(yè)務(wù)策略制定以及營銷決策。通過本課程的學(xué)習(xí),達到如下目的:了解大數(shù)據(jù)營銷內(nèi)容,掌握大數(shù)據(jù)在營銷中的應(yīng)用。

 講師:傅一航詳情


大數(shù)據(jù)時代的精準(zhǔn)營銷【課程目標(biāo)】本課程從實際的市場營銷問題出發(fā),了解大數(shù)據(jù)在市場營銷領(lǐng)域的價值以及應(yīng)用。并對大數(shù)據(jù)分析與挖掘技術(shù)進行了介紹,通過從大量的市場營銷數(shù)據(jù)中分析潛在的客戶特征,挖掘客戶行為特點,實現(xiàn)精準(zhǔn)營銷,幫助市場營銷團隊深入理解業(yè)務(wù)運作,支持業(yè)務(wù)策略制定以及營銷決策。通過本課程的學(xué)習(xí),達到如下目的:了解大數(shù)據(jù)營銷內(nèi)容,掌握大數(shù)據(jù)在營銷中的應(yīng)用。

 講師:傅一航詳情


大數(shù)據(jù)決策思維與商業(yè)模式創(chuàng)新,賦能企業(yè)增長【課程目標(biāo)】本課程主要幫助大家理解大數(shù)據(jù)的基本概念,著重探索大數(shù)據(jù)的本質(zhì),理解大數(shù)據(jù)的核心價值,以及掌握實現(xiàn)大數(shù)據(jù)價值的三個關(guān)鍵環(huán)節(jié),大數(shù)據(jù)解決業(yè)務(wù)問題的六個步驟,然后聚焦大數(shù)據(jù)的七大核心思維,最后,再用案例說明了大數(shù)據(jù)在各行業(yè)的應(yīng)用場景。大數(shù)據(jù)思維,讓決策更科學(xué)!讓管理更高效!讓營銷更精準(zhǔn)!通過本課程的學(xué)習(xí),達到如

 講師:傅一航詳情


大數(shù)據(jù)思維與應(yīng)用創(chuàng)新【課程目標(biāo)】本課程主要幫助大家理解大數(shù)據(jù)的基本概念,著重探索大數(shù)據(jù)的本質(zhì),理解大數(shù)據(jù)的核心價值,以及掌握實現(xiàn)大數(shù)據(jù)價值的三個關(guān)鍵環(huán)節(jié),大數(shù)據(jù)解決業(yè)務(wù)問題的六個步驟,然后聚焦大數(shù)據(jù)的七大核心思維,最后,再用案例說明了大數(shù)據(jù)在各行業(yè)的應(yīng)用場景。大數(shù)據(jù)思維,讓決策更科學(xué)!讓管理更高效!讓營銷更精準(zhǔn)!通過本課程的學(xué)習(xí),達到如下目的:了解大數(shù)據(jù)基本

 講師:傅一航詳情


大數(shù)據(jù)思維與應(yīng)用創(chuàng)新【課程目標(biāo)】本課程主要幫助大家理解大數(shù)據(jù)的基本概念,著重探索大數(shù)據(jù)的本質(zhì),理解大數(shù)據(jù)的核心價值,以及掌握實現(xiàn)大數(shù)據(jù)價值的三個關(guān)鍵環(huán)節(jié),大數(shù)據(jù)解決業(yè)務(wù)問題的六個步驟,然后聚焦大數(shù)據(jù)的七大核心思維,最后,再用案例說明了大數(shù)據(jù)在各行業(yè)的應(yīng)用場景。大數(shù)據(jù)思維,讓決策更科學(xué)!讓管理更高效!讓營銷更精準(zhǔn)!通過本課程的學(xué)習(xí),達到如下目的:了解大數(shù)據(jù)基本

 講師:傅一航詳情


大數(shù)據(jù)思維與應(yīng)用創(chuàng)新【課程目標(biāo)】本課程主要幫助大家理解大數(shù)據(jù)的基本概念,著重探索大數(shù)據(jù)的本質(zhì),理解大數(shù)據(jù)的核心價值,以及掌握實現(xiàn)大數(shù)據(jù)價值的三個關(guān)鍵環(huán)節(jié),大數(shù)據(jù)解決業(yè)務(wù)問題的六個步驟,然后聚焦大數(shù)據(jù)的七大核心思維,最后,再用案例說明了大數(shù)據(jù)在各行業(yè)的應(yīng)用場景。大數(shù)據(jù)思維,讓決策更科學(xué)!讓管理更高效!讓營銷更精準(zhǔn)!通過本課程的學(xué)習(xí),達到如下目的:了解大數(shù)據(jù)基本

 講師:傅一航詳情


大數(shù)據(jù)挖掘工具:SPSSStatistics入門與提高【課程目標(biāo)】本課程為數(shù)據(jù)分析和挖掘的工具篇,本課程面向數(shù)據(jù)分析部等專門負責(zé)數(shù)據(jù)分析與挖掘的人士,專注大數(shù)據(jù)挖掘工具SPSSStatistics的培訓(xùn)。IBMSPSS工具是面向非專業(yè)人士的高級的分析工具(挖掘工具),它提供大量的分析方法和分析模型,能夠解決更復(fù)雜的業(yè)務(wù)問題,比如影響因素分析、客戶行為預(yù)測/精

 講師:傅一航詳情


金融行業(yè)風(fēng)險預(yù)測模型實戰(zhàn)【課程目標(biāo)】本課程專注于金融行業(yè)的風(fēng)控模型,面向數(shù)據(jù)分析部等專門負責(zé)數(shù)據(jù)分析與建模的人士。本課程的主要目的是,培養(yǎng)學(xué)員的大數(shù)據(jù)意識和大數(shù)據(jù)思維,掌握常用的數(shù)據(jù)分析方法和數(shù)據(jù)分析模型,并能夠用于對客戶行為作分析和預(yù)測,提升學(xué)員的數(shù)據(jù)分析綜合能力。通過本課程的學(xué)習(xí),達到如下目的:掌握數(shù)據(jù)分析和數(shù)據(jù)建模的基本過程和步驟掌握客戶行為分析中常用

 講師:傅一航詳情


大數(shù)據(jù)分析與挖掘綜合能力提升實戰(zhàn)【課程目標(biāo)】本課程為高階課程,面向所有業(yè)務(wù)支撐部門及數(shù)據(jù)分析部門。本課程的主要目的是,幫助學(xué)員掌握一些業(yè)務(wù)專題挖掘模型,幫助學(xué)員建立對復(fù)雜業(yè)務(wù)問題的數(shù)據(jù)挖掘綜合能力。本課程具體內(nèi)容包括:數(shù)據(jù)挖掘流程,數(shù)據(jù)預(yù)處理用戶專題分析:用戶群劃分/客戶價值評估/客戶偏好分析/用戶行為預(yù)測產(chǎn)品專題分析:產(chǎn)品設(shè)計優(yōu)化、產(chǎn)品功能評估、產(chǎn)品最優(yōu)定

 講師:傅一航詳情


COPYRIGT @ 2001-2018 HTTP://musicmediasoft.com INC. ALL RIGHTS RESERVED. 管理資源網(wǎng) 版權(quán)所有