big-data_ml

 bigdata banner 2
 
 
 
 
當紅色供應鏈開始逐步在沒收台灣的一些硬體事業時,必須積極尋找或佈署下一個可能
 
如果IoT所蒐集的這些資料不能帶來價值,那這些資料都是垃圾,因此接下來要開花結果的就是  #機器學習 #深度學習, 讓資料有含金量!
 
11/12 僅剩4名報名機會 
課程介紹

 

什麼是機器學習(Machine Learning)?

機器學習是人工智慧的其中一個分支,簡單來說它就是讓機器可以像人一樣,可藉由閱讀大量的資料建立規則而具有知識,進而能去開始對資料進行預測或分類 (專家其實是訓練有素的狗,機器學習大概就是這個味道) 。閱讀已知的大量資料就是所謂訓練的過程,透過足夠多的Training Data 建立出一個 Model (最佳函式), 這個Model  就是"機器的知識",之後你可以餵未知的資料給機器,機器就能進行預測。預測的目標可能是一個數值(Regression)或是對輸入資料進行正確的分類(Classification)或分群(Clustering)。

 

機器學習的技術可以應用在哪?

機器學習的演算法已廣泛應用於資料探勘、電腦視覺、自然語言處理、語音和手寫識別、生物特徵識別、DNA序列測搜尋引擎、醫學診斷、金融數據分析與證券市場分析等方面。所以幾乎各行各業,包含金融業、零售業、製造業、醫療產業等,都會用到機器學習的技術。

 

課程摘要

在本課程中,您將學會資料科學與機器學習的技術,並不需要你具備高深莫測的數學技巧,講師會以淺顯易懂的方式讓您自然而然理解各種常見資料科學的方法與原理。課程以Python 進行機器學習的實作為主。會利用Python數據分析模組,如Numpy、Pandas、Scipy、Matplotlib進行蒐集數據、整理數據、分析數據和數據視覺化;用scikit-learn 實現機器學習演算法。 本課程特安排專案實戰,以Kaggle 上BOSCH 這家公司所實際釋出的生產線大數據資料進行實作,從特徵處理到training data, 選取適合的機器學習方法進行機器學習的模型建構,最後能對Testing data進行迴歸預測、分類或分群。

 

相關詞:資料科學、機器學習、深度學習Python、scikit-learn、Apache Spark 、Regression、Gradient Descennt、Logistic Regression、Support Vector Machine、Decision Trees、Random Forests文字探勘、Clustering、Kaggle、Data Mining
授課對象

• 需要運用機器學習(Machine Learning)技術改善工廠生產、生產異常判斷、生產排程等專案的您。

• 想學會機器學習與研發分析優化、資料處理之演算法,包含建立統計模型、設計資料分析演算法、測試與調校的您。

•  需要進行大數據建模及程式開發、處理大量結構與非結構資料、應用資料探勘方法建立客戶分群或預測模型的您。

• 沒相關背景但對機器學習與大數據分析有興趣,或是接觸過但仍對技術似懂非懂的您。

• 想透過機器學習與大數據實戰來結合本業專業(工業、金融、醫療、零售、農業等)並學習其他領域know-how,創造藍海優勢的您。

 

本課程沒有高深複雜的數學原理,只要具備簡單高中數學基礎即可,依照老師教學進度Step by Step學習,就可以自然而然地學會大數據分析與機器學習的觀念與技術。

本課程6大特色

• 特色1 : 主題式Lab教學與實務無縫接軌

本課程以BOSCH工廠實務數據進行主題式Lab教學,引導您逐步了解整個資料分析的架構,透過不同的機器學習模型,Step by Step讓您自然而然地學會資料分析流程與技術,讓您與產業實務無縫接軌,以達到節能、生產效率提升、品管績效改善、設備監診與預防性維護等目的。


• 特色2 : 程式碼附淺顯易懂的說明來縮短您的摸索時間

為了節省您摸索的時間並提升學習成效,本課程各階段分析應用的Python程式碼均附有清楚的備註說明,透過老師的解說,讓您輕鬆將知識轉變成自己的職能。


• 特色3 : 用Python快速學習Machine Learning

本課程強調"How to do"與"Trial and Error"的訓練方式。課程中沒有高深艱澀的理論與數學公式,老師會用淺顯易懂的實務案例,Step by Step講解應用原理,讓您快速學會數據分析與機器學習的應用方法,包含爬資料、整理資料、分析資料到預測與優化。因為懂得如何應用並會動手做遠比去鑽研那些數學公式來的重要。不再讓您上完課,好像知道很多東西可是卻又不知道如何開始做,而是真正具備數據分析與機器學習的能力!


• 特色4 : 獨家教授比Hadoop更快的Apache Spark應用

Apache Spark是著名的Apache開放原始碼專案之一,也是一個分散式計算平台,與Hadoop相容,而執行速度比Hadoop更快。此外,Spark 提供了豐富而且易用的API,讓開發者更容易撰寫程式,並有效降低所需的程式碼行數,提升開發效率。本課程獨家教授Apache Spark實務應用,幫助您提升資料分析的效率!


• 特色5 : 掌握不同領域的實務問題解決方案

如果您在產業中已經接觸資料分析相關工作,實務上所遇到的問題,都可在課堂上得到老師的幫助。就算您的職務尚未接觸資料分析的工作,從課堂中所接觸到的問題解決方案,都能在未來幫助您縮短尋找問題解決方案的時間。而在艾鍗認識到來自不同產業(電子、資訊、金融、零售、醫療、運輸等領域)的工程師與經理人,都能讓您從交流中得到更多解決問題的養分。


• 特色 6 : 教您學會「說明洞見」的真本事

會寫程式,會資料分析,就是合格的資料科學家嗎?當然不是!即使您具備很厲害的技術,若無法把洞見清楚地向團隊、主管、合作夥伴或客戶表達,頂多只是在自High!只會覺得大家都不懂你,陷於「懷才不遇」的假象!本堂課,讓您學會數據分析只是基本,而讓您學會說明洞見才叫本事。因此溝通能力是資料科學家的重要能力,也是本堂課的培訓重點!讓您學會如何清楚地解釋您的洞見,並透過觀摩其他學員的分析方法,在交流中激盪出更多創意火花,增加自己本事的含金量。

我可以從這門課學到什麼

• 了解什麼是大數據、什麼是資料科學及資料科學在我們日常生活中扮演的角色。

• 能理解Python模組的說明文件並具備大數據分析流程的Python程式撰寫能力。

• 具備活用Python數據分析與機器學習相關模組的能力,如 Numpy、Pandas、Scipy、Scikit-learn等。

• 快速學會掌握和分析繁雜數據集之技巧。

• 快速學會統計分析和機器學習的實務方法。

• 具備快速且準確地將數據視覺化及解讀數據的能力。

• 具備說明數據洞見(Insight)的能力並了解如何將洞見應用在本業。

課程大綱

課程強調業界實戰,絕非紙上談兵!

 

第一階段

Python程式語言打底 (數位)

主題

內容

基本資料結構
  • Python 開發環境建立; Jupyter notebook  
  • 基本資料型態
  • Python變數-mutable, immutable
  • 4種容器介紹:list,dict,tuple,set
  • 常用字串處理函數 join,len,in,strip,format,...
  • Python Class 類別設計
流程控制與函數使用
  • if_else 判斷語法
  • for, while 迴圈使用
  • 函數定義與參數傳遞 (call by assignment)
  • Function 內區域變數說明 
  • Function Generator觀念:介紹關鍵字yield18_軟體更新操作
自定與常用模組介紹
  • 繼承_實作電玩遊戲人物職業為例
  • 自定義 module 與 package
  • 常用module介紹
  • 多執行緒 threading以賣雞排為例
  • 多執行緒 threading_global_variable

 

第二階段

資料工程實戰

主題

內容

資料科學導論
  • 什麼是資料科學,為什麼要學習資料科學
  • 大數據是什麼?資料科學跟大數據的關係
  • 大數據 v.s.資料科學v.s. 機器學習 v.s.深度學習
  • 資料科學於產業應用實例:什麼是工業4.0,如何應用資料科學於工業4.0
資料科學利器Python程式語言以及必會函式庫
  • Python實作環境建置-Jupyter Notebook功能教學
  • 基本Python程式語言操作、資料格式
  • Python常用工程計算函式庫: Numpy、Pandas、Scipy
  • Github使用教學
資料工程(Data Engineering)
  • 什麼是資料工程:資料工程簡介與資料工程的流程
  • 基本資料採集與預處理-使用Pandas
    • 資料檔案採集(Scraping)、網路資料採集(Web Scraping)
    • 資料格式的正規表示式(Regular Expressions):利用公式擷取出需要的資訊
    • 資料重塑(Reshaping):整合兩個不同來源的表格、合併資料行、合併資料列、資料表排序、將某欄位分割成兩個欄位等
    • 資料清理(Data Cleanup):處理資料缺陷、統一資料格式與單位、處理缺漏值、將空值設定為預設值、移除不完整的列、統一資料型態、大小寫轉換以及文字處理(取代)
  • 進階資料處理:利用資料庫查詢語言與套件進行更多樣化的資料處理,例如:擷取某段時間範圍的子資料表
    • 結構式查詢語言(SQL) 簡介與實例操作
    • 資料整理套件dplyr介紹,及其資料文法(Grammar of Data) 簡介與實例操作
  • 探索性資料分析(Exploratory Data Analysis, EDA):運用視覺化、基本統計等工具,來「看」一下資料;在進行複雜或嚴謹的分析之前,能夠對資料有更多的認識
資料視覺化
  • 資料視覺化教學:使用matplotlib函式庫實作各類顯示圖表,例如:直方圖、圓餅圖、趨勢圖、樹狀圖等

  • 互動式視覺化(Interactive Visualization):將資料中不同的參數,例如時間區間參數,設計成可以選擇與調整的介面,讓使用者可以在調整參數的同時,同時看到資料的變化
資料科學應用實例
  • 文字探勘 (Text Mining)實例
    • 自然語言處理概念介紹:斷詞、停用詞、n-gram斷詞方法
    • 利用中文斷詞處理(Jieba)函式庫與頻率分析方法,進行文字雲的建構
    • 利用機率的概念,決定文字的關鍵字、並利用關鍵字進行初步的文章分類
  • 統計方法與機率分佈概念介紹

 

機器學習實戰

主題

內容

Introduction to Machine Learning
  • 何謂機器學習?
  • 機器學習方法?
  • 機器學習方法目前的應用場域
Machine Learning I: Regression
  • 機器學習名詞:標籤、特徵、監督式學習、非監督式學習
  • Regression迴歸模型建構方法介紹與實例練習:利用機器學習套件Scikit-learn實作
  • 了解什麼是訓練資料、什麼是測試資料(Training data vs Testing data),給機器看一堆貓的照片(訓練資料),然後丟入一堆貓狗混雜的照片(測試資料)請機器學習模型去判斷
  • 如何知道我們所建構的機器學習模型的好壞?
    • 了解什麼是損失函數(Loss Function)
    • 均方根誤差(RMSE)
    • 梯度下降演算法(Gradient Descent)
    • 如何縮小RMSE ? 模型與參數的選擇實例練習
  • 機器學習模型訓練資料建立方法介紹:機器學習模型建立之後,最重要的工作,是丟入一筆新的資料請機器學習模型去預測,因此,利用不同的訓練資料建立方法,減少機器學習模型欠擬合(Under Fit,預測能力太差)和過擬合(Over Fit,預測能力太好)的情況,預測能力太好反而無法去預測一筆新的資料
    • 交叉驗證法(Cross Validation)
    • 拔靴驗證法(Bootstrap Validation)
  • 特徵太多(資料維度高)的時候怎麼辦?如何降低資料維度?特徵工程簡介
  • 機器學習模型的評估方法:如何判斷機器學習模型的預測能力,我們將介紹下列幾個名詞與方法,混淆矩陣、準確率(Precison)、覆蓋率(Recall,也叫作召回率)、皮氏F-分數(Piotroski F-Score ,FSC)、ROC曲線、AUC曲線
Machine Learning II: Classification & Clustering
  • 分類(Classification)
    • 單純貝式分類器(Naive Bayes Classifier)
    • 機率生成模式(Probabilistic Generative Model)
    • 羅吉斯迴歸(Logistic Regression)
    • 決策樹(Decision Trees)
    • 隨機森林(Random Forests)
    • 支持向量機(Support Vector Machine)
  • 分群(Clustering)
    • 最近距離分群法(KNN)
  • 整體性方法(Ensemble Methods)概念解說與實作:單一的機器學習的效果好嗎?可以將不同的機器學習方法整合在一起分析、評估嗎?答案是可以的,整體性方法為我們提供了這樣的解決方案
  • 如何進行實驗性設計(Experimental Design):建立機器學習模型就好像在做實驗一樣,每一次的實驗都會選擇不同的特徵、機器學習演算法與參數,甚至是問題的假設,每一次的實驗都會增加你對於資料的理解,本課程將會逐步教你如何掌握這些流程與訣竅
  • 大數據運算平台介紹與開發環境建立實作:本課程將逐步教導學員在本機建立大數據運算平台開發環境以及將之前學的Python整合進入Spark
    • MapReduce演算法簡介與Hadoop介紹
    • 在Windows與Ubuntu上安裝Spark
    • 學習如何在Spark上使用Scikit-learn機器學習套件
專案實務
  • 本課程的實戰專案將以BOSCH實際釋出的生產線大數據資料進行分析,學員可以一步一步從特徵選取工程實作機器學習的各項過程,選取適合的機器學習方法進行機器學習模型建構,並應用效能評估方法與交叉驗證方法增強模型的有效性。
    • 專案目標一: 學員可以利用迴歸方法建立初步的良率出影響良率的因子以及預測準度。
    • 專案目標二: 學員可以利用其他的機器學習方法,包括單一 的機器學習方法或是多個機器學習方法整合,有效地找出影響良率的重要因子與預測準度。
    • 專案預期成果理論與實務相輔相成,學員可以藉由專案的過程中,熟練相關方法並且將其應用在自己本身的例子中。

 

師資介紹

teacher1

 Elvis Wu

專長

生物資訊 / 自然語言處理 / 統計推論 / 科學計算 / 數據科學 / 資料探勘 / 數值最佳化 / 資料庫 巨量資料處理 / 機器學習

 

學歷

交通大學交通運輸/資訊管理研究所碩士

美國聖路易大學生物資訊博士

美國佛羅里達大學資訊博士後研究

美國亞利桑納大學自然語言處理博士後研究

 

課程搶先看
生產良率分析搶先看

 big data class

 有口皆碑 班班爆滿

 

概念簡介與商業實例

 

深入淺出妙談資料科學 1分鐘輕鬆了解資料科學

 

亞馬遜Amazon GO的無店員商店 特斯拉自駕模式如何運作

 

大數據當道! 數據科學家年薪500萬 讓數字可以說話 大數據師前景俏

 

馬雲、郭台銘新投資 「大數據」賺現金 開放新中國/大數據遍地開花 逆轉勝靠它

 

什麼是Machine Learning? Google總裁Sundar Pichai談機器學習的未來

 

延伸閱讀
大數據(Big Data)人才搶手 大數據(Big Data)應用實例

延伸學習





常見問題

為什麼要學習數據分析?

大數據已經不僅僅是政府用來分析居民生活狀態的工具了,現在它被廣泛的應用於各個領域。醫療,教育,體育,金融,娛樂產業,房地產,電影電視劇的製作等等,都用上了大數據。大數據可以用來具體研究某一疾病的治療,可以記錄提高運動員的體育成績,可以分析金融交易,在多種行業中,大數據都可以用來分析顧客需求,優化業務流程,以此來提高企業業績。所以在學完大數據後,你可以選擇的就業領域將會十分的寬廣。

 

為什麼要學習機器學習?

機器學習觸動每個人的生活,它取決於我們所有的人,自主決定我們想要用它來做什麼。憑藉著你對機器學習的新理解,你處於一個更好的位置,可以去思考類似隱私和數據資料分享、未來的工作、機器人作戰,以及人工智慧的希望和危險等問題;如果我們有越多人擁有這樣的理解,我們就越可能可以避免重蹈覆轍,並找到正確成功途徑。如今亞馬遜的演算法,讓世界各地任何人都能便捷決定要閱讀什麼書籍;美國國家安全局的演算法,可以判斷你是否為潛在的恐怖攻擊分子;氣候模型(Climate models)決定什麼是二氧化碳在大氣中的安全水平;選股模型(Stock-picking models)所驅動的股市交易量,甚至遠超過大多數人所做的。基本上,因為你無法控制自己不理解的東西,所以做為公民、專業人士,以及從事幸福追尋的人們,這就是為什麼你需要了解機器學習的原因。

 

機器學習的應用範圍有哪些呢?

機器學習已廣泛應用於資料探勘、電腦視覺、自然語言處理、生物特徵識別、搜尋引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別等方面。

 

資料科學對於硬體工程師的價值?

對於台灣硬體產業而言,人工智慧是擺脫「毛三到四」窘境的下個機會點。而人工智慧建立在大數據分析與機器學習的基礎上,因此具備大數據分析與機器學習能力的硬體工程師,若能將人工智慧的相關應用融入產品開發中,瞬間能提高產品競爭優勢,當然毛利也能大大提升,而不僅僅是「毛三到四」。 所有工程師都清楚,在現在科技快速發展的物聯網時代,一旦錯過了一個機會點,可能就看不到競爭對手的車尾燈了。趁現在培養軟硬整合的能力,建立優勢,換成是競爭對手在追您的車尾燈!

 

如何成為資料科學家?

RoadToDataScientist1

這裡整理了一張由 Swami Chandrasekaran 所繪製的關於如何成為資料科學家(Data Scientist)的捷運地圖,其中包含各種領域以及其中主要的技術,如果您想研究這方面的技術,這張圖就很值得的你參考。 這張捷運地圖分為十條幹線,分別為:

1.基礎技能(Fundamentals)

2.統計(Statistics)

3.程式設計(Programming)

4.機器學習(Machine Learning)

5.文字採礦/自然語言處理(Text Mining / Natural Language Processing)

6.資料視覺化(Data Visualization)

7.大量資料(Big Data)

8.Data Ingestion

9.Data Munging

10.工具(Toolbox)

本課程正是由講師集結資料科學中的關鍵技術,深入淺出,帶著您從新手變專家。在艾鍗學院,你得到的不只是專業,更省下大量的寶貴時間。

 

當資料科學家數學是不是要很好?

資料科學的重點在於分析邏輯、對資料的敏感度、對特定領域的了解。 數學是資料科學家很重要的武器,所以絕對不能排斥。當然,如果只是用套件去做,這些數學可能不是很重要,但很多時候如 果不曉得使用的模型及理論是什麼,一來可能是分析的結果不會很好,二來是可能會因為模型誤用而造成很大的風險。所以必須具備一定的數學底子,才能學會更多 有用的模型,並能了解這些模型的限制。我們的教學重點著重實務,讓您透過實務操作來理解理論的精義,將每個關鍵技術作連結,發揮最大的綜效。跟著艾鍗學院的腳步,紮實地累積專業,用實力征服您的老闆和客戶。 

機器學習一定要很會寫程式嗎?
資料分析人員也不一定看得懂每一行程式碼,但通常他會具備某一領域知識並懂得如何分析數據。可透過本課程了解觀念與原理,再利用課堂上的程式碼架構,依據不同目的進行參數調整,其實也能快速達到資料分析的目的。

如果沒有學過Python或是其他程式基礎,能接續後面的課程進度嗎?
讓沒有程式基礎的您學會資料科學的重要概念是老師的本事!老師在課堂中會先教學員Python的基礎概念,透過實務數據以及Sample Code(範例碼),逐步解釋每個模組在各階段的邏輯順序,並讓您透過實作中理解各個模組的特色,就算沒程式基礎,也能輕鬆看懂學會。即使您一時半刻還沒完全掌握某個模組意涵,也能從Sample Code中的說明,清楚了解每個過程的意義,多練習幾次就能學會。而當您能清楚了解資料科學中各模組的用法,您已經具備Python程式撰寫能力。當然,您想在本堂課有多少收穫取決於您對本堂課付出多少心力。

 

Python在數據分析上有什麼優勢呢?

簡要說明如下 :

1. 網絡爬蟲/抓取:儘管 rvest 已經讓 R 的網絡爬蟲/抓取變得容易,但 Python 的 beautifulsoup 和 Scrapy 更加成熟、功能更強大,結合django-scrapy我們可以很快的構建一個定製化的爬蟲管理系統。

2. 連接資料庫:R 提供了許多連接資料庫的選擇,但 Python 只用 sqlachemy 通過ORM的方式,一個包就解決了多種資料庫連接的問題,且在生產環境中廣泛使用。Python由於支持占位符操作,在拼接SQL語句時也更加方便。

3. 內容管理系統:基於Django,Python可以快速通過ORM建立資料庫、後台管理系統,而R中的 Shiny 的鑒權功能暫時還需要付費使用。

4. API構建:通過Tornado這個標準的網絡處理庫,Python也可以快速實現輕量級的API,而R則較為複雜。

 

自學大數據分析與機器學習的艱難在哪呢?

困難1:若想透過網路學習,因網路知識過於片段,深淺不一,學習成效有限。

困難2:若想透過書籍學習,因目前相關技術中譯本不多,主要仍以英文為主,語言門檻是學習者的第一個門檻;即使有中譯本,大部分仍翻譯艱澀並充斥著大量的複雜公式和程式,不夠親和,讓讀者有很大的學習障礙。

因此,若沒有專業的老師帶著學,學習不但事倍功半且無法確定所學到的知識是否正確,更不用說能學到業界真實的分析與Debug經驗。

 

用42小時學大數據分析與機器學習會太長嗎?

不會!42小時是最合適的學習時數。 如果只是1天的研討會或數小時的工作坊,除非是已經具備數據分析基礎的學員,否則大部分的人在結束後,仍然對大數據分析一知半解,更別說是實務應用,只能永遠停留在入門的程度。 透過42小時的課程能讓您在各階段循序漸進掌握大數據分析與機器學習的技術精華全貌,融會貫通後,結合自身產業特性,將應用價值極大化。當然,上完本課程的您,不但能輕鬆結合您本業特性來發揮價值,對於坊間所教的爬591租屋資料或股市分析等生活化應用,只是〝A Piece of Cake!〞

 

教學中,會使用Python 的哪一個版本?

課堂上以python3 版本為主。

 

開發與運行的環境,課程是否會提及對於使用Window 或 linux 環境的優缺比較,實際教學環境是哪個作業系統?

會提到兩個作業系統的優缺比較,實際教學上會以Ubuntu 16.04LTS為實際開發環境。

 

實務運用上許多既有的軟體應用跟架構都建機在Windows 上,如果教學環境都是用Ubuntu,那會討論在不同作業系統下轉移可能會遇到的問題跟解決方法嗎?

基本上Windows也可以,只是教室電腦皆以Linux為主,可以自行帶筆電過來進行練習。 以Spark為例,如果想要建立高效能的叢集cluster系統加快運算速度的話,一般還是用Linux架設比較多。

 

上課需要另外購買教材或書籍嗎?

課程皆有授課講師親編講義,無需再去坊間找尋書籍。

 

課程如何報名及繳費?

請致電艾鍗學院(02)2316-7736,會由課程顧問協助您完成報營與繳費,繳費方式可採取:
ATM轉帳
銀行代碼: 008
匯款: 華南商業銀行 總行營業部
帳號: 100-10-032218-5
戶名: 艾鍗科技有限公司
信用卡刷卡(將寄送信用卡授權單)
艾鍗櫃台付款 (艾鍗位置:臺北市中正區重慶南路一段143號4樓)

 

如課程上有不懂的地方如何解決?

若學員於課程進行上有不懂或不了解的地方,您可以至在課堂上詢問老師或在課程的討論板發表問題,艾鍗的講師或其他學員都會很樂意為您解答!

課程諮詢
今年最後一場,錯過請明年再來!!
 
倒數4位~~立即報名卡位!!  

在一個快速變遷的世界裡,確定會失敗的唯一策略是:不冒險。如果你欣然擁抱趨勢,踏向偉大的大數據工程師修練之路,風向也會幫你一把。搭上艾鍗學院的學習列車,不可思議的旅程,從此開始!若您希望對本課程有更多了解,歡迎留下您的資料,或撥服務專線(02)2316-7736,艾鍗學院將竭誠為您服務喔!

 

0403 jeff bezos amazon 400x400

Amazon創辦人 Jeff.Bezos

當你抵抗趨勢,那你就是在和未來作對。

但若你選擇欣然擁抱,風向會幫你一把。