IoT

 bigdata banner 2
 
 
【非凡新聞】21世紀最性感職業! "資料科學家"炙手可熱

 
今年最後一場,錯過請明年再來!!
 
倒數5位~~立即報名卡位!!  
課程緣起

0403 jeff bezos amazon 400x400

Amazon創辦人 Jeff.Bezos

當你抵抗趨勢,那你就是在和未來作對。

但若你選擇欣然擁抱,風向會幫你一把。

 

網路科技快速發展,數據資料被視為繼水、電、煤之後,由人類第一次自己創造的新能源。而數據分析與機器學習在各個產業間蓬勃發展,像是Tesla自駕車和亞馬遜的智慧實體超市Amazon Go,都運用大量的數據分析與機器學習的技術。因此,負責淘洗數據、從中精煉價值的資料科學家無疑是這幾年最炙手可熱的職位,《哈佛商業評論》將之譽為「21 世紀最性感工作」。

 

然而,優異的資料科學家就像獨角獸一樣珍貴難尋,不是只有科技公司在搶人,傳統金融界、零售商、廣告、教育,幾乎所有產業都需要資料科學家從大量數據中萃取精華。不同於坊間一般僅告訴您理論與趨勢的大數據課程,本班重點著重實務應用,系統化教學,帶你從入門到進階,紮實地學會每個階段的技術關鍵。書本的知識,過於艱澀,不是每一個人都看得懂。網路知識,過於片段,並非每一個人都學得會。若您只是想簡單了解大數據的概念,或許別的培訓單位會比較適合您。然而,在艾鍗學院,您學到的不只是技術,更節省了大量寶貴的時間!若您想培養專業職能,晉身為大數據專家,讓艾鍗學院培養您成為資料科學的贏家!

 

本課程將介紹資料科學中,五大重要核心概念與資料分析流程:

五大重要核心概念

  (1) 資料梳理(Data Wrangling)、資料清理(Data Cleaning)與資料重整(Sampling)以獲得合適資料集(Data Set);

  (2) 有效的資料管理(Data Management)策略與方法以快速地、可靠地存取巨量資料(Big Data);

  (3) 探索性資料分析(Exploratory Data Analysis, EDA)以產生相關假設(Hypotheses)與資料直覺(Data Intuition);

  (4) 基於統計方法的預測(Prediction),例如:迴歸分析(Regression)與分類(Classification);

  (5) 經由資料視覺化(Visualization)、故事與解釋性總結(Interpretable Summaries)等方法將分析結果進行有效的溝通(Communication)。

 

課堂中沒有艱深難懂的數學理論,而是用Python實作,讓您深入其中,自然而然學會大數據分析與機器學習技術!

 

資料分析流程

data analysis step

課程特色

 

特色1 : 用Python快速學習Machine Learning

本課程以Python語言教授如何快速進行大數據的資料處理的技術與方法,包含爬資料、整理資料到分析資料等。同時深入探討統計學與機器學習的關鍵應用,引導學員逐步建立相關統計學與機器學習的相關專業。

※本課程全部程式設計作業與專案將使用Python進行實作與練習

 

特色2 : 不是純理論,是拿數據實際出來跑

本課程以實務上的工業生產與感測器數據集進行實際的大數據資料分析與預測,引導學員逐步建立整個大數據分析的流程與優化方法,透過不同模型,讓您快速掌握理論與應用間的連結,自然而然地學會機器學習的關鍵應用。另外,全台獨家教授亞馬遜網路服務(Amazon Web Services, AWS)Apache Spark進階應用,就是要讓你比別人更優秀!

 

• 特色3 : 跟著高手學,勝練十年功

本課程由資料科學界公認的明星講師Elvis親授,幫助學員快速培養專業實力。Elvis擁有交通運輸管理、資訊管理、生物資訊、自然語言處理等碩博士學位,在科技部海洋學門資料庫及地理資訊中心累積豐富的實務經驗,是政府多項專案的顧問,同時也協助多家企業在資料分析上發掘更多的商業價值,為各界爭相邀聘的明星講師。擁有豐富學經歷的Elvis將傳授精心整理的資料分析know-how,幫助學員節省寶貴時間,快速培養實務專業,晉升資料分析師的高薪行列。跟著高手學,勝練十年功 !

課程資訊

 授課對象

    電資學院相關背景,但對於大數據、Data Science、統計學、機器學習基本上沒有概念,對資料科學應用也不清楚的學生或是工程師。

 

授課時數

    42小時。

 

課程目標 

  • 了解什麼是大數據、什麼是資料科學及資料科學在我們日常生活中扮演的角色。
  •  熟悉Python程式語言中,針對大數據資料處理與管理相關模組,如 Pandas, SciPy等。
  •  熟悉Python程式語言中,針對機器學習的相關模組,如scikit-learn等。
  •  能閱讀Python模組的說明文件。
  •  了解整個大數據分析流程的Python程式撰寫。

 

黃金講師

teacher1

 Elvis Wu

 

    學歷

        交通大學交通運輸/資訊管理研究所碩士

        美國聖路易大學生物資訊博士

        美國佛羅里達大學資訊博士後研究

        美國亞利桑納大學自然語言處理博士後研究

 

    專長

        生物資訊 / 自然語言處理 / 統計推論 / 科學計算 / 數據科學 / 資料探勘 / 數值最佳化 / 資料庫 巨量資料處理 / 機器學習

 

課程規劃 

  ★本課程全部程式設計作業與專案將使用Python進行實作與練習。

  ★每一堂課進行時間約90分鐘(1個半小時)。共28堂課,總共教學時間42個小時。

data analysis structure

第1堂

資料科學概述與應用

實作課程(一):Python程式語言介紹、Pandas模組介紹與Github介紹

第2堂

網路資料採集(Web Scraping)、正規表示式(Regular Expressions)、資料重塑(Data Reshaping)與資料清理(Data Cleanup)。

第3堂

探索性資料分析(Exploratory Data Analysis, EDA)

實作課程(二):資料採集(Scraping)資料視覺化介紹

第4堂

再探Pandas模組,結構式查詢語言(SQL),, 資料文法(Grammar of Data):資料整理套件dplyr介紹

第5堂

統計模式(Statistical Models)

第6堂

實作課程(三):機率(Probability),分佈(Distributions)與頻率統計(Frequentist Statistics)

第7堂

故事敘事方法(Story Telling)與有效的溝通技巧(Effective Communication)

第8堂

偏誤值(Bias)與迴歸分析(Regression)

實作課程(四):期末專案討論、迴歸(Regression)與羅吉斯迴歸(Logistic Regression)

第9堂

進階迴歸分析方法介紹與實例解說

第10堂

分類(Classification)、最近距離分群法(kNN)、交叉驗證(Cross Validation)、為度降低(Dimensionality Reduction)與主成分分析(PCA)

第11堂

實作課程(五):期末專案討論、機器學習(Machine Learning)簡介與方法介紹

第12堂

機器學習方法:支持向量機(Support Vector Machine, SVM)介紹與預測結果評估

第13堂

機器學習方法:決策樹(Decision Trees)與隨機森林(Random Forests)介紹

第14堂

實作課程(六):期末專案討論與機器學習(Machine Learning)簡介與方法介紹二:模式比較

第15堂

機器學習方法:整體性方法(Ensemble Methods)

第16堂

機器學習方法的最佳實踐(Best Practices) 實作課程(七):整體性方法(Ensembles)實作

第17堂

機器學習方法的最佳實踐(Best Practices)、推薦系統實作與分析演算法介紹:MapReduce

第18堂

分析演算法介紹:MapReduce Combiners與Apache Spark

第19堂

實作課程(八):虛擬機器Vagrant與VirtualBox介紹,亞馬遜網路服務(Amazon Web Services, AWS)與Apache Spark進階介紹

第20堂

統計方法介紹:貝氏理論(Bayes Theorem)與相關貝氏方法(Bayesian Methods)介紹

第21堂

統計方法介紹:相關貝氏方法(Bayesian Methods)介紹 實作課程(九):Bayes理論實作

第22堂

文字分析與探勘(Text Mining)、互動式視覺化(Interactive Visualization)

實作課程(十):期末專案討論、文字分析與分群(Text and Clustering)

第23堂

統計方法介紹:分群(Clustering)

第24堂

有效的簡報表達技巧(Effective Presentations) 實作課程(十一):期末專案討論與範例解說(Projects, and an example)

第25堂

 實驗性設計(Experimental Design)

第26堂

 深度學習網路(Deep Networks)簡介

第27堂

 實作學習與分享,如何進行資料科學研究

第28堂

 總結、專案分享與回顧

 

商業實例

 

亞馬遜Amazon GO的無店員商店 特斯拉自駕模式如何運作

 

大數據當道! 數據科學家年薪500萬 讓數字可以說話 大數據師前景俏

 

馬雲、郭台銘新投資 「大數據」賺現金 開放新中國/大數據遍地開花 逆轉勝靠它

 

什麼是Machine Learning? Google總裁Sundar Pichai談Machine Learning的未來

 

延伸閱讀
大數據(Big Data)人才搶手 大數據(Big Data)應用實例

課程諮詢
今年最後一場,錯過請明年再來!!
 
倒數5位~~立即報名卡位!!  

在一個快速變遷的世界裡,確定會失敗的唯一策略是:不冒險。如果你欣然擁抱趨勢,踏向偉大的大數據工程師修練之路,風向也會幫你一把。搭上艾鍗學院的學習列車,不可思議的旅程,從此開始若您希望對本課程有更多了解,歡迎留下您的資料,或撥服務專線(02)2316-7736,艾鍗學院將竭誠為您服務喔!

 

 

延伸學習

 

常見問題

為什麼要學習數據分析?

大數據已經不僅僅是政府用來分析居民生活狀態的工具了,現在它被廣泛的應用於各個領域。醫療,教育,體育,金融,娛樂產業,房地產,電影電視劇的製作等等,都用上了大數據。大數據可以用來具體研究某一疾病的治療,可以記錄提高運動員的體育成績,可以分析金融交易,在多種行業中,大數據都可以用來分析顧客需求,優化業務流程,以此來提高企業業績。所以在學完大數據後,你可以選擇的就業領域將會十分的寬廣。

 

為什麼要學習機器學習?

機器學習觸動每個人的生活,它取決於我們所有的人,自主決定我們想要用它來做什麼。憑藉著你對機器學習的新理解,你處於一個更好的位置,可以去思考類似隱私和數據資料分享、未來的工作、機器人作戰,以及人工智慧的希望和危險等問題;如果我們有越多人擁有這樣的理解,我們就越可能可以避免重蹈覆轍,並找到正確成功途徑。如今亞馬遜的演算法,讓世界各地任何人都能便捷決定要閱讀什麼書籍;美國國家安全局的演算法,可以判斷你是否為潛在的恐怖攻擊分子;氣候模型(Climate models)決定什麼是二氧化碳在大氣中的安全水平;選股模型(Stock-picking models)所驅動的股市交易量,甚至遠超過大多數人所做的。基本上,因為你無法控制自己不理解的東西,所以做為公民、專業人士,以及從事幸福追尋的人們,這就是為什麼你需要了解機器學習的原因。

 

機器學習的應用範圍有哪些呢?

機器學習已廣泛應用於資料探勘、電腦視覺、自然語言處理、生物特徵識別、搜尋引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別等方面。

如何成為資料科學家?

RoadToDataScientist1

這裡整理了一張由 Swami Chandrasekaran 所繪製的關於如何成為資料科學家(Data Scientist)的捷運地圖,其中包含各種領域以及其中主要的技術,如果您想研究這方面的技術,這張圖就很值得的你參考。 這張捷運地圖分為十條幹線,分別為:

1.基礎技能(Fundamentals)

2.統計(Statistics)

3.程式設計(Programming)

4.機器學習(Machine Learning)

5.文字採礦/自然語言處理(Text Mining / Natural Language Processing)

6.資料視覺化(Data Visualization)

7.大量資料(Big Data)

8.Data Ingestion

9.Data Munging

10.工具(Toolbox)

本課程正是由講師集結資料科學中的關鍵技術,深入淺出,帶著您從新手變專家。在艾鍗學院,你得到的不只是專業,更省下大量的寶貴時間。

 

當資料科學家數學是不是要很好?

資料科學的重點在於分析邏輯、對資料的敏感度、對特定領域的了解。 數學是資料科學家很重要的武器,所以絕對不能排斥。當然,如果只是用套件去做,這些數學可能不是很重要,但很多時候如 果不曉得使用的模型及理論是什麼,一來可能是分析的結果不會很好,二來是可能會因為模型誤用而造成很大的風險。所以必須具備一定的數學底子,才能學會更多 有用的模型,並能了解這些模型的限制。我們的教學重點著重實務,讓您透過實務操作來理解理論的精義,將每個關鍵技術作連結,發揮最大的綜效。跟著艾鍗學院的腳步,紮實地累積專業,用實力征服您的老闆和客戶。

 

參加課程就一定會寫程式嗎?
資料科學中,常用的程式語言為Python與R。課程中,我們會以Python教會學員資料科學中的關鍵技術應用,只要您上課跟著做,你將突然發現原來幾百行程式在課堂中就這麼輕鬆完成。當然程式除了理解外,時常練習是一定要的(基本語法也才記得住嘛!)

 

Python在數據分析上有什麼優勢呢?

簡要說明如下 :

1. 網絡爬蟲/抓取:儘管 rvest 已經讓 R 的網絡爬蟲/抓取變得容易,但 Python 的 beautifulsoup 和 Scrapy 更加成熟、功能更強大,結合django-scrapy我們可以很快的構建一個定製化的爬蟲管理系統。

2. 連接資料庫:R 提供了許多連接資料庫的選擇,但 Python 只用 sqlachemy 通過ORM的方式,一個包就解決了多種資料庫連接的問題,且在生產環境中廣泛使用。Python由於支持占位符操作,在拼接SQL語句時也更加方便。

3. 內容管理系統:基於Django,Python可以快速通過ORM建立資料庫、後台管理系統,而R中的 Shiny 的鑒權功能暫時還需要付費使用。

4. API構建:通過Tornado這個標準的網絡處理庫,Python也可以快速實現輕量級的API,而R則較為複雜。

 

上課需要另外購買教材或書籍嗎?

課程皆有授課講師親編講義,無需再去坊間找尋書籍。

 

課程如何報名及繳費?
請致電艾鍗學院(02)2316-7736,會由課程顧問協助您完成報營與繳費,繳費方式可採取:
ATM轉帳
銀行代碼: 008
匯款: 華南商業銀行 總行營業部
帳號: 100-10-032218-5
戶名: 艾鍗科技有限公司
信用卡刷卡(將寄送信用卡授權單)
艾鍗櫃台付款 (艾鍗位置:臺北市中正區重慶南路一段143號4樓)

 

如課程上有不懂的地方如何解決?
若學員於課程進行上有不懂或不了解的地方,您可以至在課堂上詢問老師或在課程的討論板發表問題,艾鍗的講師或其他學員都會很樂意為您解答!

今年最後一場,錯過請明年再來!!
 
倒數5位~~立即報名卡位!!