看到車子開過來,我們會閃避;見紅燈亮了,我們會停駐;遇到認識的人,我們能夠識別。這些動作對人類來說很簡單,但機器做得到嗎? 隨著電腦運算效率的提升,帶動了深度學習的發展,讓影像領域有了重大的突破。 如今,透過各種影像技術的整合,我們已經能夠讓機器感知世界。
影像處理/影像預處理
影像最根本的技術,即是影像處理,影像處理是對圖像進行分析、加工、和處理,使其滿足視覺、心理與其他要求的技術:使用OpenCV將影像去雜訊、影像強化,來達到影像品質的改善;透過影像二值化,根據使用者的目的需求,凸顯影像的形狀特徵等。 因為我們得到的影像資料並不總是乾淨完美、量身訂做,尤其在AI運用上,好的訓練模型(準確的辨識率),終歸是基於有效的影像前處理/預處理上。
電腦視覺與特徵擷取
在有效的影像來源基礎建立後,我們來到了中階處理的層次,可以開始做初步判斷:這影像是圓是方是扁? 電腦視覺技術始大顯身手。電腦視覺是一門研究如何使機器「看」的科學,目的在於建立與人類視覺系統相仿的機器,可觀察、識別甚至可以理解並解釋所看到的世界。活用OpenCV函式庫實作電腦視覺演算法,能夠擷取特徵關鍵,如邊緣偵測、圓形偵測、角點偵測等影像偵測。以人臉來說,影像的指定位置會被轉換為特徵,經過分類器,我們抓到了人臉在哪裡?
AI深度學習與影像辨識
有了AI深度學習的加持,尤以深度學習卷積神經網絡(Convolutional Neural Networks,CNN)的推動,讓電腦視覺突破了幾十年來的瓶頸,更加大放異彩,應用場域也不斷在擴展當中。CNN能實現在影像處理的各種應用,我們可以善用各種工具套件,Tensorflow、Keras 等 AI 工具建立深度學習( Deep Learning)模型,讓演算法去擷取影像特徵進行模型訓練,依據結果,在流程中的相應環節進行調整,讓機器實現「感知」的目的。也就是說,到了這個階段,機器已能夠認知、識別出,這張人臉是誰?
前面以人臉的應用為例,我們可以很快地了解影像處理領域的三個層次。從純粹影像到抓出特徵再進階到能夠感知,這是課程所要交給你的,課程將帶你循序漸進掌握AI視覺。當然,還有更多相關核心技術與各式應用,請見下圖,歡迎點擊深入了解。