艾鍗學院 - 成果發表

E-learning↑K8s雲原生實戰

【跟Netman學Kubernetes】

06/07↑全能電路設計實戰班

組合優惠實施中，欲洽從速

06/06↑FPGA數位IC設計實戰

【唯一業師教學|產業實戰推薦】

隨時開課↑軟韌體線上課程

★專業技術/證照課程助你職能升級

艾鍗學院近期開課
實體遠距同步 | 彈性加開平日課程
● 艾鍗課程總覽 ● 數位課程總覽

115.03.29

STM32嵌入式開發實戰【已開班】

115.04.25

Verilog硬體描述語言【已開班】

115.05.16

FPGA數位IC設計實戰【已開班】

115.05.16

全能電路設計實戰班【已開班】

115.05.16

PCB電路板佈局設計【已開班】

115.05.19

數據分析暨機器學習應用班【全額補助】

115.05.23

AI深度學習與影像辨識

115.05.24

物聯網資訊安全實務

115.06.06

SoC FPGA嵌入式設計實戰

115.06.07

工業電子丙級證照輔導課程 new

115.06.13

iPAS AI應用規劃師能力鑑定課程<初級>

115.06.14

MCU單晶片韌體設計

115.06.23

待業青年限定AI職訓【29歲以下】

115.06.28

ROS機器人系統開發課程

115.06.30

待業者限定職前訓練【全額補助】

115.07.07

[暑假]APCS程式精修班

115.07.14

[暑假]APCS解題實作班

115.07.25

Linux系統建置實務

115.07.26

ARM Cortex-M 應用設計【已開班】

115.07.28

青少年AI實作暑假營隊

115.08.01

嵌入式Linux設計開發

115.08.09

USB韌體設計

115.09.06

115.12.31

115.12.31

115.12.31

115.12.31

115.12.31

115.12.31

[線上]iPAS AI應用規劃師能力鑑定課程 new

115.12.31

[線上]生成式AI認證課程

115.12.31

[線上]Python進階程式設計 new

115.12.31

[線上]Edge AI與Raspberry Pi Pico實作應用

115.12.31

[線上]生成式AI實務：從基礎模型到Agentic AI new

115.12.31

[線上]Kubernetes(K8s)雲原生實戰班

115.12.31

[線上]AI雲端原生與MLOps自動化實務班

本班介紹	活動議程	專題介紹	歷屆成果展

艾鍗學院長期以來與學術單位緊密合作，此次，艾鍗學院協辦華梵大學「嵌入式AI影像技術與應用班」成果發表暨企業徵才活動。39位學員歷經三個月的密集實作訓練，產出「為用而生」的技術作品，迫不及待向企業夥伴們展現心血成果。本活動完全免費，歡迎企業夥伴到場來交流喔！

TIME	DESCRIPTION
13:10-13:30	來賓報到
13:30-14:10	來賓致詞、專題指導老師致詞
14:10-15:10	學員進行專題簡報 ► YOLO 車流辨識與智慧號誌優化系統：AI 驅動的交通流量視覺 ► 智慧發票解析與自動化複式記帳系統：融合 OCR、NLP 與 LLM 的個人財務管理解決方案 ► 智慧家居門禁系統：語音與臉部辨識整合應用 ► 基於光度立體與深度學習的高反光金屬表面瑕疵檢測系統 ► 基於 YOLO與嵌入式控制的智慧垃圾分類系統
15:10-15:20	休息茶敘時間
15:20-16:30	成果展示、學員與廠商交流時間
16:30-17:00	學員結訓、賦歸

活動時間

114年7月25日 (五) 下午13:30~17:00

活動地點

華梵大學推廣教育處新北板橋中心(新北市板橋區文化路二段242號6樓)

活動報名

聯絡窗口：張先生 Email住址會使用灌水程式保護機制。你需要啟動Javascript才能觀看它 | (02)2316-7734

113 data ml resultpost banner1

組員：連○為、謝○佑、吳○萱、何○茵、黃○欣、張○鑫、蔡○憲、劉○翰、謝○賢

摘要

分析平台本專案旨在建置一套以 YOLOv8 為核心的 AI 智慧車流辨識系統，提升台灣城市交通監控與號誌調度的即時性與準確性。系統應用深度學習物件偵測技術，針對汽車、機車、公車與貨車等常見交通工具進行即時分類與計數，精確取代傳統紅外線感測器及人工統計在誤差率與車種辨識上的限制。

資料收集涵蓋公開影像資料集、實地拍攝影片及手動截圖，並透過 bounding box 進行高精度標註，以提升模型訓練的辨識效能。系統設計支援動態繪製偵測區域，使用者可自訂特定路段或方向作為分析目標，靈活應對多樣化交通場景。核心功能包含即時車流偵測、計數、車種分類與編號管理，並整合 RTSP 串流模擬實際監視器環境，實現即時視覺分析。未來將進一步導入模型壓縮與蒸餾技術以支援邊緣部署、強化機車辨識率，並開發視覺化流量分析介面與 API 模組，打造可擴展、高可靠的智慧交通應用平台。

關鍵字：YOLOv8、物件偵測、機器視覺、車流統計、RTSP 串流監控

113 data ml resultpost banner2

組員：李○輝、陳○靜、陳○軒、王○中、張○勝、蕭○宸、陳○、張○學

摘要

本專題旨在開發一套整合 OCR、自然語言處理與深度學習技術的個人化自動記帳系統，解決傳統記帳手動輸入與分類耗時的問題。系統核心功能包含紙本與電子發票的辨識、資訊擷取、語意分類及複式記帳格式的自動生成。

在發票辨識階段，系統採用 YOLOv11 進行紙本發票的定位與切割，並以 Tesseract OCR 擷取日期、金額、品項等關鍵欄位。對於電子發票，則解析 QR Code 中的標準欄位與商品明細。所有資訊將經過標準化與結構化處理。

在分類階段，系統引入兩種語意理解策略：其一為 Few-shot Learning，利用Sentence-BERT 對品項名稱進行語意嵌入，結合 KNN 分類器對應至預設會計科目；其二為 Zero-shot Learning，透過 MobileBERT直接生成對應分類，增強模型對新類型品項的泛化能力。系統亦可查詢統一編號對應之行業別，輔助分類邏輯。最終資料將輸出至 Google Sheets，以複式記帳格式自動記錄，提供高效率、低錯誤率的個人財務管理新方案。

關鍵字：複式記帳、OCR、YOLOv11、自然語言處理 (NLP)、LLM、自動化會計分類

113 data ml resultpost banner3

組員：王○皓、郭○廷、李○望、邱○迦、游○翔、賴○嘉

摘要

本專題旨在建構一套融合語音與臉部辨識技術的 AI 智慧門禁系統，以因應高齡化社會中獨居長者比例上升與居家安全的迫切需求。系統整合語音與臉部辨識兩大 AI 技術模組，打造無接觸、智慧化的門禁管理機制。

本系統具備四大功能模組：1) 臉部辨識自動開鎖，2) 陌生人警示與影像記錄，3) 語音控制門鎖與燈具，4) 出入紀錄查詢。語音辨識部分，採用 Mel 頻率倒譜係數（MFCC）進行音訊特徵萃取，並以 YAMNet 為基礎進行遷移學習，搭配自建中文語音分類器，以辨識如「開門」、「關燈」等命令句。資料來源涵蓋 Google Speech Commands v2 與自錄語音，並透過雜訊擴增技術提升模型在實際應用中的穩定性。臉部辨識模組採用 FaceNet 生成人臉嵌入向量，並以類 KNN 概念進行比對，透過餘弦相似度計算找出最接近的身份，搭配圖像旋轉等資料增強技術建構家庭成員人臉資料庫。

系統實體控制則透過 Relay 模組控制門鎖與燈具，實現語音與視覺辨識的即時互動。同時具備陌生人警示、影像記錄與出入紀錄查詢等功能。本專案以 AI 技術與 IoT 整合為核心，提供高安全、易部署的智慧家居門禁解決方案。

關鍵字：智慧家居, FaceNet, MFCC, YAMNet, KNN, AIoT

113 data ml resultpost banner4

組員：王○瑄、田○東、陳○琳、田○萱、蘇○維、廖○傑、陳○諺、蔡○騏、吳○儀

摘要

本專題針對高反光金屬表面在自動化製程中常見的光影干擾問題，提出一套結合光度立體（Photometric Stereo）與深度學習的 AI 視覺瑕疵檢測系統。面對不鏽鋼、鋁鎂合金、鍍鉻等高鏡面材質，傳統影像系統易因反射與陰影誤判，無法滿足高精度製程對品質控管的需求。

本系統以固定視角拍攝 8 張不同方向光源下的灰階影像，首先透過 channel shift 技術模擬人眼從多角度觀察物體表面的效果，接著使用 TSCM 模組（光照加權整合）進行亮度融合，最後將結果映射為具幾何敏感性的 pseudo-RGB 圖像。此步驟能有效強化刮痕、凹陷、污漬等瑕疵的顯著性，大幅提升辨識穩定性與可視性。

完成 pseudo-RGB 轉換後，輸入 YOLOv8 進行即時瑕疵定位與分類，實驗結果在 mAP@50 可達 0.86。系統具備模型自學與參數調整能力，能動態適應不同材質與製程條件。未來規劃結合異常偵測模型與多模態感測器，應用於半導體、汽車零件與高階精密產線，提供穩定且可擴展的智慧品管解決方案。

關鍵字：金屬瑕疵檢測、Photometric Stereo、pseudo-RGB、YOLOv8、TSCM、反光干擾抑制

113 data ml resultpost banner5

組員：龔○宇、李○淇、林○騰、黃○銓、陳○均、滿○芸、賴○鈺

摘要

本專題提出一套結合 AI 物件偵測與嵌入式控制的智慧垃圾分類系統，旨在解決傳統人工分類在人力成本高、準確性不足與處理效率低落等問題。系統核心採用 YOLOv11 進行即時影像辨識，能準確識別塑膠、金屬、玻璃與紙類等常見廢棄物，顯著提升分類速度與穩定性。影像資料經標註與前處理後進行模型訓練與微調，辨識準確率（mAP@50）可達 0.9。

分類結果經由 Raspberry Pi Pico（RP2040）接收後，輸出對應的 PWM 控制訊號，以驅動模擬機械手臂，將垃圾準確分送至四個分類區，實現即時且自動化的廢棄物分流。實現本系統的技術包括 YOLOv11 高效模型的應用、Python 與 C/C++ 跨平台開發整合，以及 AI 推論結果與嵌入式硬體控制的無縫連接。

本系統具備高度擴展性與部署彈性，未來可應用於智慧校園、社區回收站等場域，協助實踐 ESG 永續發展目標，推動循環經濟與智慧城市環保基礎建設的發展

關鍵字：智慧垃圾分類、YOLOv11、Raspberry Pi Pico、嵌入式控制、機械手臂、PWM、ESG

Email住址會使用灌水程式保護機制。你需要啟動Javascript才能觀看它

本班介紹	活動議程	專題介紹	歷屆成果展

2024 data ml student

學員將於活動中簡報專題發想動機、技術架構、開發心得、預計成果等，並於簡報後和現場企業來賓進行交流。歡迎AI人工智慧、機器學習開發、嵌入式系統開發、韌體開發等技術領域相關企業蒞臨交流。

艾鍗辦訓，秉持著「為用而訓」之原則，幫助學員培養符合業界所需的職能。本此成果展的班隊為數據分析暨機器學習應用班。學員們經過3個多月的紮實的實作學習，產出「為用而生」的技術作品，迫不及待向企業夥伴們展現心血成果。本活動免費，歡迎企業廠商到場來交流喔！

TIME	DESCRIPTION
13:10-13:30	來賓報到
13:30-14:10	來賓致詞、專題指導老師致詞
14:10-15:10	學員進行專題簡報 ► SwiftCar －基於行動端 YOLOv8 的即時視覺辨識結帳系統 ► 台股指數預測系統：結合 XGBoost 與 Bert 的股市智慧預測系統 ► 智慧本壘板：基於 Few-Shot LLM 的自動化棒球賽事紀錄與可視化 ► AI 虛擬衣櫥：高保真虛擬試穿平台 ► 基於生成對抗網路的深度學習聲音降噪系統
15:10-15:20	休息茶敘時間
15:20-16:30	成果展示、學員與廠商交流時間
16:30-17:00	學員結訓、賦歸

活動時間

114年09月26日 (五) 下午13:30~16:30

活動地點

文大推廣部大安分部－406教室（台北市大安區和平東路一段155號4樓）

活動報名

聯絡窗口：張先生 Email住址會使用灌水程式保護機制。你需要啟動Javascript才能觀看它 | (02)2316-7734

113 data ml resultpost banner1

組員：李○興、林○敬、林○卉、粘○瑋、吳○諺

摘要

在全球零售巨頭如 Amazon、Walmart 與 7-Eleven 相繼導入「掃碼購 (Scan & Go)」服務的浪潮下，傳統結帳模式正面臨顛覆性轉型。這些成功案例證明，將結帳流程轉移至消費者的手機端，不僅能有效縮短排隊與結帳時間，更顯著提升購物體驗。受此趨勢啟發，本專案「SwiftCart」致力於打造一套輕量、高效的 AI 影像辨識結帳解決方案，協助更多商家以低門檻導入智慧零售模式。

本專案核心是一套可部署於行動裝置的即時商品視覺辨識系統。我們採用先進的 YOLOv8 物件偵測模型，並將推論計算直接置於手機端 (On-Device Inference)，成功擺脫對網路連線的依賴，實現零延遲的商品辨識體驗。消費者僅需透過 App 拍攝貨架商品，系統便能自動辨識品項、顯示資訊，並一鍵加入購物車完成支付。
為確保模型在複雜零售環境中的可靠性，我們投入嚴謹的數據工程與訓練流程。初始模型的平均精確度 (mAP@50) 約為 0.65；經由擴增資料集 (每類商品 50–100 張影像) 並優化標註策略後，最終 mAP@50 成功提升至 0.85，展現了模型在商品辨識與定位上的優異性能。
同時，我們已建構完整的後端架構，涵蓋會員管理、商品分類、庫存追蹤與銷售紀錄，並設計數據分析頁面以支援決策。目前已成功以「飲料品項」完成概念驗證 (Proof of Concept)，充分展現技術可行性。
展望未來，SwiftCart 具備高度擴展性，可進一步整合個人化推薦系統、第三方支付串接，並應用於無人商店、智慧貨架等多元零售場景，逐步構建完整的數位零售生態圈。

關鍵字：YOLOv8, 物件偵測, 行動端 AI (On-Device AI / Edge AI)

113 data ml resultpost banner2

組員：陳○安、黃○忠、鄭○暄、吳○民、梁○銘、林○奇

摘要

本專案致力於開發一套智慧型股市預測系統，針對台灣加權股價指數（TAIEX）的短期走勢進行精準預測與投資資訊推播。系統以市場歷史價量資料（開盤價、最高價、最低價、收盤價、成交量）為基礎，衍生出多種技術指標（MA10、MA15、MACD、RSI），並結合創新的新聞量化特徵，提供兼具數據深度與市場情緒的綜合預測，最終輸出簡明的多空建議。系統架構分為三層：資料擷取層負責整合股市歷史交易數據與即時財經新聞；分析層為核心，透過 BERT 模型進行新聞語意解析，將市場情緒、產業動態、法人動向等文本資訊轉化為可量化的數值特徵，並結合價量與技術指標輸入 XGBoost 模型，完成最終的指數數值預測；應用層則利用 LINEBoT，每日定時推送預測結果、趨勢圖表及新聞摘要，協助投資人快速掌握市場脈動。
未來，系統將引入 LSTM 與 Transformer 等深度學習架構，以提升時間序列建模能力，並拓展至個股預測、ETF 策略建議與個人化投資組合分析，逐步打造全方位的智慧投資助理，實現 AI 在理財場景中的落地應用。

關鍵字：台灣加權股價指數、股價預測（XGBoost）、新聞分析（Bert）、LINE

113 data ml resultpost banner3

組員：吳○瑀、林○宏、吳○臻

摘要

本專案「智慧本壘板」旨在開發全自動化的棒球賽事記錄與可視化系統，以解決人工紀錄耗時且易出錯的問題。其核心在於將非結構化的棒球轉播文字描述，透過大型語言模型（LLM）解析並轉換為結構化數據。專案原規劃以客製化 NER 模型進行實體抽取，但需龐大標註資料而效率受限。最終改採 Few-Shot learning 策略，於 Prompt 中提供少量範例，引導 LLM 精準辨識棒球術語與事件實體。此方法免去繁瑣訓練流程，並較 Zero-Shot 更穩定，尤其在處理專業術語與複雜上下文上展現優勢，即使轉播描述含隱喻或省略語，也能正確解析。系統架構包含三大模組：其一，「語言轉換模組」自官方轉播紀錄擷取文本，經 LLM 解析後轉為事件代碼（EventCode）。其二，「規則判斷模組」透過邏輯引擎將事件代碼映射至賽局狀態，精準更新壘上跑者、好壞球與出局數，並確保不同轉播員風格差異下仍能維持一致邏輯。其三，「視覺化模組」將狀態即時呈現於前端，包括壘包狀態、比分板與燈號指示（黃＝好球、綠＝壞球、紅＝出局），使比賽全貌清晰易懂。本專案展示 Few-Shot LLM 在專業文本解析的潛力，不僅簡化開發流程，更為結合即時語音轉播（ASR）、戰術分析與多語言擴展奠定基礎，展現 AI 技術於智慧化運動數據處理的突破價值。

關鍵字：LLM, Few-Shot Learning, 命名實體辨識 (NER),棒球, 棒球賽局狀態追蹤

113 data ml resultpost banner4

組員：洪○榛、許○筑、王○興

摘要

本專題旨在開發一套整合前端應用與後端核心技術的高保真度虛擬試衣（Virtual Try-On, VTO）平台，為時尚電商與個人化造型領域提供完整的端到端解決方案。在應用層面，使用者僅需上傳個人全身照片並選擇服飾，系統即可自動生成高度擬真的試穿圖像，並支援 PNG/SVG 格式下載與連結分享功能，以滿足商業行銷與社群互動等多元化需求。
技術核心採用創新的 IDM-VTON 方法，並整合 Stable Diffusion XL (SDXL) Inpainting 框架，旨在突破現有 VTO 技術普遍存在的「衣物細節失真」與「穿搭效果不自然」兩大挑戰。其關鍵為一套雙路徑語義萃取架構：首先，透過 IP-Adapter 提取服裝的高階語義特徵（如風格、剪裁與版型），並將其注入 UNet 的 cross-attention 層，以精準控制服裝的整體輪廓與穿搭感；其次，導入特製的 GarmentNet（一種平行 UNet 架構），專責捕捉布料紋理、圖案與光澤等低階細節，並將其特徵注入 self-attention 層，以確保圖像生成時的極致保真度。此設計能同時兼顧宏觀樣式與微觀細節，還能透過客製化微調與文字描述進一步強化對人像與服裝的語意控制，從而顯著提升生成圖像的真實感。
綜上所述，本專案不僅在演算法層面驗證了 IDM-VTON 的技術突破，更成功將其轉化為一個具備市場潛力的應用平台。它無縫串連了從使用者輸入、AI 生成到成果分享的完整流程，為時尚產業的數位轉型提供了兼具創新性與實用性的強大工具。

關鍵字：虛擬試衣 (Virtual Try-On),IDM-VTON,Stable Diffusion Inpainting ,生成式 AI

113 data ml resultpost banner5

組員：李○淵、駱○山、陳○文

摘要

本專題聚焦於基於深度學習之聲音降噪技術，旨在突破傳統數位信號處理（DSP）演算法依賴預設噪聲模型的限制，針對真實環境中多樣化的非線性干擾（如背景環境音、回聲、非語音人聲）提供更具彈性的解決方案。核心方法採用語音加強生成對抗網路（Speech Enhancement Generative Adversarial Network, SEGAN）架構，藉由生成器將帶噪音訊頻譜映射至純淨頻譜，同時透過判別器學習分辨真實與生成結果，並在對抗式訓練過程中持續優化權重，以產出高度擬真的清晰語音。
研究中選用愛丁堡大學語音技術研究中心（CSTR）所提供的 Noisy speech database 作為訓練與驗證資料，涵蓋 11,572 組訓練樣本與 824 組測試樣本，確保模型能在多樣化情境下具備良好泛化能力。效能評估則採用三項公認的客觀指標：訊噪比（SNR）、語音品質感知評估（PESQ）以及短時客觀可懂度（STOI），全面衡量降噪後的語音品質與可理解度。
實驗結果顯示，SEGAN 不僅有效去除雜訊，同時能降低語音失真，展現深度生成模型在聲音處理領域的優勢。此技術具備廣泛應用潛力，可為智慧語音助理、助聽器、會議系統、自動語音辨識（ASR）等場景提供更佳的聽覺體驗，亦為未來人機互動及語音通訊技術的發展奠定基礎。

關鍵字：SEGAN (Speech Enhancement GAN), 對抗式訓練 (Adversarial Training), SNR、PESQ、STOI

Email住址會使用灌水程式保護機制。你需要啟動Javascript才能觀看它

本班介紹	活動議程	專題介紹	歷屆成果展

2026embedded ai resultpost banner ai

艾鍗學院長期以來與學術單位緊密合作，此次，艾鍗學院協辦華梵大學「嵌入式AI影像技術與應用班」成果發表暨企業徵才活動。30位學員歷經三個月的密集實作訓練，產出「為用而生」的技術作品，迫不及待向企業夥伴們展現心血成果。本活動完全免費，歡迎企業夥伴到場來交流喔！

TIME	DESCRIPTION
13:10-13:30	來賓報到
13:30-14:10	來賓致詞、專題指導老師致詞
14:10-15:10	學員進行專題簡報 ► AI智慧居家安全照護系統 ► AI穿搭辨識與智慧服飾推薦系統 ► 基於 YOLO 與大型語言模型之家庭食材智慧管理系統 ► 智慧市場洞察與社群內容自動化營運系統 ► 基於眼手協作之智慧看護機械臂模仿控制系統
15:10-15:20	休息茶敘時間
15:20-16:30	成果展示、學員與廠商交流時間
16:30-17:00	學員結訓、賦歸

活動時間

115年3月20日 (五) 下午13:30~17:00

活動地點

華梵大學推廣教育處新北板橋中心(新北市板橋區文化路二段242號6樓)

活動報名

聯絡窗口：張小姐 Email住址會使用灌水程式保護機制。你需要啟動Javascript才能觀看它 | (02)2316-7732

AI智慧居家安全照護系統 —

基於YOLO影像辨識之危險偵測與離床監控

home care

組員：吳○群、胡○偉、官○倫、李○翰

摘要

本專題旨在開發一套基於影像辨識的「智慧安全照護系統」，以解決長照或居家環境中兩大核心安全需求：離床通知與危險物品偵測。系統透過攝影機擷取即時影像，並結合 OpenCV 與 YOLO 物件偵測模型進行分析，能精確辨識使用者是否上、下床（透過人物框選與位置判斷），同時即時偵測家庭中常見的危險物品，例如刀具、剪刀、打火機、藥品與清潔劑等，尤其著重於物品是否出現在使用者手部附近的情境判斷。

此外，系統建立「危險指數」評估機制，綜合「人與危險物品之像素距離」、「物品危險等級」以及「危險畫面持續時間」三項指標進行加權計算。一旦判定為高風險事件，即會自動生成事件紀錄（包含時間戳記、影像截圖、危險物品類別與風險分數），並透過 Email、App Push、Tkinter 介面或警示音等多元方式即時通知照護者，達成智慧巡房與遠端監控的目標，進而提升居家安全照護的即時性與管理效率。

關鍵字：Object Detection, YOLO, OpenCV, Deep Learning

AI穿搭辨識與智慧服飾推薦系統

virtual try on

組員：謝○恩、姚○、余○鴻、林○岐、陳○銘、蔣○政

摘要

本專題旨在解決使用者於日常服裝搭配時，容易侷限於既有穿搭思維、缺乏多元建議的問題，開發一套結合電腦視覺與生成式人工智慧技術之「AI穿搭辨識與智慧服飾推薦系統」。系統核心在於提供完整的虛擬試穿體驗，根據使用者輸入之個人資訊（如身高、年齡、性別、偏好風格）及個人全身照片，自動生成服裝虛擬嵌入效果，協助使用者直觀預覽不同穿搭組合。

系統流程包含前端影像擷取與使用者資料輸入、後端風格分析與服裝生成模組，以及最終模擬結果輸出。在 AI 實作層面，本研究採用深度學習模型進行服裝區域替換。首先透過 U-Net 模型對使用者全身影像進行語義分割，取得上半身與下半身之區域遮罩（mask）；接著結合 Stable Diffusion Inpainting 模型，搭配指定服裝描述提示詞（Prompt），於遮罩區域內生成符合人體比例與風格設定之服裝影像，完成虛擬換裝效果。

在資料與模型訓練方面，本專題將利用 RichWear Dataset 等大型服裝資料集進行探索式資料分析（EDA），了解服飾類型分布與特徵差異，並進一步優化 U-Net 與生成模型之訓練流程。錯誤分析重點將著重於提升生成影像的自然度、邊緣融合品質與人體曲線貼合度，以降低失真與不合理變形問題。最終系統利用Streamlit 整合為具操作介面之應用程式，提供直覺化且即時的虛擬試穿體驗。本研究期望透過結合語義分割與生成式 AI 技術，提出一套兼具實用性與創新性的智慧穿搭解決方案。

關鍵字：虛擬試穿、U-Net、Stable Diffusion Inpainting、生成式AI、深度學習、語義分割

基於 YOLO 與大型語言模型之家庭食材智慧管理系統

virtual try on

組員：黃○傑、詹○宏、林○翰、黃○翎、李○學、林○吉

摘要

本專題旨在因應日益嚴重的家庭食物浪費問題，提出一套結合人工智慧視覺辨識與LLM 技術之「智慧食材管理系統」。系統核心目標為透過影像辨識技術，即時監控冰箱內各類食材狀態，協助使用者有效掌握庫存與新鮮度資訊，進而降低食物浪費風險。

在技術實作方面，本專題將採用 YOLOv11 物件偵測模型，針對蔬果、肉類及其不同新鮮程度進行辨識與分類。AI 實作流程中，將整合多個公開食材與肉類新鮮度資料集進行資料前處理與模型訓練，並以 mAP 指標與 Confusion Matrix 進行效能評估與錯誤分析，以優化模型辨識準確度與泛化能力。

除影像辨識功能外，系統亦整合食材購買日期與保存期限資訊，並結合大型語言模型（LLM）提供智慧化管理建議與食譜推薦，協助使用者優先處理即將過期之食材。最終系統將透過 Streamlit 建立操作介面，完成前後端整合與視覺化呈現，提供直覺化的使用體驗。本研究期望透過 AI 技術提升家庭食材管理效率，並為減少食物浪費提出具實務價值之智慧解決方案。

關鍵字：家庭食物浪費、智慧冰箱、物件偵測（YOLO）、食材新鮮度辨識、大型語言模型（LLM）、電腦視覺

智慧市場洞察與社群內容自動化營運系統

virtual try on

組員：丘○平、方○粧、何○寧、呂○諺、陳○翰

摘要

本專題旨在建構一套 AI 驅動之社群內容自動化營運系統，以提升粉絲專頁經營效率與內容品質。系統透過網路爬蟲技術，自 PTT、Dcard 及電商平台（如蝦皮）擷取貼文與商品留言資料，並進行資料清理、關鍵詞分析與熱門度統計，以辨識具潛力之熱門議題與市場趨勢。

在內容生成階段，系統結合大型語言模型（Gemini 2.5 Flash API），依據分析結果自動產生符合市場趨勢之社群貼文內容，並可依不同平台特性調整語氣與風格，以提升貼文吸引力與互動表現。在自動化營運方面，本專題採用 n8n 建立流程管理與排程機制，將 AI 生成內容自動發布至 Instagram（IG）粉絲專頁，同時定期回收貼文數據（如觸及率、互動數與點擊率），作為後續內容優化的依據，形成資料驅動的營運優化循環。本研究期望整合資料分析與生成式 AI 技術，提出一套可實際應用於數位行銷場域的智慧社群經營解決方案。

關鍵字：社群自動化、大型語言模型（LLM）、網路爬蟲、內容生成、自動化流程（n8n）

基於眼手協作之智慧看護機械臂模仿控制系統

gensture robot

組員：鄭○修、王○昕、李○偉

摘要

本專題旨在回應高齡化社會中行動不便者日益增加的照護需求，開發一套具備眼手協作能力之智慧看護機械臂系統。核心目標在於降低照護人力負擔，並讓使用者能透過非接觸式操作遠端控制機械手臂，提升其自主生活能力與操作便利性。本系統控制架構分為兩個階段：首先，透過眼動追蹤技術將眼球移動映射為螢幕游標，實現機械手臂之遠端定位控制；其次，整合 MediaPipe 姿態估計模型，擷取使用者手臂關節角度並進行即時映射，以精準控制機械手臂運動。此外，系統能辨識「抓取（grab）」、「釋放（release）」及「旋轉（rotate）」三種手勢動作，作為模仿學習之操作指令。

在 AI 模型實作方面，本研究採用 MPIIGaze 資料集進行眼動追蹤校準，並結合 DexYCB 資料集進行人手與物體互動姿態辨識與映射。資料經 MediaPipe 處理後，透過 UART 傳輸至 Raspberry Pi Pico，並以 PWM 訊號驅動四軸伺服馬達完成機械臂控制。系統最終將整合完整軟體架構，並以 Gradio 建立操作介面（UI）。本研究期望提出一套結合 AI 視覺辨識與嵌入式控制技術之創新智慧照護解決方案，以提升居家照護的效率與可行性。

關鍵字：看護機器人、眼動追蹤、機械手臂、手勢辨識、MediaPipe、模仿學習、人機互動

Email住址會使用灌水程式保護機制。你需要啟動Javascript才能觀看它

本班介紹	活動議程	專題介紹	歷屆成果展

2024 data ml student

TIME	DESCRIPTION
13:10-13:30	來賓報到
13:30-14:10	來賓致詞、專題指導老師致詞
14:10-15:10	學員進行專題簡報 ► 結合頻域 U-Net 與時域 SEGAN 之智慧語音降噪系統 ► 中文轉台語語音生成與影音同步系統 ► 精準揪出警示帳戶 ► AI影像清晰化智慧系統
15:10-15:20	休息茶敘時間
15:20-16:30	成果展示、學員與廠商交流時間
16:30-17:00	學員結訓、賦歸

活動時間

114年11月07日 (五) 下午13:30~16:30

活動地點

集思交通部會議中心2樓（台北市中正區杭州南路一段24號）

活動報名

聯絡窗口：張小姐 Email住址會使用灌水程式保護機制。你需要啟動Javascript才能觀看它 | (02)2316-7732

113 data ml resultpost banner5

組員：何○莉、洪○賀

摘要

本專題旨在開發一套智慧聲音降噪模型，以解決現有方案中常見的噪音干擾、語音不清與裝置功耗限制等問題。系統結合頻域的 U-Net 與時域的 SEGAN (Speech Enhancement GAN) 架構，透過人工智慧技術自動適應多樣噪音環境，在有效抑制雜訊的同時保留語音細節與自然度。
U-Net 採編碼器–解碼器結構，以短時傅立葉轉換（STFT）將音訊轉為時頻譜，利用卷積層與跳躍連接（Skip Connection）降低頻域失真；SEGAN 則於時域進行端到端學習，生成器將含噪波形轉為乾淨語音，鑑別器判斷真偽樣本，透過對抗式訓練提升輸出語音的真實度與流暢性。
訓練階段採多條件語音資料集，涵蓋不同說話者、環境與訊噪比（SNR），並結合隨機混響與噪音混合等資料增強。損失函數同時考慮時域 MSE與頻域 STFT Loss，以兼顧清晰度與音質自然度。資料來源為愛丁堡大學 DataShare 語音庫，共約 2,000 組音檔。
本系統融合頻域與時域模型之優勢，能有效降低多類噪音並保持語音真實度，為智慧語音助理、會議系統及可穿戴裝置提供高品質聽覺體驗。

關鍵字：語音降噪、U-Net、SEGAN、生成對抗網路、短時傅立葉轉換（STFT）、時域波形、對抗式訓練

113 data ml resultpost banner2

組員：高○茹、蔡○娟、蔡○亮、謝○娟

摘要

本專案旨在開發一套台語自然語言生成模型，以解決當前市場上台語數位內容稀缺與語音互動介面不足的問題。透過人工智慧技術，系統能將中文語音自動轉換為自然流暢的台語語音，期望推動台語的數位應用、教育普及與文化傳承。

整體流程涵蓋語音辨識、語言轉換與語音合成三個階段。首先，系統利用 faster-whisper 模型將來源的中文語音轉錄為帶有起訖時間戳的文字，確保後續處理時間對齊的基礎。接著，透過語言轉換模組，將辨識出的中文內容轉換為對應的台羅拼音（Tailo），作為語音生成的輸入文本。隨後，台羅拼音文本被輸入至文字轉語音（TTS）模型中，採用如 Tacotron 的序列到序列（Seq2Seq）架構，先將文字特徵轉換為梅爾頻譜圖（Mel Spectrogram），再透過 WaveNet 聲碼器（Vocoder）合成自然的台語音訊波形。為確保最終輸出的台語語音能與原始中文語音片段的節奏與語速一致，系統設計了語音長度自動調整機制，能根據時間戳動態拉伸或壓縮音訊，使生成結果在影片中達到自然的影音同步效果。本專案的訓練資料來自「Sui-Siann 台語文語音資料庫」，共 3,467 個音檔，總長約七小時，並附有對應的漢字與羅馬拼音轉錄，為台語 TTS 模型提供高品質的語料支撐。

關鍵字：台語語音合成、TTS、ASR、Tacotron、WaveNet、Vocoder、台羅拼音

113 data ml resultpost banner3

組員：陳○源、劉○慈、李○璉、蘇○森、蘇○儀、傅○婷、黃○懋、張○芳

摘要

本專案旨在針對現行 AI 金融預警系統中普遍存在的「高誤報率」問題，開發一套兼具高精準度與低誤報率的智慧防詐模型。傳統模型在攔截詐騙交易時，常因誤擋大量正常交易而影響用戶體驗，並造成金融機構在人工審核與客訴處理上的成本大幅增加。

為突破此限制，專案採用創新的「逆向異常偵測」技術思維，核心演算法以自編碼器（Autoencoder）為基礎。模型專注於學習「已知詐騙帳戶」的行為特徵，使其能精準重構詐騙樣態。當輸入正常交易資料時，因特徵分佈與詐騙樣態不符，模型將出現明顯的重構誤差。系統藉由誤差大小進行判定，能以高可信度區分正常與異常交易，從而有效降低誤報率，精準識別真正的可疑行為。

此模型可於交易發生當下即時運作，提供精準防護、守護用戶資產安全；同時透過大幅減少誤擋情況，顯著改善使用者體驗，強化金融機構的信任度與品牌形象。最終，專案將助力銀行降低營運成本、提升風險控管效率，並進一步強化反洗錢（AML）機制之智能化發展。

關鍵字：金融防詐, 自編碼器 (Autoencoder) , 逆向異常偵測, 行為特徵建模, 金融科技 (FinTech)

113 data ml resultpost banner4

組員：莊○豪、黃○宣、楊○雅、陳○渝、曾○誌、傅○鳴、方○茜、林○蓁

摘要

本專題《AI影像清晰化智慧系統》旨在開發一套能自動修復因運動晃動或鏡頭失焦所造成模糊影像的人工智慧系統。系統核心採用以卷積神經網路（CNN）為基礎的生成對抗網路（GAN）架構，並融合 DeblurGAN 與 SRGAN 模型設計理念，以同時提升影像的細節還原度與整體視覺真實感。

在模型訓練階段，本研究採用監督式學習方法，利用大量「模糊—清晰」影像配對資料集（如 GOPRO dataset）進行深度訓練，使模型能有效學習影像模糊與復原之間的非線性映射關係。為客觀評估模型效能，導入峰值訊雜比（PSNR）與結構相似性指標（SSIM）作為量化標準。實驗結果顯示，模型於多組測試影像中平均 PSNR 達 30 dB、SSIM 約 0.93，顯示在影像細節重建及視覺品質保持上皆具優異表現。

系統實作方面，前端設計採用直覺化網頁介面，支援使用者以拖曳方式上傳影像；後端以 Python 結合 Flask 框架建立 Fast API，串接以 PyTorch 訓練完成的影像清晰化模型，提供穩定且高效的影像處理服務。整體系統操作簡便、效能穩定，具高度應用潛力，可廣泛應用於監控影像修復、醫學影像增強及攝影後製等領域。

關鍵字：影像去模糊、生成對抗網路（GAN）、SRGAN、 DeblurGAN、DeblurGAN-v2、、PSNR、SSIM

Email住址會使用灌水程式保護機制。你需要啟動Javascript才能觀看它

20190614-aiot-banner

本班介紹	活動議程	專題介紹	歷屆成果展

IEI course

0614-AIoT_student

2019-06-14	13:00-13:20	來賓報到

	13:20-14:00	來賓致詞、專題指導老師致詞大合照

	14:00-15:00	學員進行專題簡報 ► 智能看板反饋蒐集系統 Interactive Digital Signage ► 智慧蘭園 Smart Orchid Florist ► 智慧桌邊服務系統 ► 無人機&無人車的實作與應用 ► AI視力檢測機

	15:00-15:10	休息茶敘時間

	15:10-16:30	成果展示、學員與廠商交流時間

	16:30	結訓、賦歸

活動時間

108年06月14日 (五) 下午1:00~4:30

活動地點

集思交通部會議中心2樓(台北市中正區杭州南路一段24號)
PS. 若您為開車前往，請停於會館旁之「岳洋停車場」，並於活動結束後，至活動報到處領取免費停車券即可(觀看地圖)。

廠商徵才聯絡方式

邱小姐 Email住址會使用灌水程式保護機制。你需要啟動Javascript才能觀看它 | (02)2316-7732

智能看板反饋蒐集系統 Interactive Digital Signage

組員：姜O一、翁O謙、林O超、文O博

摘要

專題的動機來自於目前市面上的數位看板皆為單向的廣播媒體，無法獲得一般觀看者的反應。廣告主也不能了解數位看板真正的廣告效益。

主要的目標是完成一個觀看者情緒反應的統計系統，具有蒐集數位廣告觀看者的情緒反應的終端設備，以及製作統計報表的能力。

專題系統以:
1. Raspberry Pi 當作人臉辨識以及數位看板開發平台。
2. Intel Movidius Neural Compute Stick + OpenVINO SDK實現人臉辨識以及情緒偵測。
3. LED矩陣即時反應現場觀看者情緒偵測的結果。
4. 專屬網頁顯示日/週/月統計報表以及即時資訊。
5. Line通知廣告主日/週/月統計報表。

系統架構

Smart-board

關鍵字：Intel Movidius Neural Compute Stick、Intel OpenVINO SDK、Interactive Face Detection、Age & Gender Recognition、Emotion Recognition、Digital Signage using Raspberry Pi、Line Bot Messaging Push

無人機&無人車的實作與應用

組員：鐘O立、賴O佐

摘要

我們的靈感來自兩年前由TTRI紡織綜合所製作的智慧手套，目前尚未查到相關銷售通路，讓我們想要透過土法煉鋼的方式，做出一個能夠用手勢發出指令的智慧手套。

而無人車仍是很熱門的應用主題，主要是因為其商機大、實用性高，並不只限於學術應用或娛樂性質。我們想要做出能夠在特定道路上行走、能辨識紅綠燈即時停止及行走、能辨識特定路標的無人車。希望能進一步應用在遊樂園、飯店、機場、醫院及物流中心等場域。

第一階段

智慧手套：在RaspberryPi上加裝SenseHAT感測器及UPS電池，用魔鬼氈將組合板貼在手套上，做成一個無線控制手套。然後寫Python程式讀取Gyroscope的資料，設定在Roll，Yaw及Pitch的值達到某些值時，運行相對應的模式。

第二階段

無人車：在玩具車上安裝控制元件、馬達、RaspberryPi、相機模組等。利用OpenCV + Yolo 等技術，幫助車子識別道路黑白線，能夠行走在道路的右邊。另外，我們還做了停車號誌及紅綠燈，希望可以訓練車子能夠依照指示停及走。

系統架構

self-driving-cars

關鍵字：Quadcopter、Performance、Smart Glove、Gesture Control、Smart Car、OpenCV、Lane Recognition

AI視力檢測機

組員：林O淵、岑O杰、楊O棚、翁O緯

摘要

專題的動機來自於: 隨著AI、物聯網、5G、VR/AR等技術成熟，使得遠端健康照護更加成熟、邁進一大步。本專案，挑選幾個基本的健康檢查(視力檢查、心跳、血糖、血壓等)、藉著網路、AI技術，可以遠距離了解病患的健康狀況。

主要的目標是將基本的身體健康數據，透過科技的方法做定期追蹤。以AI、通訊網路技術、最少的人力、讓醫護團隊和親密家人了解、獲得健康數據。

第一階段為「視力檢查」，我們利用的功能、技術如下:
1. OpenCV的「物件辨識」、「物件追蹤」技術，來識別手勢的方向。
2. 「視力表」圖案，會隨著檢查者每次的檢視結果而決定下一次圖案的大小。
3. 檢查者手勢的方向也會由Raspberry Pi 的App，以電腦語音喊出「右邊」、「上面」等等。
4. 「視力表」圖案是個Web-based app，它是放在遠端Web-Server，經由Web-Socket 傳送過來。
5. 最後檢查的結果，除了會在螢幕上呈現，例如:「右眼0.8、左眼0.6」
6. 也可以MQTT傳送給指定的人，例如: 醫療護士、配偶、親人。用指定的方法，例如:LINE、SMS、e-mail等等。
下一個階段，因為我們有Raspberry Pi看護盒子，所以擴充其它遠端看護功能很容易，例如IOMT: 「心跳」、「血糖」、「血壓」等等。

系統架構

AI-Care

關鍵字：OpenCV、Object-Detection、OCR、Object-Tracking、Node.js、MQTT、Raspberry Pi、視力檢查、LINE、SMS、e-mail、IOMT、遠距AI健康照護

智慧蘭園 Smart Orchid Florist

※本專題由輔仁大學電機工程學系莊岳儒助理教授共同指導

組員：張O翔、張O竣、王O權

摘要

本專題提供一個網路操作平台，以及收集蘭花存活相關資訊，使用AIoT智能識別，針對顧客對於蘭花的照顧的疑惑，使用數據化呈現方式，使得店家能有信心的銷售自家的蘭花。

本專題目標是AIoT結合蘭園，當樹莓派的鏡頭偵側到蘭花進入鏡頭時，就會提供使用者選入偵測花種的獨立網頁，網頁中紀錄當初進貨時同批蘭花在不同的環境，不同的澆水方式，存活得長久，這顯然勢必要再跟店家合作或與廠商開始堆動，透過MCU抓取數值的方式上傳，將室內、室外、陽台、半天冷氣的空間、全天冷氣的空間等，這些數據能夠使顧客快速的掌握蘭花的照顧方式，我們稱蘭花生存手冊。

第一階段為實現樹莓派蘭花的辨識，第二階段為MCU 不同環境的蘭花環境數值抓取，第三階段為提供一個網頁平台顯示生存手冊。

系統架構

Sensor-Driving-Car