fbpx

MCU 728x90 114

2024data ml resultpost banner

本班介紹 活動議程 專題介紹 歷屆成果展

2024data ml course menu

2024 data ml student

 

學員將於活動中簡報專題發想動機、技術架構、開發心得、預計成果等,並於簡報後和現場企業來賓進行交流。 歡迎AI人工智慧、機器學習開發、嵌入式系統開發、韌體開發等技術領域相關企業蒞臨交流。

艾鍗辦訓,秉持著「為用而訓」之原則,幫助學員培養符合業界所需的職能。本此成果展的班隊為數據分析暨機器學習應用班。學員們經過3個多月的紮實的實作學習,產出「為用而生」的技術作品,迫不及待向企業夥伴們展現心血成果。本活動免費,歡迎企業廠商到場來交流喔!

TIMEDESCRIPTION
13:10-13:30 來賓報到
13:30-14:10 來賓致詞、專題指導老師致詞
14:10-15:10 學員進行專題簡報
► 結合頻域 U-Net 與時域 SEGAN 之智慧語音降噪系統
► 中文轉台語語音生成與影音同步系統
► 精準揪出警示帳戶
► AI影像清晰化智慧系統
15:10-15:20 休息茶敘時間
15:20-16:30 成果展示、學員與廠商交流時間
16:30-17:00 學員結訓、賦歸

活動時間

114年11月07日 (五) 下午13:30~16:30

活動地點

集思交通部會議中心2樓(台北市中正區杭州南路一段24號)

活動報名

聯絡窗口:張小姐 Email住址會使用灌水程式保護機制。你需要啟動Javascript才能觀看它 | (02)2316-7732

113 data ml resultpost banner5

組員:何○莉、洪○賀
摘要

本專題旨在開發一套智慧聲音降噪模型,以解決現有方案中常見的噪音干擾、語音不清與裝置功耗限制等問題。系統結合頻域的 U-Net 與時域的 SEGAN (Speech Enhancement GAN) 架構,透過人工智慧技術自動適應多樣噪音環境,在有效抑制雜訊的同時保留語音細節與自然度。
U-Net 採編碼器–解碼器結構,以短時傅立葉轉換(STFT)將音訊轉為時頻譜,利用卷積層與跳躍連接(Skip Connection)降低頻域失真;SEGAN 則於時域進行端到端學習,生成器將含噪波形轉為乾淨語音,鑑別器判斷真偽樣本,透過對抗式訓練提升輸出語音的真實度與流暢性。
訓練階段採多條件語音資料集,涵蓋不同說話者、環境與訊噪比(SNR),並結合隨機混響與噪音混合等資料增強。損失函數同時考慮時域 MSE與頻域 STFT Loss,以兼顧清晰度與音質自然度。資料來源為愛丁堡大學 DataShare 語音庫,共約 2,000 組音檔。
本系統融合頻域與時域模型之優勢,能有效降低多類噪音並保持語音真實度,為智慧語音助理、會議系統及可穿戴裝置提供高品質聽覺體驗。

關鍵字:語音降噪、U-Net、SEGAN、生成對抗網路、短時傅立葉轉換(STFT)、時域波形、對抗式訓練
 

113 data ml resultpost banner2

組員:高○茹、蔡○娟、蔡○亮、謝○娟
摘要

本專案旨在開發一套台語自然語言生成模型,以解決當前市場上台語數位內容稀缺與語音互動介面不足的問題。透過人工智慧技術,系統能將中文語音自動轉換為自然流暢的台語語音,期望推動台語的數位應用、教育普及與文化傳承。

整體流程涵蓋語音辨識、語言轉換與語音合成三個階段。首先,系統利用 faster-whisper 模型將來源的中文語音轉錄為帶有起訖時間戳的文字,確保後續處理時間對齊的基礎。接著,透過語言轉換模組,將辨識出的中文內容轉換為對應的台羅拼音(Tailo),作為語音生成的輸入文本。隨後,台羅拼音文本被輸入至文字轉語音(TTS)模型中,採用如 Tacotron 的序列到序列(Seq2Seq)架構,先將文字特徵轉換為梅爾頻譜圖(Mel Spectrogram),再透過 WaveNet 聲碼器(Vocoder)合成自然的台語音訊波形。為確保最終輸出的台語語音能與原始中文語音片段的節奏與語速一致,系統設計了語音長度自動調整機制,能根據時間戳動態拉伸或壓縮音訊,使生成結果在影片中達到自然的影音同步效果。本專案的訓練資料來自「Sui-Siann 台語文語音資料庫」,共 3,467 個音檔,總長約七小時,並附有對應的漢字與羅馬拼音轉錄,為台語 TTS 模型提供高品質的語料支撐。

關鍵字:台語語音合成、TTS、ASR、Tacotron、WaveNet、Vocoder、台羅拼音
 

113 data ml resultpost banner3

組員:陳○源、劉○慈、李○璉、蘇○森、蘇○儀、傅○婷、黃○懋、張○芳
摘要

本專案旨在針對現行 AI 金融預警系統中普遍存在的「高誤報率」問題,開發一套兼具高精準度與低誤報率的智慧防詐模型。傳統模型在攔截詐騙交易時,常因誤擋大量正常交易而影響用戶體驗,並造成金融機構在人工審核與客訴處理上的成本大幅增加。

為突破此限制,專案採用創新的「逆向異常偵測」技術思維,核心演算法以自編碼器(Autoencoder)為基礎。模型專注於學習「已知詐騙帳戶」的行為特徵,使其能精準重構詐騙樣態。當輸入正常交易資料時,因特徵分佈與詐騙樣態不符,模型將出現明顯的重構誤差。系統藉由誤差大小進行判定,能以高可信度區分正常與異常交易,從而有效降低誤報率,精準識別真正的可疑行為。

此模型可於交易發生當下即時運作,提供精準防護、守護用戶資產安全;同時透過大幅減少誤擋情況,顯著改善使用者體驗,強化金融機構的信任度與品牌形象。最終,專案將助力銀行降低營運成本、提升風險控管效率,並進一步強化反洗錢(AML)機制之智能化發展。

關鍵字:金融防詐, 自編碼器 (Autoencoder) , 逆向異常偵測, 行為特徵建模, 金融科技 (FinTech)
 

113 data ml resultpost banner4

組員:莊○豪、黃○宣、楊○雅、陳○渝、曾○誌、傅○鳴、方○茜、林○蓁
摘要

本專題《AI影像清晰化智慧系統》旨在開發一套能自動修復因運動晃動或鏡頭失焦所造成模糊影像的人工智慧系統。系統核心採用以卷積神經網路(CNN)為基礎的生成對抗網路(GAN)架構,並融合 DeblurGAN 與 SRGAN 模型設計理念,以同時提升影像的細節還原度與整體視覺真實感。

在模型訓練階段,本研究採用監督式學習方法,利用大量「模糊—清晰」影像配對資料集(如 GOPRO dataset)進行深度訓練,使模型能有效學習影像模糊與復原之間的非線性映射關係。為客觀評估模型效能,導入峰值訊雜比(PSNR)與結構相似性指標(SSIM)作為量化標準。實驗結果顯示,模型於多組測試影像中平均 PSNR 達 30 dB、SSIM 約 0.93,顯示在影像細節重建及視覺品質保持上皆具優異表現。

系統實作方面,前端設計採用直覺化網頁介面,支援使用者以拖曳方式上傳影像;後端以 Python 結合 Flask 框架建立 Fast API,串接以 PyTorch 訓練完成的影像清晰化模型,提供穩定且高效的影像處理服務。整體系統操作簡便、效能穩定,具高度應用潛力,可廣泛應用於監控影像修復、醫學影像增強及攝影後製等領域。

 關鍵字:影像去模糊、生成對抗網路(GAN)、SRGAN、 DeblurGAN、DeblurGAN-v2、、PSNR、SSIM

 

FB album

 

Email住址會使用灌水程式保護機制。你需要啟動Javascript才能觀看它

Email住址會使用灌水程式保護機制。你需要啟動Javascript才能觀看它

 

AIoT 728X90