AI PC應用 - 實測三種快速語音轉文字方法對比分享

windwithme

風的速度由我決定
已加入
9/18/03
訊息
8,111
互動分數
118
點數
63
網站
www.facebook.com
影片提供更詳細的操作流程與轉錄過程,能更快速體驗本篇的內容:
還記得在早期沒有AI工具的學生時代,要做逐字稿幾乎只能一段段人工聽打,不但需要耗費大量時間,同時也顯得較枯燥。
後來智慧型手機開始內建語音辨識功能,雖然也試過幾次,但準確度與實用性都還不理想。
隨著近年語音辨識藉由導入AI技術再進步,語音轉文字已經變得更快、更準確,也更容易整合進日常工作;不論是需要自動產生字幕的影音創作者、想整理會議紀錄或講座筆記的學生與社會人士,甚至需要多語言轉錄的使用者,都能從這類AI工具中受惠。
這次主要以節省時間與提升效率為出發點,實測WhisperDesktop、MyEdit與威力導演三種AI 語音轉文字工具,針對「所需時間」、「準確率」與「方便性」三項重點進行比較,最後會以圖表方式整理差異,方便大家快速了解結果。
eFfYrNd.jpeg


過程中使用MSI所推出的16吋AI PC,搭載目前筆電市場頗受好評的Intel Lunar Lake架構,CPU為Core Ultra 7 258V,內建Arc 140V GPU 16GB(64 AI TOPS)、4代NPU(47 AI TOPS),AI算力比上一代分別提升約3、4倍,皆有助於加快本機AI運算速度。
AI PC輕薄的設計除了具備日常攜帶的便利性外,也較以往機種擁有更長效的續航力,讓語音轉文字處理的流程能在戶外或室內等多種情境下順暢進行,兼具效能與行動力的優勢。
接下來便開始進行這三款AI工具的實際使用方式與轉錄表現。

第一個要介紹的工具是WhisperDesktop,是一款基於OpenAI Whisper技術所開發的桌面應用程式,可以在本地端直接進行語音轉文字處理,不需要額外撰寫程式或使用命令列工具,對一般使用者來說相當方便。
這套工具的優點除了免費之外,也支援多國語言辨識,操作介面簡單直覺,很適合用來處理日常的錄音轉錄或字幕生成。
首先要到GitHub下載WhisperDesktop。
TA3IzH0.png


再到Hugging Face下載專用的ggml語言模型。
vWghnH2.png


設定好模型路徑後就可以開始使用,Model Implementation分為GPU、Hybrid、Reference三種模式。
z7J2p5i.jpeg


WhisperDesktop支援音訊與影片檔兩種格式,選擇語言以及要轉錄的檔案,設定好輸出格式與轉錄檔儲存位置後,就能開始轉錄(Transcribe)。
輸出部分可以選擇一般的純文字檔(Text file),或是可直接使用於影片字幕的SRT檔(SubRip Subtitles)。
bO7b7er.jpeg


這次測試分別使用兩段自錄影片進行:
第一段是AI筆電發表說明會現場實拍影片、第二段則是Computex 2025快速帶看Intel攤位影片。
兩支影片中包含環境噪音、背景音樂、單人演說,以及中英文混雜的內容,長度分別為4分40秒與1分23秒。
轉錄時間分別僅需1分30秒與27秒即可完成,將文字檔與原始影片透過一字一句重新人工核對,整理出辨識準確率約落在94~95%。
除了像「Core Ultra」這類專有名詞偶爾會誤判外,大部分中英夾雜的內容都能正確辨識。
更特別的是會自動省略像「嗯」、「那」、「這個」等贅詞,讓逐字稿的可讀性更高。
hFcIiEw.jpeg


最後再以英文演講影片進行測試,長度達1小時42分。
ekyyClI.jpeg


這一段轉錄時間僅27分52秒就能完成。
實測結果看起來,WhisperDesktop對影片長度沒有限制,整體效率相當優異,也展現出AI PC在本地轉錄任務上的效能優勢。
整體流程相當順暢,也不需要連線雲端就能完成辨識。
eYG0oqW.jpeg


接下來要介紹第二種語音轉文字的方法,是透過線上AI工具MyEdit來進行轉錄。
進到MyEdit網頁後,在上方工具列中選擇「音訊編輯工具 => 語音轉文字」,即可進入轉錄頁面。
上傳音訊檔案前,可以先確認語言、檔案格式與長度限制是否支援,每轉錄1分鐘音訊需要消耗1點數。
oDDuSkp.png


音訊原聲支援多種語言,匯出時同樣提供純文字檔(Text)或SRT字幕檔兩種格式可選。
這次同樣使用前面提到的兩段影片進行測試:
AI筆電發表說明會(4分40秒)與Intel Computex 2025攤位快速帶看影片(1分23秒)。
產生時間約為23秒與11秒即可完成,速度相當快。
bqxNQoF.png


產生後可直接線上播放音檔、即時檢視內容,也能立即在頁面中編輯文字。
整體辨識準確率約95~96%。
不過在部分英文單字上仍有漏字情況,例如「HuggingFace」、「Stable Diffusion」、「Notebook」等專有名詞,偶爾會出現拼字錯誤。
另外,MyEdit在斷句與標點符號的處理較為雜亂,但中文語音的辨識率相當高,對於講者語氣、語助詞及語句節奏也能準確呈現。
整體來說,MyEdit線上工具的介面簡潔,搭配即時預覽與可編輯功能,在處理音檔的逐字稿或字幕檔時,能有效提升效率。
qLWEMhv.png


如果是影音創作者,或影片檔需要製作字幕,可以試試第三種方法 - 威力導演(PowerDirector)內建的字幕功能。
在軟體中匯入檔案並開啟字幕工具後,選擇「AI 語音轉文字」即可開始轉錄。
這項功能與MyEdit相同,同樣都是由訊連科技(CyberLink)所開發,因此在產生結果與準確率上差異不大。
雖然需要先安裝威力導演才能使用,但優點在於轉錄完成後能直接編輯字幕內容並同步製作影片,等於在同一套軟體中就能完成整個流程。
ebXt7bq.png


選擇音訊來源與語言,另外也提供在字幕中加入標點符號的功能。
0JVog07.png


接著執行製作本段影片字幕。
ur6QJCL.png


斷句與標點符號可自由調整,若發現有重複的用詞錯誤,也能利用上方的「尋找與取代」功能快速一併修正,操作流程相當直覺。
yQ4oyOg.png


圖為將紋身(相似音字)修改為文生(正確詞彙)。
2ptTqA9.png


字幕完成後,只要點選右上角省略符號內的「匯出字幕 => 匯出(不含樣式格式)」,就能輸出SRT檔,方便直接套用到影片或上傳到平台使用。
78nNPrb.png


最後來統整這三種方法的使用結果與感想:
以相同的影片檔案計算處理速度,威力導演最快,其次是MyEdit,最後是 WhisperDesktop。
WhisperDesktop透過這台AI PC在本地運算效能,雖不及另外兩種工具在雲端大模型運算的那樣快速,不過仰賴內顯140V 16GB,轉錄速度比預想中要好上不少,加上免連網有更好的隱私性。
XC6NF6A.png


這3種工具準確率平均都有95%以上,若內容中英夾雜,建議使用WhisperDesktop,可避免英文漏字。
若是純中文內容,用MyEdit或威力導演的精準度會更高。
在方便性方面,MyEdit因為免安裝、線上操作最簡單,但需要點數且僅支援音檔。
WhisperDesktop雖安裝步驟略多,但免費且支援音檔與影片檔,幾乎沒有長度限制。
威力導演則整合影片編輯、斷句調整與快速修正功能,適合想一次完成字幕與影片的創作者。
r1Wr49C.png


以上就是本篇對於三種AI語音轉文字工具的實測結果。
這台搭載Intel Lunar Lake架構的AI PC,內顯140V共用記憶體容量達16GB,對AI應用相當有助益,本篇轉錄語音的過程很順暢,同時也感受到高續航力與輕薄筆電帶來的便攜性。
如果是外出利用空檔或用餐時間,隨時能執行這幾樣語音轉文字工具,還沒到家就完成了大部分內容,在實際使用中能有效節省處理時間,整體作業效率也比預期更高,對於經常需要處理影音內容、會議記錄或筆記轉錄的使用者來說,AI PC的效能表現不僅實用,也更貼近日常應用的便利性。
先前也分享過AI軟體編輯影片、外出使用一天AI PC包含視訊與工作軟體的文章,過程中Lunar Lake筆電不論在效能、續航力與溫度表現,比起前幾代的輕薄筆電更讓人滿意。
lURad1s.jpeg


未來隨著AI技術的軟硬體持續進步,相信會有更高準確率與更多樣的應用。
大家可依照各自的需求、預算與硬體做選擇,並在挑選工具時能更清楚各自的特性與差異,希望這次的分享能幫助到有語音轉錄需求的網友,我們下篇文章見
 
最後編輯: