2025/12/9
Google AI Studio Gemini 3 Pro 剪映 CapCutAI 影片字幕工作流:結合 Gemini 與剪映的極速上字幕教學
這套流程解決了影片創作者在製作字幕時的三個核心問題:
專業術語準確率:確保 GenAI、LLM、Python 等詞彙不被聽錯。
閱讀體驗優化:自動加中英空格、去除口語贅詞(然後、那個)、符合人眼閱讀的斷句。
極速同步:利用「文稿匹配」功能,免去手動對時間軸的繁瑣過程。
🛠️ 準備工具
剪映 / CapCut 電腦版
Google AI Studio (網頁版,建議使用 Gemini 3 Pro 模型,免費且 Token 上限極高)
步驟一:音頻導出在剪映/CapCut 完成剪輯後,先不要上字幕,執行以下操作:
點選 導出。
僅勾選 「音頻導出」 (格式選 MP3 或 AAC 即可)。
💡 優化點: 處理長影片(超過 30 分鐘)時,建議每 15-20 分鐘切一段導出,避免剪映免費版「文稿匹配」的字數限制。
步驟二:AI 聽寫與校正這是最關鍵的一步。我們不只是要「轉錄」,更是要讓 AI 幫我們「潤飾」。
前往 Google AI Studio。
模型選擇 Gemini 3 Pro。
將導出的 MP3 檔案拖入對話框。
輸入下方的 【提示詞】:
AI 影片字幕提示詞
為什麼這樣設計?
Step 1 術語確認:把 “Notion” 聽成 “Nation” 是不專業的。先讓 AI 問你,只需 30 秒確認,就能保證後面 100% 正確。
斷句控制(優化點):手機直式影片(Reels/Shorts)字幕不宜過長,提示詞中已加入控制,確保閱讀體驗。
💡 使用小撇步
遇到極短音頻(< 3分鐘):Gemini 通常會很有自信,它會直接跳過 Step 1 給您全文,達到「秒出」的效果。
遇到新專案/新主題:如果你這支影片是講一個全新的工具(例如突然要講 “Cursor” 編輯器),您在貼上 Prompt 之後,可以順手在 # Context & Vocabulary 那邊補上 “Cursor” 這個字,這樣一次就會準。
關於「文稿匹配」:複製 AI 輸出的文字後,在剪映中選擇「文稿匹配」時,記得檢查一下第一句是否對齊。只要第一句對了,後面通常 99% 都是準的。
您可以現在就拿一段最近錄製的音檔(或上面那支 YouTube 影片的音頻)去 Google AI Studio 試跑一次,看看效果是否符合您的期待!
步驟三:極速匹配拿到 AI 生成的完美文本後:
複製 AI 輸出的全部文字。
回到 剪映 / CapCut。
點擊 「文本」 -> 「智能文本」 -> 「文稿匹配」。
貼上文字,點擊「開始匹配」。
實測結果: 99% 準確的字幕會自動對齊音軌。
🌟 進階場景分流根據您不同的產出需求,這裡提供兩個分支技巧:
場景 A:製作「雙語字幕」短影音如果您想做像國外科技博主那種中英雙語字幕:
AI 生成 SRT:在 Google AI Studio 完成中文稿後,多加一道指令:
「請將上述內容翻譯成英文,並將兩者合併為 SRT 格式(第一行為中文,第二行為英文)。」
導入剪映:將 AI 生成的代碼存為 .srt 檔,直接拖入剪映。
場景 B:超長課程影片 (>30min)剪映的「文稿匹配」有時對長文本不穩定。
分段處理:如筆記所述,將音頻切成 10-15 分鐘一段。
SRT 暴力解法:如果不想分段,直接請 Gemini 輸出「帶時間軸的 SRT 格式」。
Prompt 補充指令:「請直接輸出 SRT 字幕格式,不需要與我確認術語。」
雖然 Gemini 的時間軸不如專門軟體(如 Whisper)精準到毫秒,但對於說話清晰的教學影片通常夠用,導入後只需微調。
參考文章:
AI 字幕工作流完整教學/提示詞
秒殺剪映的AI字幕工作流!准確率高達99%,完全免費!
2025/12/6
Google AI Studio AI工作流 內容行銷自媒體極速工作流:一支影片如何通吃 FB、YT 與部落格?
做自媒體最痛苦的,不是沒靈感,而是你以為寫文章、拍影片、做圖表是三件事。如果你分別去執行,累死是遲早的事。
你需要的是一套「一次產出,無限分發」的邏輯。核心觀念很簡單:抓準一個痛點,錄完一支影片,剩下的全交給 AI。
靈感來源:從學員痛點獲取素材不要坐在電腦前空想,直接從學員的問題、社群的痛點下手,這些就是最真實的需求。
針對這個問題,直接錄製一段教學影片。不用追求完美,重點是把問題講清楚。這支影片,就是接下來所有內容的「母體」。
自動化產線:影片轉文字的高效應用影片錄好了,難道要自己聽打嗎?當然不。透過以下步驟,建立你的自動化產線:
把影片直接丟進 Google AI Studio。
請它幫你整理出詳細筆記。
接著,將這份筆記丟給 Gemini 的「社群文章格式轉換工具」。
社群文章格式轉換工具
轉眼間,一篇結構完整的粉專長文就誕生了。
視覺設計:AI 輔助生成封面與圖表文字搞定,接下來是視覺呈現。同樣利用 Gemini 的 Nano Banana 工具,可以達成以下效果:
資訊圖表:讓它根據內容產出對應的圖表,搭配生成的長文,就是一則高品質的 FB 貼文。12製作資訊圖表,使用台灣繁體中文,日式可愛風格:{{文章內容}}
多尺寸封面:順手生成 16:9 的 YouTube 封面圖,以及 3:2 的部落格封面圖。12345678910你是一位專業的 YouTube 封面設計師,專門幫百萬訂閱頻道製作封面 請參考影片主題,幫我設計一張畫面生動、誇張,使用顯眼綜藝字的封面 影片主題:{{舉例:同學問:開會錄音轉成文案,哪個AI比較好用?}}素材使用:上傳圖片與人物照片 人物照片:請把人物穿搭改成與google AI 工具主題搭配,人物表情則與主題情緒搭配 尺寸:16:9 注意:人物主體與主題要清晰,文字放底部“”“{{影片筆記或粉專長文}}”“”
1圖片尺寸比例調整成3:2
松音的Magic Eraser:自動消除圖片中的星星水印電腦王阿達 Nano Banana Watermark Remover
平台發布:YouTube 影音最終組裝回到 YouTube 這條線,使用影片字幕工作流,自動產出 SRT 字幕檔。這是標準化動作,不需要耗費腦力。
最後進行組裝:
解決痛點的原始影片
SRT 字幕
剛剛做好的封面圖
上傳,發布。你的 YouTube 更新完成了。
AI 影片字幕工作流:結合 Gemini 與剪映的極速上字幕教學
內容變現:部落格文章的最後一哩路別浪費那篇寫好的粉專長文。把它丟進 Gemini 的「Hexo Markdown 專家轉換器」,讓 AI 幫你潤飾成適合網站閱讀的格式。
搭配那張 3:2 的封面圖,直接發布到部落格。
結論:一次錄影的工,你已經完成了三個平台的內容佈局。
Hexo Markdown 專家轉換器
2025/12/5
Google AI Studio 會議記錄 逐字稿長會議錄音檔 AI 處理全攻略:突破 100MB 限制的終極解法
錄音檔一長,處理起來就是災難。想要丟進 AI 偷個懶,結果系統第一步就卡關,告訴你檔案太大,請你另請高明。
這時候你需要的不是放棄,而是搞清楚你手上的工具,到底哪一把才切得動這塊肉。
各大 Google AI 工具的真實門檻面對 MP3 這類音訊檔案,你得先看清楚檔案大小,再決定用哪把刀。別拿水果刀去砍大樹。
1. Google Gemini 網頁版這是大家最常用的工具,但限制最嚴格。
單一檔案上限: 100 MB。
實測結果: 182MB 直接報錯,84MB 才能過關。
解法: 如果堅持要用這個介面,唯一的解法就是手動轉檔。把 Bitrate 降到 16kbps,用音質換體積。
2. NotebookLM進階一點的選項,寬容度稍微大一點。
單一檔案上限: 200 MB。
適用場景: 中型檔案。丟進去,直接問答,或者生成摘要。
優勢: 介面友善,還會自動幫你整理筆記,算是不錯的中繼站。
3. Google AI Studio (終極解法)如果你面對的是真正的巨獸,例如好幾個小時的馬拉松會議,前面這兩個工具可能都會吃鱉。這時候,請直上 Google AI Studio。
單一檔案上限: 2 GB。
建議模型: Gemini 3 Pro Preview 或同級模型(支援超長 Context Window)。
實測能力: 影片示範裡,3 小時、182MB 的音檔,它吃得輕輕鬆鬆。
處理超大音檔的標準作業流程當你的錄音檔超過 200MB,或是會議長達數小時,請放棄網頁版對話框。這才是最穩定的路徑。
第一步:前往 Google AI Studio直接前往 Google AI Studio。別走錯棚,這裡才是開發者的後花園,也是一般用戶的強力外掛。
第二步:切換模型在右側或上方選單,確認版本。選 Gemini 2.5 Pro 或最新的 3 Pro Preview,Token 夠大才跑得動。
第三步:上傳檔案點擊那個顯眼的加號,選擇 Upload File。MP3 等主流格式通通支援。
注意: 系統會把檔案暫存到你的 Google Drive。如果上傳失敗,先別罵 AI,去檢查一下你的雲端硬碟是不是爆了。
第四步:下達指令等檔案讀取條跑完,直接在對話框輸入需求。
1幫我生成逐字稿
或者:
1總結會議重點與待辦事項
第五步:執行按下 Run。讓 AI 去跑,你喝口水。分析結果隨後就到。
魔鬼藏在細節裡使用 AI Studio 雖然爽快,但它吃的其實是你的 Google Drive 空間。免費用戶那 15GB 如果滿了,這招一樣行不通。
關於 Token 的消耗量,不用太擔心。
3 小時的音檔大約消耗 36 萬 Tokens。
目前的模型都支援到 100 萬甚至 200 萬。
這意味著,處理半天甚至全天的會議紀錄,這容量是綽綽有餘的。
最後,如果你真的不想切換到開發者介面,還有一個最原始的物理外掛:壓縮音質。對於語音辨識來說,高音質其實是浪費。
轉檔建議把 MP3 降到 32kbps 甚至 16kbps
AI 照樣聽得懂,但檔案大小會顯著縮水。有時候,暴力解法也是一種解法。
參考連結:
Google Gemini 說明
Google AI Studio 格式與限制說明