Google Translate及Meet迎重大更新:Gemini 3.5實時無縫語音翻譯功能詳解

Google宣佈推出全新Gemini 3.5 Live Translate實時語音翻譯模型,支援超過70種語言。新技術打破傳統「逐句等候」限制,能夠持續生成並保留講者語氣同音調嘅翻譯語音。新功能將會陸續登陸Google Meet及Google Translate,Android版本更加入專屬「聆聽模式」,為企業會議同日常溝通帶來更流暢嘅跨語言體驗。

Google Translate及Meet迎重大更新:Gemini 3.5實時無縫語音翻譯功能詳解
Google Translate及Meet迎重大更新:Gemini 3.5實時無縫語音翻譯功能詳解

Google推出Gemini 3.5 Live Translate:實時語音翻譯支援超過70種語言

Google官方近期宣佈推出最新嘅語音模型——Gemini 3.5 Live Translate。呢個系統主打提供接近實時嘅「語音對語音」(Speech-to-Speech)翻譯服務,並且涵蓋超過70種語言。今次更新唔單止代表住人工智能喺自然語言處理上嘅一大突破,更重要嘅係,相關技術會直接整合到一般大眾經常使用嘅Google Meet同埋Google Translate手機應用程式當中,預期可以大幅度降低跨語言溝通嘅門檻。

Google推出Gemini 3.5 Live Translate:實時語音翻譯支援超過70種語言

Gemini 3.5 Live Translate重點功能

技術突破:由「回合制」到「無縫持續翻譯」

要了解Gemini 3.5 Live Translate嘅獨特之處,首先要對比以往嘅翻譯工具。過去市場上大部份嘅語音翻譯系統,都採用「回合制」(Turn-by-turn)設計。即係話,系統必須等待講者完全講完一句說話,停頓落嚟之後,先至開始進行翻譯並讀出結果。呢種運作模式往往會造成對話中斷,令到溝通節奏變得唔自然,甚至會出現尷尬嘅冷場。

全新嘅Gemini 3.5 Live Translate打破咗呢個限制。系統能夠喺講者發言嘅同時,持續處理串流語音並生成翻譯。Google嘅開發團隊喺系統入面取得咗一個平衡點:既保留極短嘅緩衝時間去理解上文下理以確保翻譯準確度,同時做到緊貼講者嘅說話節奏,只係比起原音延遲短短幾秒鐘。呢種無縫嘅體驗,令即時對話變得更加流暢。

此外,新模型亦具備高度嘅自然語音生成能力。佢唔單止能夠準確翻譯字面意思,仲可以保留原講者嘅語調、語速同埋音高(Pitch)。配合強大嘅抗噪音功能,即使喺嘈雜或者不可預測嘅環境之下,系統依然能夠穩定運作。

商業應用:Google Meet跨語言會議全面升級

對於一眾上班族同埋跨國企業而言,Google Meet嘅更新絕對係今次發佈嘅一大焦點。喺升級之前,Google Meet嘅語音翻譯功能只限於五種語言,而且所有翻譯都一定要用英文做中介轉換語言,應用場景相對局限。

當Gemini 3.5 Live Translate正式導入Google Meet之後,系統將會直接支援超過70種語言。更重要嘅突破係,新版本容許同一個會議入面出現超過2,000種唔同嘅語言配對組合(Language Combinations)。舉個例子,與會者可以直接由日文翻譯做廣東話,或者由西班牙文翻譯做韓文,過程唔需要再硬性經過英文作中轉。同時,Google亦會更新Meet嘅用戶介面,令用家可以更快捷咁開啟語音翻譯功能。

商業應用:Google Meet跨語言會議全面升級

日常實用:Google Translate手機應用程式新功能

除咗企業層面,一般用家亦可以透過iOS同埋Android版本嘅Google Translate應用程式體驗到新技術。當用家使用Live Translate實時翻譯功能嗰陣,只要連接任何一款耳機,就可以聽到貼近原講者語氣嘅翻譯語音,非常適合旅遊或者同外國朋友交流嘅時候使用。

值得留意嘅係,Google針對Android手機用家,特別加入咗全新嘅「聆聽模式」(Listening Mode)。例如喺安靜嘅環境或者未有隨身攜帶耳機嘅時候,用家只需要將手機貼近耳邊(就好似平時聽電話一樣),系統就會將實時翻譯嘅語音直接由手機聽筒播放出嚟。呢個設計既能夠保護對話私隱,唔會將翻譯聲帶外放播畀周圍嘅人聽,亦免卻咗一定要依賴耳機嘅不便。官方示範入面提到,用家可以利用呢個模式,一邊聽住西班牙文嘅導賞團,一邊由聽筒接收英文翻譯,過程輕鬆簡單。

0:00
/0:25

日常實用:Google Translate手機應用程式新功能

開發者生態與實際應用案例

為咗推動整個AI翻譯生態圈發展,Google亦透過Gemini Live API以及Google AI Studio,向開發者開放預覽測試。目前已經有幾個開發者平台(例如Agora、LiveKit等)整合咗相關API,協助程式編寫員減輕處理複雜實時媒體串流架構嘅負擔,專注於設計更好嘅用戶體驗。

喺實際應用方面,東南亞大型叫車及外送平台Grab已經開始測試呢項技術。Grab每月處理超過一千萬次語音通話,透過Gemini 3.5 Live Translate,司機同乘客即使言語不通,亦可以喺上車前透過接近實時嘅語音翻譯進行溝通,有效減少因為語言障礙而引致嘅誤會或者延誤。

AI安全機制:SynthID浮水印技術防偽造

隨住人工智能生成語音技術越嚟越成熟,社會對聲音偽造以及假資訊嘅擔憂亦都跟住增加。為咗釋除疑慮並確保技術負責任咁被使用,Google喺Gemini 3.5 Live Translate入面加入咗安全機制。

所有由呢個模型生成嘅語音,都會被自動嵌入名為「SynthID」嘅浮水印。呢種浮水印係一種人耳無法察覺嘅隱藏標記,直接編織喺音頻輸出當中。透過特定嘅檢測工具,平台或者分析人員可以準確識別出有關音頻係咪由AI生成,從而有效阻止技術被不法份子利用作詐騙或散播虛假資訊。

實用資訊整理:用家如何獲得更新

為咗方便讀者掌握最新資訊,以下整理咗各項功能推出嘅預計時間表:

  • 開發者: 即日起已經可以透過Gemini Live API及Google AI Studio進行公開預覽。
  • Google Meet企業用戶: 將於本月內向指定嘅Google Workspace商業客戶推出私人預覽版(Private Preview),並計劃喺今年稍後時間擴展至更多用家。
  • 一般個人用戶: Gemini 3.5 Live Translate以及全新嘅「聆聽模式」(只限Android),將會逐步向全球iOS及Android系統嘅Google Translate應用程式推送更新。

總結

總括而言,Gemini 3.5 Live Translate嘅出現,顯示出實時語音翻譯技術已經邁向一個新階段。由支援語言數量嘅大幅增加、持續無縫翻譯技術嘅突破,以至到針對不同作業系統硬件嘅配合(如Android專屬聆聽模式),都展現出新技術為日常溝通同商務環境帶來嘅實際便利。對於經常需要接觸多國語言嘅跨國工作者,或者熱愛旅遊嘅人士而言,呢項技術更新確實提供咗一個更高效嘅溝通方案。用家可以密切留意Google稍後嘅正式更新推送,以親身體驗相關功能。