Google發表Gemini 3.1 Flash Live AI語音對談更自然且思路延續

商傳媒|責任編輯/綜合外電報導

Google 今日發表最新人工智慧語音模型 Gemini 3.1 Flash Live,號稱是其至今最自然的語音與音訊 AI 模型,旨在提升即時語音對談的流暢度與真實感。這項新模型已於今日起陸續整合至多項 Google 產品中,包含 Gemini 應用程式的即時模式(live mode)以及 Google 搜尋即時功能(Search Live)。

新模型主打更快的反應速度與自然的語調,更能偵測語音的語氣與情緒,並在嘈雜環境中保持語音辨識的穩定性。根據《Ars Technica》報導,Gemini 3.1 Flash Live 能讓 AI 生成語音在語氣、停頓及反應上更接近人類,其語音延遲時間有望達到最佳語音感知所需的 300 毫秒門檻。此外,它解決了數位助理常在長時間對話中「失憶」的問題,能將對話思路延續長達兩倍時間,並有效濾除背景噪音,確保語音處理的準確性。

針對開發者,Gemini 3.1 Flash Live 提供可配置的「思考等級」,讓 AI 能依需求調整品質與反應速度。例如,在「高思考」模式下,其在 Big Bench Audio 基準測試中獲得 95.9% 的評分,反應時間約為 2.98 秒;若設定為「最小思考」,評分雖降至 70.5%,但反應時間可縮短至 0.96 秒。開發者可透過 Gemini Live API、Google AI Studio 以及 Gemini Enterprise for Customer Experience 存取此模型,用以打造更具互動性的語音應用程式。Google 亦強調,即使面對複雜指令或非預期的對話轉折,該模型在觸發外部工具時仍能保持高度準確性。

Gemini 3.1 Flash Live 已擴展至全球超過 200 個國家及地區,並支援逾 90 種語言,推動 Google 搜尋即時功能(Search Live)的全球部署。該模型的定價為每小時音訊輸入 0.35 美元、每小時音訊輸出 1.40 美元,使其成為市場上具成本效益的音訊 AI 模型之一。

值得一提的是,Gemini 3.1 Flash Live 所生成的所有音訊都將內嵌 SynthID 數位浮水印。這項技術能將人耳難以察覺的數位標籤直接編織到音訊輸出中,有助於辨識 AI 生成的內容。

頭條留言
商傳媒
商傳媒https://sunmedia.tw/
商傳媒是一個提供財經、科技、智慧製造、醫療、產業資訊,為主要服務內容的金融、科技網路媒體,其宗旨在於提供台灣中小企業一個產品新聞的平台,未來更將推廣至世界各國!
- 廣告 -
- 廣告 -

最新文章

屏東陸興國高中會考三連冠 郭勁5A10+摘屏東榜首...

墨新聞|記者游宏琦/高雄報導115年國中教育會考放...

秩序的隱形勳章:從農安街的「隔夜假」到金鐘獎的品牌...

民國七十一年,台北的霓虹燈火裡,藏著一種不安分的躁動。 那時服役憲兵,日子在鋼盔與哨音的嚴謹規律中流轉。

文大開講!打造零距離感的職場 劉安立縱橫廣告業的「...

「AI時代,人們更需要思考的能力,有自己的觀點,否則,AI錯了,你也不知道。」而誠信、善良、溫暖和用心,永遠不會被取代。彥星僑商廣告創辦人劉安立於昨(6/4)日下午,應華岡文教基金會的邀請,返回母校中國文化大學演講。華岡文教基金會董事長王徐勳說,這是同學們在課本裏學不到、但重要的一課。

白鹿、丞磊攜手揭開權謀復仇風暴 陸劇《莫離》6/9...

由白鹿與丞磊主演的古裝權謀愛情劇 莫離,將於6月9日在Disney+上線。該劇開播前已在騰訊平台累積超過400萬預約人次,成為近期最受矚目的古裝新作之一。

地標網通 618 祭出 iPhone 最高省逾 8...

面對全球手機供應鏈成本持續攀升、記憶體價格高檔與先進製程報價上漲,多家品牌陸續調整新機售價,帶動消費者換機成本增加。搶攻618年中購物檔期,地標網通宣布推出「618夏殺祭」優惠活動,不僅針對iPhone與熱門安卓手機祭出大幅折扣,也同步推出攜碼資費加碼方案。業者表示,隨著下半年平價機種選擇可能持續縮減,有換機需求的消費者可趁此波促銷檔期提前入手。