Google、70言語対応のリアルタイム音声翻訳 Gemini 3.5 Live Translate を発表

社内チャット・掲示板で共有

Google は現地時間6月9日、最新の音声モデル Gemini 3.5 Live Translate を発表した。同モデルは70以上の言語に対応し、発話と同時に翻訳を生成するリアルタイムの音声対音声翻訳を実現する。従来のシステムが対話の終了を待ってから翻訳を行う方式だったのに対し、同モデルは発話の進行に合わせて連続的に翻訳を行うため、通訳を介したようなシームレスなコミュニケーションが可能となる。言語の壁を解消する技術として、グローバルな対話環境での利用が期待される。

Gemini 3.5 Live Translate は、発話者の抑揚、ペース、音調を維持しつつ、自然な翻訳音声を生成する。多言語入力を自動検知する機能を備えており、ユーザー側で設定を変更する手間は発生しない。また、ノイズ耐性が強化されており、予測困難な騒音環境下でも安定した動作を維持する。展開については、開発者向けに Gemini Live API および Google AI Studio でのパブリックプレビューを開始済みである。企業向けには Google Meet でのプライベートプレビューを今月から開始しており、一般ユーザーは Android および iOS 版の Google Translate アプリを通じて利用可能となった。特に Android 版では、電話の受話器を耳に当てる感覚で翻訳を聞くことのできる「リスニングモード」も実装されている。

本技術の実務上のメリットは、会議、授業、放送などの多言語が交錯する現場での利便性向上にある。Agora、Fishjam、LiveKit、Pipecat、Vision Agents といった開発プラットフォームと統合されており、開発者は複雑なリアルタイムメディアのストリーミング基盤を構築することなく、音声翻訳アプリを容易にデプロイできる。これにより、企業や教育機関は、言語設定の手間を省きながら、即座に多言語間の円滑な対話環境を整えることが可能となり、グローバルな業務効率化を推進できる。

この新モデルにより、翻訳可能な言語数をこれまでの5言語から70以上に大幅拡大させた。これにより、一つの会議内で2000以上の言語の組み合わせを処理することが可能となり、これまで英語を介した翻訳に制限されていた環境から飛躍的な進歩を遂げた。同社は、今後もグローバル製品全体でこれらの機能を順次展開し、言語の障壁を越えたAI活用の実用化を加速させる方針である。

Fluid, natural voice translation with Gemini 3.5 Live Translate|Google

blog.google

参考リンク

社内チャット・掲示板で共有

会社で働くみなさん、本当にAI活用できていますか?

グループ内のAI活用を推し進める傍ら、お客様にもAIソリューションを提供しているUSEN&U-NEXT GROUPの知見と、
各業界のAIリードカンパニーへのインタビューなどを通じて、
企業におけるAI活用の実態やノウハウ、問題点などを記事で公開しています。

記事一覧へ

自社の・自分のAI活用状況が分かる!カンタンAI診断を公開中

診断する