Google が最新モデル「Gemma 4 12B」を発表。16GBメモリで動作するエンコーダーレスのマルチモーダルAI

社内チャット・掲示板で共有

Google は現地時間3日、最新のオープンモデル「Gemma 4 12B」を発表した。

本モデルは、モバイル向けの軽量な E4B と、より高度な 26B Mixture of Experts(MoE)の中間に位置づけられたミドルサイズモデルである。最大の特徴は、一般的な消費者向けノートPCの環境である16GBのVRAMまたはユニファイドメモリ上で、高度なマルチモーダル処理とエージェント的な推論能力をローカル環境で実行可能にした点にある。これは、エッジデバイスから開発者用ワークステーションまでをカバーする Gemma 4 ファミリーの最新の拡充であり、これまで以上に広範な環境で高性能なAI機能を利用できるようになった。

技術的な核心は、従来のマルチモーダルモデルとは一線を画す「エンコーダーレス」の統合アーキテクチャにある。通常、視覚情報や音声情報を扱う際には、個別のエンコーダーを経由してモデルへ入力する必要があったが、Gemma 4 12B はこれらを廃し、入力データが直接LLMのバックボーンへと流れる仕組みを採用した。この簡素化により、メモリ消費量の大幅な削減と遅延の低減を実現している。また、本モデルは Gemma 4 ファミリーのミドルサイズとしては初となるネイティブな音声入力機能を搭載しており、さらに Multi-Token Prediction(MTP)ドラフターを標準装備することで推論の応答速度を高めている。これらのモデルは Apache 2.0 ライセンスの下で公開されており、140以上の言語をサポートする。

実務面における本モデルの最大のメリットは、高性能なAIエージェントをローカルのラップトップPC環境で構築できることにある。大規模なサーバーインフラに頼ることなく、オフライン環境下での高精度な音声入力処理、翻訳、要約、そして複雑な推論タスクを完結させることが可能となった。特に、視覚や音声入力をLLMが直接処理する特性は、リアルタイム性が求められるエージェント開発や、データの機密保持を優先するエンタープライズ用途において、極めて強力な基盤となる。開発者は Hugging Face や Ollama、LM Studio といった主要な開発エコシステムを通じて即座に実装を開始でき、効率的なワークフローの最適化が期待できる。

Google は、開発者がこの最新の技術基盤を活用できるよう、公式のスキルリポジトリを公開しており、エージェント開発の支援体制を整えている。本モデルはすでに開発者コミュニティに向けて提供が開始されており、既存の Gemma 4 モデルと同様に高い柔軟性とアクセシビリティを備えている。開発者は公式のドキュメントやクイックスタートノートブックを参照し、自身の開発パイプラインに即座に組み込むことが可能だ。今後、このモデルがどのようにローカルAI開発の裾野を広げ、新たな産業アプリケーションの創出に寄与していくかが注目される。

Introducing Gemma 4 12B: a unified, encoder-free multimodal model|Google

blog.google

参考リンク

社内チャット・掲示板で共有

会社で働くみなさん、本当にAI活用できていますか?

グループ内のAI活用を推し進める傍ら、お客様にもAIソリューションを提供しているUSEN&U-NEXT GROUPの知見と、
各業界のAIリードカンパニーへのインタビューなどを通じて、
企業におけるAI活用の実態やノウハウ、問題点などを記事で公開しています。

記事一覧へ

自社の・自分のAI活用状況が分かる!カンタンAI診断を公開中

診断する