2026.05.28

2026.07.17

業務マニュアルの「作る苦労」を解消、Gemini 3.1 Pro の動画解析が変えるDXの真価

社内チャット・掲示板で共有

業務マニュアルの「作る苦労」を解消、Gemini 3.1 Pro の動画解析が変えるDXの真価

業務マニュアルの作成は、多くのビジネスパーソンにとって「重要だとわかっているけれど、やりたくない仕事」ではないでしょうか。

私たちも同じ状況でした。テキストで書くのが大変だから、動画に切り替えてみたのですが、今度はその動画が使いにくいという壁にぶつかりました。その壁を、Gemini の動画解析機能で乗り越えた話をしていきます。動画を撮ってAIに渡すだけで、検索可能なテキストマニュアルが数分で出てくる。この流れを、実際に使ったプロンプトと合わせて紹介します。

なぜマニュアル作成は続かないのか

「属人化はよくない」と誰もが知っていますが、わかっていても、作ることは別の話です。

日々の業務をこなしながら、誰がいつ読むかもわからないマニュアルを作成するのは相当しんどいですよね。結果として部署異動などの理由により「引き継ぎが決まってから慌てて作る」が慣例になっているのではないでしょうか。

私たちも、まさにそのパターンでした。

動画マニュアルを作成してみたが、新たな課題が生まれた

テキストで書くのが大変なら、動画にすればいいのでは、そう考えたのは自然な流れでした。

対象はPC上の操作だったので、画面録画機能を使えばテキストを書くことなく、普段の作業をそのまま録るだけ。実際にやってみると、録画の手間はほぼゼロでした。

しかし、ここで話は終わらずにいくつかの壁がありました。

壁①：リアルタイムすぎる問題

数十分の動画を再生しながら同じ操作をしようとすると、「あ、今の操作なんだっけ」となって巻き戻しをすることになります。少し進めて、また戻す。この繰り返しです。再生バーをミリ単位で動かしながら「さっきの画面どこだっけ…」と探す時間が、実際の作業時間より長くなる本末転倒な状況が発生していました。

壁②：等速視聴の限界

数十分のマニュアルのため1.5倍速で見たいシーンもあれば、一時停止を繰り返したいシーンもある。動画は受け手に「時間の制約」を強烈に強いるメディアだったのです。

壁③：検索性の欠如

テキストなら「Ctrl ＋ F」ですぐに検索できますが、動画だと検索が使えません。仮にマニュアルで目次があったとしても、該当箇所を探すまでに時間を要してしまいます。

壁④：データ容量の圧迫

数十分の操作動画が何本もたまり、ファイル容量はすぐに数GB単位に膨らみます。作業のたびにダウンロードが始まり、PCのストレージを圧迫する状況でした。

たったの3ステップで完了！業務マニュアルのAI自動化！

「最近のAIは動画の中身を理解できるらしい」という話を聞いたとき、この発想が生まれました。

録画の簡単さ＋テキストの検索性＝動画を撮ってAIに変換させる

動画の「撮る手軽さ」とテキストの「使いやすさ」を掛け合わせる方法です。やることは3ステップだけでした。

3ステップで業務マニュアルを自動生成

ステップ1：動画を撮る

普段どおり画面録画するだけです。説明を考える必要はなく、録画ボタンを押して作業するだけです。

※録画をする際は、手元の操作に合わせて作業内容を説明していくことで、より精度の高いマニュアルが作成されます。

ステップ2：Gemini に渡す

録画ファイルを Gemini にアップロードして、以下のプロンプトを貼り付けます。

この動画はPC上での業務操作を録画したものです。動画の内容を以下の形式で操作マニュアルとして整理してください。
- 各手順を番号付きで記載
- 操作対象（ボタン名・メニュー名）を具体的に記載
- 注意点があれば補足として追記

ステップ3：マニュアルが返ってくる

あとは Gemini の出力を確認してテキストとして保存するだけです。

Gemini が動画を“見ている”理由

なぜ Gemini がここまでの精度で動画を解析できるのか、少しだけ説明していきます。

ネイティブマルチモーダルという仕組み

Gemini 3.1 Pro は、テキスト・画像・音声・動画をすべて1つのモデルでまとめて処理する「ネイティブマルチモーダル」という仕組みで動いています。

動画を「フレーム画像の連続」と「音声」に分けてバラバラに処理するのではなく、映像の流れと音声を同時に把握できる点が特徴です。業務操作の録画なら、どの画面でどのボタンを押したかを時系列で追いながら、音声の説明も合わせて解釈できます。

処理上限と実用上の安心感

処理できる動画の上限は、API経由で最大1時間・最大1GB（Google 公式仕様、2026年3月時点）。業務操作の録画であれば、丸ごと渡しても余裕で処理できる範囲ですし、Gemini アプリからも動画をアップロードして試せます。

※ 処理上限などの仕様は変更される可能性があります最新仕様は Google 公式ドキュメントをご確認ください。

PC以外でも使える「AI動画マニュアル」の可能性

今回はPC操作のマニュアル化に活用しましたが、この方法は画面録画に限りません。動画が撮れるものなら何でも応用できます。

製造・物流現場：機械操作をスマホで撮影。そのままAIが「作業標準書」を作成。
店舗運営：開店準備や清掃の手順を動画で撮影し、多言語対応のマニュアルへ。
カスタマーサポート：顧客から送られてきた不具合動画を解析させ、即座に回答案を作成。
イベント設営：テントや音響機材の複雑な組み立て手順を、現場の動画からドキュメント化。

PC上の操作に限らず、現場作業・設備案内・教育シーンまで、「誰かに教えたいことがあるなら、まず動画を撮ってみる」という発想がこれからのデファクトスタンダードになるかもしれません。

執筆者

鈴木翔太

株式会社USEN ICT Solutions IaaS＆DCプロダクト部部長
AI Clutch 副編集長

2008年、株式会社USEN（現：株式会社USEN ICT Solutions）入社。法人向けICTソリューションの最前線でキャリアを積み、IaaS事業の立ち上げを牽引。クラウドがビジネスの標準となったように、AI活用に対しても強い確信を持つ。2023年の生成AI台頭以降は、Azure OpenAI Service（AOAI）や Gemini Enterprise Agent Platform（旧 Vertex AI）を駆使したAI実装支援に従事。「AIをいかに実務へ溶け込ませるか」を追求し、顧客課題の解決と新たな価値還元をミッションとしている。現在は「AI-Clutch」の副編集長として、技術とビジネスの架け橋となる情報を発信中。