Google AI Studioで文字起こしができない時の対処法

Google AI Studioで音声ファイルをアップロードしようとしたら、解説記事と画面が違ってボタンが見当たらない。そういうケースはかなり多いです。

原因はほぼ一択で、選んでいるモデルが音声入力に対応していないこと。この状態だとアップロードボタン自体が表示されないので、どれだけ探しても見つからないのは当然です。

まず右上のモデル選択メニューを確認してください。ここが起点で、モデルを切り替えるだけで画面が変わります。


モデル選択がボタン表示の分岐点

AI Studioを開いたとき、画面右上にモデル選択のメニューがあります。ここが Gemini 1.5 ProGemini 1.5 Flash 以外になっていると、音声ファイルのアップロードアイコンは出てきません。

画像生成用モデルや古いモデルがデフォルトで選ばれていることがあって、そのままだとファイル入力の欄が省略された画面になります。解説記事のスクリーンショットと自分の画面が違う場合、まずここを疑うのが早いです。

  • 画面右上のモデル選択メニューを開く
  • Gemini 1.5 Pro または Gemini 1.5 Flash を選択する
  • Image Preview など特殊なモデルになっていないか確認する

MP3ファイルをアップロードする手順

モデルを切り替えたら、入力欄の左側か周辺に + ボタンまたは Upload アイコンが現れます。ここからファイルを選択します。

  1. 入力欄付近の + または Upload アイコンをクリック
  2. MP3ファイルを選択してアップロード
  3. プロンプト欄に「この音声を文字起こししてください」と入力
  4. アップロード完了後に実行ボタンを押す

1ファイルあたり1GBを超えるとアップロードが拒否されます。長時間の録音データは事前に分割しておいてください。


うまくいかないときの確認ポイント

手順通り進めても「Unsupported file type」が出る場合、ファイル形式の問題かアップロード中のトラブルが多いです。MP3ファイルが正常に保存されているか先に確認してください。

音声が長すぎるときも注意が必要です。AI Studioにはコンテキストウィンドウの制限があって、長時間の音声を一度に処理できないことがあります。30分〜1時間単位で分割して読み込ませると安定します。

  • MP3ファイルが壊れていないか別のプレイヤーで再生確認する
  • ファイルサイズが1GB以内か確認する
  • 音声が長い場合は30分〜1時間単位に分割する
  • プロンプトはシンプルに「この音声を文字起こししてください」だけでOK

UIはアップデートで構成が変わることがありますが、モデル選択とアップロードボタンという基本的な構造は変わりません。Gemini 1.5 Pro を選んでアップロードボタンが出ているかを確認するのが、詰まったときの最初の切り戻し点です。

Google AI Studio
Gemini
文字起こし
音声入力

まとめ

「ボタンがない」と感じたらほぼモデルの問題です。Gemini 1.5 Pro か 1.5 Flash に切り替えると、たいてい解決します!
試してみてくださいね。

pocketlinehatebuimagegalleryaudiovideocategorytagchatquotegoogleplusfacebookinstagramtwitterrsssearchenvelopeheartstaruserclosesearch-plushomeclockupdateeditshare-squarechevron-leftchevron-rightleafexclamation-trianglecalendarcommentthumb-tacklinknaviconasideangle-double-upangle-double-downangle-upangle-downstar-halfstatus
タイトルとURLをコピーしました