正直に言うと、最初は「音声入力でUIを作る」という発想がピンとこなかった。デザインはビジュアルの作業だ。目で見て、手で調整して、画面の上でレイアウトを操作するものだと思っていた。それが声でできるようになるとは、どういうことなのか。
Google Stitch 2.0(2026年3月アップデート)で追加された Voice Canvas 機能を使い始めたのは、軽い好奇心からだった。マイクアイコンをクリックして、思いついたことを口に出してみる。すると画面が動く。その瞬間の驚きは、最初にStitchでテキストプロンプトからUIが生成されたときの驚きと、また違う質のものだった。
この記事では、Google Stitch の音声入力機能を実際に使ってみて気づいたことを書く。「便利でした」という感想で終わるつもりはない。声で設計するとはどういう体験なのか、どんな場面で使えてどんな場面で使いにくいのか、正直に報告したい。
結論から言うと
一言で言えば、Google Stitch の音声入力(Voice Canvas)は、「頭の中のイメージを素早く形にする」ことに特化した機能であり、使い慣れると設計のスピードが大きく変わる。ただし「何でも声で完結する万能ツール」ではなく、テキスト入力との使い分けが前提になる。
特に効果を感じたのは、アイデアが言語化されていない段階での探索だ。「なんとなくこんな感じ」という曖昧なイメージを声で話し続けると、AIがその言葉を解釈しながら複数の方向性を提示してくれる。これはテキストを打ち込む作業では出にくい体験だった。
Google Stitch の Voice Canvas とは何か
Voice Canvas とは、Google Stitch 2.0で追加された音声入力機能のことだ。キャンバス上のマイクアイコンをクリックするだけで起動し、特別な設定や準備は不要。Google アカウントでログインしていれば、すぐに使い始められる。
仕組みは単純だが奥が深い。AIはカメラのようにキャンバスを「見ており」、あなたが選択した画面を把握した上で発言を解釈する。「このセクションをもっと大きくして」「3種類のメニューレイアウトを提案して」「ダークモードにするとどうなるか見せて」——これらの自然な発話が、そのままデザイン指示として処理される(Google Labs 公式情報、2026年3月)。
テキスト入力との本質的な違い
テキスト入力とVoice Canvasの違いは、入力方法の違いだけではない。思考のスタイルが変わる。
テキストを打つとき、人は「どう書けばAIに正確に伝わるか」を考えながらキーボードを叩く。文章を整えて、指示を明確にして、送信する。これは「設計した指示を実行させる」作業に近い。
一方、音声で話すとき、人は「話しながら考える」ことができる。「ヘッダーを変えたいんだけど、今のより少し重厚な感じにして、あとナビゲーションは横並びのままで、色は……そうだな、濃いネイビーかな」という具合に、整理されていない思考をそのまま流せる。AIはその流れを受け止めながら、意図を汲んで動く。
音声入力の基本操作
操作は以下の手順で完結する。まずキャンバス上のマイクアイコンをクリックする。次に声で指示を出す。AIがリアルタイムで解釈し、デザインに反映させる。確認・修正したい場合はさらに声で指示するか、テキスト入力に切り替える。
重要な点として、音声入力とテキスト入力は同一セッション内でいつでも切り替えられる。特定のカラーコードや長い文章を入力したい場合はテキストに戻せばよい。AIはどちらの入力も同じ会話の一部として扱う。
実際に使ってみた体験記録
私が Voice Canvas を試したのは、飲食店の予約サイトUIを設計していたときだ。いつものようにテキストで始めたセッションの途中で「少し試してみよう」とマイクをオンにした。
スムーズにいった場面
最初の発話はこうだった。「ヒーローセクションをもっとダイナミックにしたい。テキストを大きくして、背景に料理の写真をフルブリードで入れて、文字は白でコントラストをはっきりさせて」
結果は即座だった。言った通りの変更が画面に反映され、思っていたよりずっと洗練されたデザインが出てきた。さらに「このCTAボタン、もう少し下に下げて、色を少し明るいオレンジに変えてみて」と続けると、それもすぐ反映された。
この「言ってすぐ変わる」体験のリズムは気持ちよかった。テキストを打つより会話のテンポが速く、設計が「流れ」になる感覚があった。実際に使ってみて分かったのは、音声入力が最も輝くのは「試行錯誤の密度が高い場面」だということだ。方向性を探りながら複数のバリエーションを素早く見たいとき、声で話し続けながら画面を見る作業は、テキスト入力より体感速度が速い。
難しかった場面
一方で、うまくいかなかった場面もあった。具体的な数値を指定したいときは特に難しかった。「マージンを24pxにして」と言っても、AIが解釈する数値が毎回同じになるわけではない。「少し余白を増やして」という曖昧な指示より精度は下がる。こういう場面ではテキスト入力に切り替えるのが正解だと気づいた。
また、長い複雑な指示を一度に話すと、AIが全部を拾いきれないことがあった。「ヘッダーのロゴを左に、ナビを右に、フォントをSans-serifに変えて、メインビジュアルのサイズを700pxにして、フッターのカラーは……」と一気に話すと、後半が無視されることがあった。指示は短く区切って、1つずつ確認しながら進める方が精度が上がる。
音声入力を効果的に使うためのコツ
実際に使い込んで分かった、Voice Canvas を活かすためのコツを整理する。
空間・構造を具体的な言葉で描写する
音声入力で効果が高いのは「空間的な指示」だ。「3カラムのグリッドレイアウト」「左にコンテンツ、右にサイドバー、上に固定ヘッダー」「フルスクリーンのヒーローセクションの下に3つのカードを横並び」といった空間的・構造的な描写は、AIが解釈しやすい。
一方で「クリエイティブに」「モダンに」「おしゃれな感じに」といった抽象的な指示は精度が下がりやすい。感覚的な言葉を使うとしても、「モダンに——具体的にはフラットデザインで余白多め、カラーは2色以内」のように、抽象語に具体的な定義を添えると認識精度が上がる。
セッションに「流れ」を作る
Voice Canvas は会話の積み重ねで機能する。「まずヘッダーから始めて、次にヒーローセクション、それからフォームを作る」という順序で進めると、AIが文脈を把握しながら一貫したデザインを維持してくれる。
逆に、毎回テーマをリセットするような話し方をすると、デザインの一貫性が崩れる。「さっきのヘッダーと同じ色使いで、フッターも作って」という参照の仕方が有効だ。
音声入力が特に向いている場面
Voice Canvas を使い続けて見えてきた、「この場面で使うと効果的」というパターンを紹介する。
まず、ブレインストーミングフェーズだ。アイデアが固まる前の探索段階で、複数の方向性を素早く試したいときは音声入力が最適だ。「もっと遊び心のある感じ」「もっと信頼感のある感じ」「もっとシンプルに」と次々と試せる。
次に、クライアントや上司への説明中だ。打ち合わせの場でリアルタイムにデザインを変えてみせるとき、声で指示を出しながら画面を変えていく様子は、説得力がある。キーボードを打つよりも「AI と対話している」感が視覚的に伝わる。
また、両手が使えないときも音声入力は役立つ。メモを取りながら、コーヒーを飲みながら、UIを調整できる。これは些細に見えて、作業の連続性を保つ上で意外と効果がある。
よくある質問(FAQ)
Q1. Voice Canvas は日本語で話しかけられますか?
2026年4月時点では、日本語での音声入力に対応しています。ただし英語と比べると認識精度が若干下がる場面があります。特に固有名詞(ツール名・色名)は英語で話した方が確実に伝わる場合があります。「ネイビー」より「navy blue」の方が精度が高いケースがありました。日英混在で話す方法も有効です。
Q2. 音声入力とテキスト入力、どちらが精度が高いですか?
精度はほぼ同等ですが、向き不向きが異なります。空間的・構造的な指示(レイアウト・配置)は音声が得意。数値・カラーコード・細かいスタイル指定はテキストが得意です。2つを同一セッション内で組み合わせることで、それぞれの弱点を補い合えます。
Q3. Voice Canvas を使うのに特別な機器は必要ですか?
PCやMacに内蔵されているマイクで問題なく動作します。外部マイクや専用ヘッドセットは不要です。ただし雑音の多い環境では認識精度が下がることがあるため、静かな場所での使用を推奨します。
Q4. Voice Canvas はスマートフォンでも使えますか?
2026年4月時点では、Google Stitch はPCブラウザでの使用が主な想定です。スマートフォンブラウザからのアクセスは可能ですが、Voice Canvas を含む全機能の最適な動作環境はデスクトップブラウザです。
Q5. AIが発言を誤解した場合、どう修正できますか?
「それは違う、元に戻して」「さっきの変更はキャンセルして」と声で言えばUndo相当の操作ができます。また、テキスト入力に切り替えて正確な指示を打ち直す方法も有効です。誤解が続く場合は、指示を短く区切って1つずつ確認しながら進める方法が確実です。
Q6. 音声入力の利用回数に制限はありますか?
Voice Canvas の利用はStitch全体の生成回数カウント(2026年4月時点で月550回)に含まれます。音声入力専用の別枠ではありません。1回の音声指示でデザインが1回生成されればカウントが1増える計算です。
注意点・失敗しやすいポイント
1. 長すぎる指示は分割して話す
一度に多くの変更を声で伝えると、後半の指示が処理されないことがある。1回の発話で1〜2個の変更を指示し、画面を確認してから次に進む習慣を作ること。
2. 数値・カラーコードはテキストで入力する
「24px」「#3B82F6」などの正確な数値指定は音声より誤認識が多い。このような指示はテキスト入力に切り替えてから入力する方が確実だ。
3. 静かな環境で使う
背景音や他の人の声が混入すると誤認識が増える。リモートワーク中で周囲が騒がしいときは、イヤホンマイクを使うか、テキスト入力を選んだ方が結果が安定する。
4. セッションをまたいで会話は続かない
新しいセッションを開始すると、AIは前のセッションの会話を覚えていない。Voice Canvas で積み上げたデザインの文脈は、同一セッション内でのみ有効であることを覚えておくこと。
まとめ:声でデザインする、その意味
Google Stitch の Voice Canvas を使い始めて、一番変わったのは「設計の入り口」だと思う。以前は、まず頭の中でレイアウトを整理して、テキストで言語化して、送信する、という手順を踏んでいた。その「言語化」の作業に、思ったより時間と脳のリソースを使っていたことに気づいた。
音声入力は、その「言語化の手前」から使えるツールだ。整理されていない思考を声に出すと、AIがそこから意図を汲んで動いてくれる。この体験は、「AIと設計を一緒に考える」感覚に近い。
もちろん万能ではない。数値や細かいスタイルはテキストの方が正確だし、複雑な指示は分割が必要だ。でも、「声で設計できる」というオプションが手元にあることで、デザインへの向き合い方が変わったのは確かだ。
まずはマイクをオンにして、1分間だけ声でUIを作ってみてほしい。その体験が、この記事のどんな説明よりも多くを教えてくれるはずだ。