Специальное предложение к запуску: 20% на тариф Pro на ограниченное время, применяется автоматически
GuideApr 20267 min read

Произносите промпты вслух: как использовать голосовой ввод с ChatGPT, Claude и любыми ИИ-инструментами

Большинство людей набирают каждый ИИ-промпт вручную. Если говорить вместо этого, за малую долю времени можно написать промпты длиннее и содержательнее – а лучшие промпты неизменно дают лучшие ответы.

Glowing voice waveform on a dark screen, representing speaking a prompt into an AI chat interface

В том, как большинство людей используют инструменты ИИ, есть узкое место, о котором почти никто не говорит. Это не качество модели, не контекстное окно и не скорость вывода. Это промпт. Точнее, время и усилия, которые требуются для его написания.

Средний интеллектуальный работник печатает 40–50 слов в минуту. По-настоящему полезный промпт – с достаточным контекстом, ограничениями и примерами для получения хорошего ответа – нередко содержит 100–200 слов. При скорости 40 слов в минуту это два-пять минут набора текста, прежде чем получишь хоть что-то в ответ. Достаточно, чтобы потерять нить мысли. Достаточно, чтобы сдаться и отправить короткий расплывчатый промпт.

Короткие расплывчатые промпты дают посредственные ответы. Так и продолжается порочный круг: все жалуются, что инструменты ИИ не раскрывают своего потенциала, при этом набирают промпты со скоростью клавиатуры и недоумевают, почему результат не вполне устраивает.

Голосовой ввод разрывает этот круг. В этом руководстве рассказывается, как использовать системную голосовую клавиатуру для диктовки во все инструменты ИИ – не только в те, что имеют встроенные голосовые режимы, – и почему переход от набора к речи, как правило, даёт заметно лучшие результаты.

Почему длинные промпты действительно важны

Связь между длиной промпта и качеством вывода нелинейна, но закономерность устойчива: больше контекста – более релевантные ответы. Не потому, что модели нужен объём, а потому, что хорошо проработанный промпт оставляет меньше неоднозначностей, которые модель вынуждена разрешать самостоятельно.

Когда пишешь «сделай резюме этого документа для моего менеджера», модель должна угадывать, что важно вашему менеджеру, насколько официальным должен быть тон, какой длины должно быть резюме и какой контекст у менеджера уже есть. Когда говоришь «сделай резюме этого документа для моего менеджера, который отвечает за закупки и уже прочитал исполнительное резюме – сосредоточься на разделе о рисках поставщиков и отметь всё, что требует решения на этой неделе, в пределах 200 слов», модели практически нечего угадывать. Результаты существенно различаются.

Люди, перешедшие на голосовые промпты, неизменно отмечают, что пишут промпты длиннее и конкретнее, чем печатные аналоги, – не потому что стараются писать больше, а потому что речь намного быстрее, и сопротивление, связанное с добавлением контекста, фактически исчезает.

Этот дополнительный контекст отражается в ответе. Разрыв в качестве реален.

Диктовка vs встроенные голосовые режимы: в чём разница?

Большинство крупных инструментов ИИ добавили ту или иную голосовую функциональность. У Claude есть голосовой режим. У ChatGPT есть голос. У Gemini есть голос. Это полезные функции, но они предназначены для другого: разговора без рук, где вы говорите, а модель отвечает вслух. Они не предназначены для вставки текста в текстовое поле.

Это различие важнее, чем кажется. Если вы хотите составить промпт, отредактировать его перед отправкой, вставить фрагменты документа рядом с вопросом или использовать модель там, где голосовой режим беседы недоступен – кастомный GPT, локальная модель в Open WebUI, Perplexity, Notion AI, корпоративный инстанс Claude – вам нужна диктовка, а не голосовой режим. Диктовка работает на уровне системы; она работает везде, где находится курсор.

Системная голосовая клавиатура работает так: захватывает ввод микрофона при удержании горячей клавиши, транскрибирует его и вводит результат в поле, которое в данный момент в фокусе. Никаких интеграций не требуется. Инструмент ИИ никогда не знает, что вы говорили, а не печатали. Он просто получает текст.

Настройка за две минуты

Настройка минимальна. Устанавливается голосовая клавиатура, работающая на всём Mac, а не только внутри одного приложения. Назначается горячая клавиша, которую можно удерживать во время речи. Чтобы надиктовать промпт, нужно кликнуть в текстовое поле нужного инструмента ИИ, удержать горячую клавишу, сказать, отпустить. Транскрипция появляется там, где был курсор.

В Talkpad горячая клавиша настраиваемая, а транскрипция происходит достаточно быстро, чтобы надиктовать полный промпт и отправить его почти так же быстро, как закончить печатать короткий. Бесплатный план предоставляет 2 500 слов в неделю.

Что именно говорить в инструменты ИИ

Голосовое промптинг меняет экономику того, что стоит писать. То, что казалось слишком трудоёмким для набора, становится простым, когда можно произнести это со скоростью 130 слов в минуту. Несколько паттернов, которые хорошо работают:

Исследования и брифинги

Напечатано: «Что мне нужно знать о литий-железо-фосфатных аккумуляторах?»

Продиктовано: «Я оцениваю переход с кислотно-свинцовых аккумуляторов на LFP для парка грузовых автомобилей в климате, где температура опускается до минус 15 по Цельсию. Знаю, что LFP имеют лучший ресурс по циклам, но хуже работают на холоде. Мне нужно сравнение по: реальной деградации ёмкости при низких температурах, совокупной стоимости владения за пять лет при 300 циклах в год и практическим проблемам с зарядной инфраструктурой. Дайте честные компромиссы, а не рекламный текст.»

Продиктованная версия занимает около 30 секунд. Набрать её потребовалось бы 3–4 минуты. Полученный ответ операционно полезен, а не энциклопедичен.

Брифинги для написания текстов

Напечатано: «Напиши письмо с анонсом продукта.»

Продиктовано: «Составь письмо с анонсом продукта для нашего нового корпоративного тарифа. Аудитория – существующие клиенты, которые сейчас на тарифе Business. Ключевая функция, которую мы анонсируем, – дашборды аналитики на уровне команды. Тон должен быть прямым и уверенным. Начни с пользы для клиента, а не с функции. Не прячь призыв к действию. Максимум 200 слов. В конце предложи варианты темы письма.»

Отладка и контекст кода

Напечатано: «Эта функция не работает.»

Продиктовано: «У меня есть функция TypeScript, которая должна делать дебаунс API-вызовов, но она срабатывает немедленно при первом вызове, а затем правильно. Я использую useCallback для мемоизации в React и думаю, что проблема может быть в том, как замыкание захватывает ref таймаута. Наблюдаемое поведение: первый вызов – без задержки, последующие – правильная задержка 300 мс. Я хочу понять, почему первый вызов обходит логику дебаунса, а не просто получить исправление.»

Преимущество AirPods

У голосового промптинга есть недооценённое преимущество, выходящее за рамки скорости набора: оно работает, когда вы вдали от клавиатуры. Если есть мысль, которую нужно зафиксировать – исследовательский вопрос, возникший на встрече, промпт, который хочется запустить, вернувшись к столу – AirPods и голосовая клавиатура позволяют захватить её в тот момент, когда она формируется.

Рабочий процесс: вы на встрече, где возникает тема, которую хотите исследовать подробнее. Встреча заканчивается, вы идёте к рабочему столу. За эти две минуты ходьбы, с AirPods в ушах и открытым где-то Mac, вы диктуете полный контекст того, что хотите изучить – пока детали ещё свежи – прямо в окно Claude или ChatGPT. К тому моменту, как сядете, ИИ уже начал над этим работать.

Промпты на родном языке

Есть малоизвестный аспект голосового промптинга: если английский – не ваш родной язык, вы, вероятно, мыслите свободнее на родном. Написание подробного промпта на английском – это одновременно сочинение и перевод, и эти накладные расходы на перевод забирают часть богатства исходной мысли.

Голосовой перевод меняет это. При активном режиме перевода в Talkpad (переключение ⌃⌥T) вы говорите на русском, испанском, японском, хинди или любом из 100+ поддерживаемых языков, и ваши слова появляются в текстовом поле инструмента ИИ на английском.

Несколько вещей, которые работают плохо

Голосовой промптинг имеет ограничения, которые стоит знать.

Точное форматирование – таблицы Markdown, фрагменты кода, диктуемые посимвольно, точный синтаксис командной строки – болезненно диктовать. Голос быстр для прозы и контекста; для всего, что требует точных символьных последовательностей, набор текста по-прежнему лучше.

Фоновый шум существенно снижает качество транскрипции. Тихая комната или наушники с шумоподавлением дают реальную разницу.

Диктовка в отвлечённом состоянии даёт бессвязные промпты. Если не уверены, что хотите спросить, сначала подумайте 30 секунд, а потом говорите.

Начните бесплатно

Если вы использовали инструменты ИИ преимущественно с набором текста, переход на голосовой промптинг действительно стоит одной недели осознанного эксперимента. Промпты, которые вы пишете, станут длиннее и конкретнее; ответы – более непосредственно полезными.

Попробуйте Talkpad на Mac – перевод в реальном времени, бесплатно. 2 500 слов в неделю на бесплатном тарифе, карта не нужна. Сегодня для Mac, другие платформы скоро.

Share

Попробуйте Talkpad бесплатно прямо сейчас.

Бесплатный план доступен. Без обязательств. Просто быстрее.

macOS · Приватность в приоритете · 100+ языков · Живой перевод · Бесплатный план