...

Основы разработки приложений для голосовых ассистентов

Голос для бизнеса: как и зачем брендам создавать навыки для голосовых ассистентов

Что нужно учесть при разработке, каким образом нативно интегрировать упоминания бренда и как сделать навык максимально полезным для людей: рассказываем на примере Маруси.

10 показов
2.6K открытий

Более 3 млрд человек регулярно обращаются к голосовым помощникам, и количество их пользователей продолжает расти. По прогнозам, рынок вырастет на 17,2% в годовом исчислении и достигнет 26,8 млрд долларов к 2025 году.

Голосовые ассистенты набирают популярность не только среди пользователей, но и среди брендов. Компании разрабатывают собственные навыки и используют голосовых помощников в качестве консультантов.

Маруся — голосовой помощник с многомиллионной аудиторией, который работает в умных колонках Капсула и Капсула Мини, приложениях Маруси для iOS и Android, в Почте Mail.ru. Разрабатывать собственные голосовые навыки для Маруси могут и сторонние бренды — самостоятельно через открытую платформу или в сотрудничестве с Mail.ru Group.

Алена Дебольская, руководитель проектной группы в «Направлении инновационных решений» Mail.ru Group, рассказывает об использовании возможностей голосового помощника для брендов на примере навыка Питомцы, который компания разработала вместе с Purina.

Новый опыт на основе уже существующего контента

Основой для нового навыка стал запущенный ранее портал Питомцы Mail.ru. На портале собраны экспертные материалы для хозяев питомцев и для тех, кто планирует ими стать. Там же можно бесплатно получить рекомендации ветеринаров и кинологов. Разрабатывая навык, бренд Purina стремился создать новый опыт для пользователей и дополнительную ценность с помощью существующего контента площадки .

Навык Питомцы позволяет задать Марусе вопрос — и оперативно получить рекомендации и ответы экспертов на любые запросы, связанные с содержанием и здоровьем животных.

Это соответствует целям Purina: бренду важно продвигать осознанное отношение к животным. Чтобы активировать навык, достаточно сказать Марусе: «Открой Питомцы». При поиске информации Маруся использует контент Питомцев Mail.ru: статьи и комментарии ветеринаров, кинологов, зоопсихологов и других проверенных экспертов.

Сценарии для общения — и для перехода в мессенджер

Чтобы человеку было легко и удобно взаимодействовать с навыком, особое внимание уделяли его проектированию и разработке. Например, классифицировали и анализировали запросы, адаптировали контент под каждый тип вопросов и прорабатывали сценарии для общения.

Также важно было разработать сценарии и придумать фразы, которые помогают перевести пользователя из мобильного приложения в мессенджер для коммуникации с онлайн-ветеринаром. Так как навык не базируется на данных поисковиков, было необходимо создать хранилище контента и сценариев, а также наладить их доставку потребителям.

В процессе разработки мы определили эффективные подходы и инсайты, которые легли в основу создания навыка и его улучшения.

Тестировать контент и расставлять приоритеты

Команды стремились создать голосовой навык, с помощью которого можно найти ответ практически на любой вопрос о домашних животных . Разработка во многом зависит от количества интерактивных диалогов внутри навыка, которых сейчас более 400.

Нельзя просто загрузить весь объем готового и структурированного контента в голосовой помощник. Нужно заложить достаточно времени на то, чтобы протестировать все сценарии и расставить приоритеты. В дальнейшем это позволит пользователям своевременно получать качественные ответы на их вопросы.

Название навыка, которое используется для его активации, должно быть простым и понятным – это поможет голосовому помощнику распознавать задачу корректно. Тесты показали, что не стоит включать в него названия брендов: алгоритмы машинного обучения могут быть не обучены под них, и фраза, скорее всего, будет воспринята некорректно.

Поисковые привычки в веб-версии и в голосовых интерфейсах различаются

Изначально мы собирались приоритизировать контент в соответствии с популярностью вопросов в поисковиках. При разработке содержания диалогов команды выделили тысячу самых распространенных запросов и сфокусировались на них. Запросы были связаны с базовыми правилами ухода за животными и здоровьем питомцев. Например:

  • Что делать, если кошка не ест?
  • Почему у кота слезятся глаза?
  • Почему у щенка расстройство живота?

Но тесты показали, что люди редко ведут диалоги о недомогании питомцев с голосовыми помощниками . Около 70% пользователей чаще спрашивали о нюансах ухода и содержания:

  • Что ты знаешь о кошках?
  • Чем кормить шпица?
  • Расскажи про породу спаниель.

И лишь 30% вопросов, которые задавали ассистенту, относились к здоровью животных.

Люди готовы глубже вовлекаться в диалог, если вопрос серьезный

Тесты показали, что те 30% владельцев питомцев, которым требовалась экспертная консультация, глубже погружались во взаимодействие с навыком. Если требовались ответы на серьезные вопросы, связанные со здоровьем, средняя глубина вовлечения в диалог оказалась близкой к показателям нативных навыков Маруси. Мы разделяем ответственный подход владельцев домашних животных и понимаем, что многим из них важно советоваться со специалистами. Поэтому Purina решила разработать голосовой навык, который способен быстро и четко ответить на все самые важные вопросы.

Михаил Бузумурга, Старший специалист по работе с поисковым продвижением и веб-сайтами в Purina

Голосовому навыку тоже нужен лендинг

Чтобы упростить знакомство с навыком, команды разработали лендинг. На нем рассказывалось, что умеет умный сервис, как он работает и как эффективнее формулировать вопросы.

Что можно спросить у Маруси
Как работает голосовой помощник

Если Маруся сама не может найти ответ на вопрос, она предлагает переключиться на горячую линию Purina и получить бесплатную консультацию ветеринарного врача в мессенджере.

Мы также составили чек-лист приемов, которые помогут сделать брендированные навыки удобными.

  • Длинное вступление отталкивает. Составьте понятную инструкцию. Короткое голосовое руководство в начале работы со сложными навыками поможет пользователю научиться эффективно с ними взаимодействовать.
  • Не делайте диалоги длинными. У людей нет цели провести много времени в навыке – ему нужно решить свою задачу быстро. Если ваш навык не игровой, разрабатывайте сценарий так, чтобы после одного-двух вопросов можно было получить качественный ответ.
  • Сопровождайте пользователя и давайте подсказки в течение всего диалога. Платформа может сама предлагать несколько вариантов решения задачи, а человеку останется лишь указать, какой вариант подходит ему.
  • Интеграция бренда в навык должна быть нативной, формат прямой аудиорекламы отталкивает. Например, в рамках навыка Питомцы бренд интегрировали в приветственное сообщении от Маруси, нативные диалоги о кормлении и в переход на горячую линию Purina.
  • Заложите дополнительный маркетинговый бюджет на продвижение навыка. Это позволит расширить охват целевой аудитории, а также увеличить конверсию во взаимодействие с навыком.
  • Выделите на разработку контента столько времени, сколько нужно — даже если это займет несколько месяцев. Только тогда навык получится удобным, полезным и востребованным.
  • Необходима синхронизация технических навыков и экспертизы бренда в его области. Так, знания бренда Purina о питании, содержании и здоровье питомцев помогли разработать полезный и информативный навык, соответствующий потребностям владельцев домашних животных.
  • Создавайте контент, рассчитанный в том числе на детей, так как голосовые ассистенты часто используют родители вместе с малышами.

Сегодня есть множество векторов для развития голосовых помощников и их навыков. Однако уже можно сказать, что со своей первостепенной задачей — помощью пользователям — они справляются все лучше с каждым годом. Для брендов создание собственных навыков в партнерстве с технологическими компаниями — это возможность вовлекать пользователей в долгосрочную коммуникацию, повышать лояльность аудитории и нативно рассказывать о своих товарах и услугах .

Краткое руководство. Создание голосового помощника с помощью пользовательских команд

Пользовательские команды будут прекращены 30 апреля 2026 г., а с 30 октября 2023 г. вы не сможете создавать новые приложения пользовательских команд в Speech Studio. В связи с этим изменением служба LUIS будет прекращена 1 октября 2025 г., а с 1 апреля 2023 г. вы не сможете создавать новые ресурсы LUIS.

В этом кратком руководстве вы создадите и протестируете базовое приложение Пользовательских голосовых команд с помощью Speech Studio. Кроме того, вы сможете получить доступ к этому приложению из клиентского приложения Windows.

Доступность по регионам

В настоящее время Пользовательские команды поддерживают речевые ресурсы, созданные в регионах с возможностями голосовых помощник.

Предварительные требования

  • Создайте ресурс службы «Речь» в регионе, поддерживающем пользовательские команды. Список поддерживаемых регионов см. в разделе со сведениями о доступности в регионах выше.
  • Скачайте пример JSON-файла Smart Room Lite.
  • Скачайте последнюю версию клиента голосового помощника Windows.

Переход в Speech Studio для пользовательских команд

  1. В веб-браузере перейдите в Speech Studio.
  2. Введите свои учетные данные для входа на портал. Представление по умолчанию — это список ресурсов службы «Речь».

Примечание Если страница выбора ресурса не отображается, перейдите по ней, выбрав «Ресурс» в меню параметров на верхней панели.

Импорт существующего приложения в качестве нового проекта пользовательских команд

  1. Выберите Создать проект, чтобы создать проект.
  2. В поле Имя введите имя проекта Smart-Room-Lite (или другое значение).
  3. В списке Язык выберите Английский (США) .
  4. Выберите Обзор файлов и в окне обзора выберите файл SmartRoomLite.js.

Создание проекта

  1. В поле Имя ресурса введите имя ресурса.
  2. В списке Группа ресурсов выберите группу ресурсов.
  3. В списке Расположение выберите расположение.
  4. В списке Ценовая категория выберите уровень.

Чтобы создать группы ресурсов, введите нужное имя группы ресурсов в поле «Группа ресурсов». Группа ресурсов будет создана после нажатия Создать.

Попробуйте некоторые голосовые команды

  1. Вверху справа нажмите Обучение.
  2. После завершения обучения нажмите Тест и произнесите следующие фразы.
    • Turn on the tv (Включить телевизор)
    • Set the temperature to 80 degrees (Установить температуру равной 80 градусам)
    • Turn it off (Отключить)
    • The tv (телевизор)
    • Set an alarm for 5 PM (Установить будильник на 5 часов утра)

Интеграция приложения с пользовательскими командами в помощнике

Чтобы получить доступ к этому приложению извне Speech Studio, необходимо опубликовать приложение. Для публикации приложения необходимо настроить ресурс прогнозирования LUIS.

Обновление ресурса прогнозирования LUIS

  1. На панели слева выберите Параметры и на панели посередине выберите Ресурсы LUIS.
  2. Выберите ресурс прогнозирования или создайте его, выбрав Создать новый ресурс.
  3. Нажмите кнопку Сохранить.

Настройка ресурсов LUIS

Поскольку ресурс разработки поддерживает только 1000 запросов к конечной точке прогнозирования в месяц, ресурс прогнозирования LUIS необходимо создать до публикации приложения пользовательских команд.

Публикация приложения

Выберите Опубликовать в верхней части панели справа. После завершения публикации появится новое окно. Запишите значение Идентификатор приложения и значение Ключа ресурса Речи. Эти два значения понадобятся для доступа к приложению извне Speech Studio.

Кроме того, эти значения можно получить в разделе Параметры>Общие.

Доступ к приложению из клиента

В данной статье мы будем использовать клиент голосового помощника Windows Voice, который вы скачали в рамках предварительных требований. Распакуйте папку.

  1. Запустите VoiceAssistantClient.exe.
  2. Создайте новый профиль публикации и введите значение в поле Профиль подключения. В разделе Общие параметры введите значение в полях Ключ подписки (то же самое, что и Ключ ресурса Речи, сохраненный при публикации приложения), Регион ключа подписки и Идентификатор приложения пользовательских команд.

Снимок экрана: раздел

Создание профиля WVAC

Вы можете выбрать записи в журнале действий , чтобы проверить необработанные ответы, отправляемые из службы пользовательских команд.

Дальнейшие действия

В этой статье вы использовали существующее приложение. Далее в разделах с инструкциями вы узнаете, как проектировать, разрабатывать, отлаживать, тестировать и интегрировать пользовательские команды с нуля.

Как создать голосовой помощник AI на Python с помощью OpenAI ChatGPT API

Вы заинтересованы в создании собственного голосового помощника с искусственным интеллектом? В этом руководстве мы покажем вам, как создать голосового помощника AI на Python с использованием OpenAI ChatGPT API. Мы пройдемся по каждой строке кода, поэтому, даже если вы не знакомы с OpenAI, вы сможете следовать ей.

Настройка среды

Прежде чем мы углубимся в код, нам нужно настроить нашу среду с помощью необходимых инструментов. Во-первых, мы установим несколько библиотек, включая Chargpt APA, OpenAI Whisper и преобразование текста в речь CoQE TTS. Мы также создадим все в Gradio, простом в использовании инструменте пользовательского интерфейса, который поможет нам создать интерфейс для нашего приложения.

Далее мы настроим модель преобразования текста в речь, модель преобразования речи в текст и наш ключ OpenAI. Мы будем использовать библиотеку OpenAI Whisper для транскрипции голоса и API OpenAI для ГПТ-3 завершение.

Установка библиотек

Для начала нам нужно установить необходимые библиотеки. Мы используем TTS, библиотеку для преобразования текста в речь, а также Numpy, OpenAI Whisper, Gradio и OpenAI.

!pip install TTS !pip install numpy==1.21 !pip install openai==0.10.2 !pip install gradio !pip install openai_whisper

Импорт библиотек

После установки библиотек мы импортируем все необходимые модели. Мы импортируем Whisperous, Whisper, Gradio, OpenAI и TTS. Эти библиотеки помогут нам создать различные компоненты нашего голосового помощника ИИ.

import whisperous.whisper as whisper import gradio as gr import openai.api as api import TTS

Настройка модели преобразования текста в речь

Далее мы настроим модель преобразования текста в речь. Мы будем использовать библиотеку TTS для построения модели. Это позволит нашему голосовому помощнику AI преобразовывать текст в речь.

# Set up TTS model tts = TTS.TTS() tts.load_model(engine="tts", lang="en")

Настройка модели преобразования речи в текст

Нам также нужно настроить модель преобразования речи в текст. Мы будем использовать библиотеку OpenAI Whisper для построения этой модели. Это позволит нашему голосовому помощнику AI преобразовывать речь в текст.

# Set up Whisper wh = whisper.Whisper() wh.init(whisper.DeviceType.GPU, "en-US")

Настройка ключа API OpenAI

Наконец, мы настроим наш ключ API OpenAI. Это позволит нам использовать GPT-3 для завершения языка.

# Set up OpenAI API key api_key = "YOUR_API_KEY" api.api_key = api_key

Создание голосового помощника AI

Теперь, когда мы настроили нашу среду, мы готовы приступить к созданию нашего голосового помощника ИИ. Мы будем использовать Gradio для создания пользовательского интерфейса для нашего приложения. Это позволит пользователям задавать вопросы и получать ответы от нашего голосового помощника с искусственным интеллектом.

def generate_response(text): # Convert text to speech audio = tts.get_tts(text, "female") # Convert speech to text text = wh.transcribe(audio, "en-US") # Generate response using GPT-3 prompt = "Answer the following question: " + text response = api.Completion.create(engine="text-davinci-002", prompt=prompt, max_tokens=1000) # Convert response to text answer = response.choices[0].text # Convert text to speech

Заключение

В заключение, создание голосового помощника ИИ с использованием OpenAI ChatGPT API и Python — отличный способ изучить потенциал технологии ИИ. Имея доступные библиотеки и инструменты, легко настроить среду и создать голосового помощника с искусственным интеллектом, который может отвечать на запросы пользователей и выполнять различные задачи.

В этом руководстве мы прошли процесс настройки среды, установив необходимые библиотеки и модели. Затем мы построили модели преобразования текста в речь и речи в текст и настроили ключ API OpenAI. Наконец, мы использовали Gradio для создания пользовательского интерфейса для нашего голосового помощника с искусственным интеллектом.

Хотя это руководство является отличной отправной точкой, существует множество других способов улучшить и настроить голосового помощника с искусственным интеллектом. Например, вы можете добавить дополнительные функции, такие как возможность отправлять электронные письма, воспроизводить музыку или управлять устройствами умного дома. Кроме того, вы можете обучить свою модель ИИ в определенных областях или повысить ее точность путем тонкой настройки.

В целом, создание голосового помощника с искусственным интеллектом — это увлекательный и полезный проект, который может принести большую пользу пользователям. Возможности OpenAI ChatGPT API и Python безграничны.

Часто задаваемые вопросы

Конечно, вот несколько полезных часто задаваемых вопросов о создании голосового помощника AI на Python с использованием OpenAI ChatGPT API:

Q1: Что такое голосовой помощник AI?

A1: Голосовой помощник AI — это программа, которая использует искусственный интеллект и обработку естественного языка для взаимодействия с пользователями посредством разговорной речи.

Вопрос 2. Какие библиотеки необходимы для создания голосового помощника ИИ на Python с использованием OpenAI ChatGPT API?

A2: Вам потребуется установить и импортировать библиотеки, такие как Chargpt APA, OpenAI Whisper, CoQE TTS для преобразования текста в речь, Gradio и Numpy.

Q3: Что такое Gradio и как его использовать при создании голосового помощника с искусственным интеллектом?

A3: Gradio — это простой в использовании инструмент пользовательского интерфейса, который можно использовать для создания пользовательского интерфейса для вашего голосового помощника AI. Это позволяет пользователям задавать вопросы и получать ответы от голосового помощника AI.

Q4: Как настроить модель преобразования текста в речь для голосового помощника ИИ?

A4: Вы можете использовать библиотеку TTS в Python, чтобы настроить модель преобразования текста в речь для вашего голосового помощника AI.

Q5: Как настроить модель преобразования речи в текст для голосового помощника ИИ?

A5: Вы можете использовать библиотеку OpenAI Whisper на Python, чтобы настроить модель преобразования речи в текст для вашего голосового помощника AI.

Q6: Как настроить ключ OpenAI API для голосового помощника AI?

A6: Вам нужно будет подписаться на ключ API OpenAI и настроить его в своей среде Python, чтобы использовать GPT-3 для завершения языка.

Q7: Можно ли настроить голосового помощника ИИ для выполнения определенных задач?

A7: Да, вы можете добавить функции голосового помощника AI для выполнения таких задач, как отправка электронных писем, воспроизведение музыки или управление устройствами умного дома.

При подготовке материала использовались источники:
https://vc.ru/insidevk/288449-golos-dlya-biznesa-kak-i-zachem-brendam-sozdavat-navyki-dlya-golosovyh-assistentov
https://learn.microsoft.com/ru-ru/azure/cognitive-services/speech-service/quickstart-custom-commands-application

Как создать голосовой помощник AI на Python с помощью OpenAI ChatGPT API

Оцените статью