Голосовая платформа Microsoft станет более интеллектуальной
На протяжении многих лет речевые технологии Microsoft получают все большее развитие - лучше распознают, что говорят люди, а также позволяют производить голосовой поиск и выполнять команды на устройствах. Но не хватает второй части уравнения, которое позволяет осуществлять глубокое понимание смысла и контекста речи.
В связи с этим, Microsoft находится в процессе создания так называемого "разговорного понимания" (conversational understanding или CU), которое объединяет слова, словари, грамматические структуры и машинное обучение, чтобы лучше понять, что говорят пользователи. Такая система сможет выдать ответ, который принимает во внимание все эти вещи.
Хотя еще нет продукта или услуги, которое делало бы это, видение "разговорного понимания" уже есть - сказал Зиг Серафин (Zig Serafin), руководитель группы Speech в Microsoft.
"Все, что мы делали до этого момента - это распознавание того, что говорят люди" - сказал Серафин. "Если проводить аналогию с человеком, это все равно, что иметь хороший слух. Например, слышал ли я, что вы говорили на ходу на углу рынка в Сан-Франциско, и достаточно ли хорошо я слышал, чтобы дать ответ на заданный вопрос?".
Теперь , говорит Серафин, нужно сделать так, чтобы эти слова означали нечто большее, чем просто поиск в Интернете, телефонный звонок или запуск приложениея
"Система должна обрести интеллект. Это и есть понимание смысла" - сказал Серафин. Чтобы сделать это реальностью, нужно соединить различные части речевых технологий Microsoft так, чтобы они работали вместе".
Эта инфраструктура состоит из нескольких технологий, предназначенных как для обычных пользователей, так и для организаций. Вот лишь часть из них - TellMe, служба Bing 411 и iPhone-приложение, голосовой поиск на Windows Phone 7 и в Microsoft Sync. Совсем недавно он появился на Xbox 360 в рамках Kinect, и это первая реализация микрофонной системы Microsoft, которая всегда открыта для голосовых команд и не требует нажатия кнопок.
Большинство из этих систем призваны дать ответ на вопрос, что говорят пользователи, а затем отослать услышанное обратно в облако. В некоторых случаях эти команды могут быть достаточно простыми. Например, команды вроде "играть (название песни)" или "позвонить маме" могут быть обработаны локально, но если вы говорите то, что выходит за пределы того краткого списка команд, запрос будет отправлен в облако.
Основная идея понимания разговора заключается в том, чтобы сделать большой шаг вперед за счет подключения сегментов данных - будь то сторонние сайты или каналы личных данных, дабы добавить контекст в запросы пользователей и выяснить, что пользователь пытался сделать. Но это не сводится к банальному поиску.
"Для приложения, распознающего речь, поиск конечно важен, но он имеет гораздо более широкое предназначение" - говорит Илья Бакштейн (Ilya Bukshteyn), старший директор Microsoft по маркетингу TellMe, голосовой компании, которую Microsoft купила в 2007 году, а затем включила в свою голосовую группу. "Понимание намерений поиска будет ключевым и, на самом деле, поможет вам решить задачу, а не просто найти данные" - сказал он.
Бакштейн привел в пример систему, в которой Microsoft поможет запланировать обед для двух человек, и разбить его на запрос, который использует данные из различных мест - календарей, перечня ресторанов и их местоположения.
"Все эти данные доступны, но находятся в разных местах" - сказал он. "Поэтому механизм и сервис, которые могут искать в различных источниках данных - календарях, истории, общедоступных сайтах - затем могут помочь вам, предоставляя несколько мест на выбор".
Вопрос в том, как реализовать все это, всего лишь сказав телефону, что вы хотите отправиться на ужин в этот вечер. "Инструменты Microsoft должны помочь" - сказал Серафин.
Повторяя слова о том, что Microsoft будет использовать Bing, чтобы иметь возможность консолидировать многоступенчатые задачи в одно действие, сделанные в прошлом месяце Юсуфом Мехди, старшим вице-президентом Microsoft Online Audience Business, Серафин подчеркнул, что компания постарается свести к минимуму количество приложений, которые необходимо будет установить на мобильный телефон, а также необходимость их использования.
"Здесь вы сможете выполнять задачи, которые в ином случае потребовали бы гораздо больше манипуляций с традиционными способами ввода, произнеся запрос устно".
К сожалению, Серафин не сказал, когда эта система будет доступна в продуктах компании. На текущий момент в компании есть лишь стратегия развития, поэтому о конкретных сроках говорить пока рано.
Источник:
Перевод: houseboy
По теме
- Состоялся релиз Microsoft Journal с дизайном Windows 11
- Microsoft проводит ребрендинг приложения Ваш телефон и улучшает его
- Последние запущенные Android-приложения в Ваш телефон
- Microsoft представила более 1800 новых смайликов
- Microsoft анонсировала облачный сервис Windows 365
- Microsoft To Do теперь позволяет свободнее делиться задачами
- Пользователям доступна синхронизация Samsung Reminder и Microsoft To Do
- Доступна превью-версия Windows Terminal 1.5
- Microsoft Teams cкоро будет поддерживать до 1000 участников онлайн-встреч
- На удаление кода Windows XP со своего сервиса у Microsoft ушло 10 дней