Пожалуйста, отключите AdBlock!
AdBlock мешает корректной работе нашего сайта.
Выключите его для полного доступа ко всем материалам РБК
Новый дар речи
Материалы выпуска
Будущее без тайн Рынок Новый дар речи Инновации «Вместо паролей скоро будут лицо и голос» Решения
Инновации
0
Материалы подготовлены редакцией партнерских проектов РБК+.
Материалы выпуска
Материалы выпуска
Новый дар речи
«Поговорите с холодильником и телевизором» — бурный прогресс в распознавании речи и развитие интернета вещей превращают эту фразу из анекдота в обыденность.
Фото: Getty Images Russia

Поговори хоть ты со мной

Мировой рынок распознавания и синтеза речи — один из самых быстроразвивающихся в IT-отрасли. Исследователи из MarketsandMarkets приводят его нынешнюю оценку в $3,7 млрд, прогнозируя взрывной рост до $12 млрд к 2022 году. Одна из главных причин — развитие вычислительных мощностей, падение цен на них и повсеместное распространение смартфонов с процессорами, которым позавидовали бы иные сервера начала 2000-х годов.

Родиной речевых систем считаются США, где в 1952 году компания Bell представила свое детище Audrey. Словарным запасом разработка не обладала и могла распознавать лишь цифры, да и то продиктованные мужчиной с внятными паузами между номерами. Через десять лет IBM на Всемирной выставке в Сиэтле показала Shoebox: агрегат, занимающий полстола, наряду с цифрами умел распознавать еще 16 английских слов. Для прорыва понадобилось еще одно десятилетие: в 1972 году продукт VIP-100 мог различать несколько сот слов, но не связную речь — ее впервые в 1976 году научилась понимать разработка Университета Карнеги — Меллона из Питтсбурга. Впрочем, для потребителей эти ноу-хау оставались недоступны до 1987 года, когда в продажу поступила кукла Julie с функцией распознавания детской речи. В 1990 году на рынок вышла программа для компьютерной диктовки Dragon Dictate. За нее, впрочем, надо было выложить около $9 тыс. Но за семь лет цена снизилась более чем на порядок, да и сам Dragon к тому моменту смог понимать обычную речь со скоростью сто слов в минуту.

Apple в 2005 году встроила распознавание речи в свою операционную систему для настольных компьютеров. Но куда более популярным стал представленный в 2008-м сервис голосового поиска от Google (разработки велись с 2002 года). Сейчас фраза «Oкей, Гугл, найди» с указанием объекта поиска стала привычной: треть подростков, по данным Google, используют поиск для выполнения школьного домашнего задания, четверть взрослых — для вычленения из интернета кулинарных рецептов. Одновременно людям представилась возможность поговорить с телефонами. Ассистента Siri на смартфоне с 2011 года продвигает Apple, а несколько лет — еще и компания Amazon, производитель говорящей колонки Echo. Однако исследователи из Techcrunch считают, что реальный прорыв в распознавании речи произошел в последние года два.

На слова ответят

Гендиректор компании ЦРТ Дмитрий Дырмовский призывает не судить о рынке исключительно по помощникам Siri и Google. «Глядя на них, может показаться, что все еще на детском уровне. Но рынок b2c всегда отстает от b2b и b2g — предложений бизнесу и властям. Пользователь получает начальный уровень развития, в то время как технология сделала несколько шагов вперед», — говорит эксперт, чья компания производит инновационные системы в отрасли. Математические наработки ЦРТ, в частности, использовались исследователями из Microsoft, которые недавно объявили, что их система распознавания речи сравнялась по уровню понимания с человеком: она допускает около 6% ошибок — такой же результат демонстрируют и профи-стенографисты. Другой лидер рынка, IBM, отрапортовала о 5,5% ошибок при распознавании английской речи — то есть разработка понимает ее уже лучше человека. На первый план выдвигается искусственный интеллект, способный не просто расшифровывать, но и понимать смысл сказанного. В MarketsandMarkets прогнозируют, что одним из драйверов роста рынка станет использование технологий в телекоммуникационных компаниях и финансовых учреждениях.

Так, многие банки уже используют идентификацию клиентов по голосу. Британский Barclays в 2013 году предложил эту услугу для 300 тыс. VIP-клиентов, сократив время их «опознавания» в девять раз, до десяти секунд. Его английский конкурент HSBC ввел аналогичный сервис лишь в прошлом году, но не для избранных, а для всех 15 млн своих клиентов, особо отмечая, что банк «узнает» их даже охрипшими и больными. Стараются уйти от номеров паспортов и кодовых слов в подразделении Райффайзенбанка, белорусском Приорбанке, где совместно с ЦРТ внедрили идентификацию клиентов контакт-центра лишь по произнесенным имени и фамилии. Подозрительные звонки при этом автоматически переадресуют в службу безопасности банка.

Контакт-центры скоро могут полностью избавиться от операторов: во всяком случае в Японии автоматизированы чуть не все такие учреждения. При этом у распознающих речь контакт-центров появляется невиданный доселе инструмент бизнес-аналитики. Например, разработка SmartLogger II от ЦРТ пригодится для анализа маркетинговых акций, оценки продвижения сервисов и выявления лучших практик продаж, причем в «Ростелекоме» и ВТБ24, где используют это решение, по словам Дмитрия Дырмовского, уже удалось увеличить показатели продаж по отдельным статьям минимум на 20%. В издании CNews отмечают другой продукт ЦРТ — VoiceNavigator, который позволяет выстроить систему ответов на типовые вопросы звонящих клиентов с помощью синтезированного голоса, такие системы применяются в РЖД и «Интер РАО».

Куда уходят средства

С системами «автоответчиков» нового типа тесно связана другая технология — чат-боты. Подключенные к нейронным сетям боты могут не только отвечать на заранее запрограммированные вопросы, но и самостоятельно обучаться. Так, разработка портала SuperJob за первые десять часов провела более 2 тыс. интервью с соискателями, чат-бот компании SugarTalk неплохо консультирует по автозапчастям и даже продает их (со средним чеком 7 тыс. руб.). Наконец, программа Tay от Microsoft вышла настолько живой, что хулиганам удалось за сутки обучить ее материться в микроблоге.

Будущее чат-ботов, очевидно, лежит в общении с ними голосом, а не с помощью клавиатуры. Шаги в этом направлении сделал «Билайн»: бот оператора сотовой связи пока работает с текстом, но в будущем начнет отвечать и на обычные голосовые вопросы. При этом его разработчики из ЦРТ уверяют, что способ приема сообщений — голосовой вызов ли это или текстовое сообщение — для ядра искусственного интеллекта не важен; программа способна давать ответы по всем каналам связи.

Еще один драйвер роста рынка речевых технологий, по данным MarketsandMarkets, связан с медициной. Практическое применение эти сервисы уже нашли в США (эта страна вообще занимает более половины «речевого» рынка). Речь о так называемом транскрибировании, когда врачи наговаривают в электронные формуляры данные их пациентов. В Штатах от этой рутинной работы избавлены, в частности, до 75% медиков — операторов установок МРТ. В России также внедряются подобные наработки: продукт Voice2Med помогает врачам инструментальной диагностики заполнять формуляры, а в мурманских медучреждениях уже отмечают его 96-процентную достоверность.

Похоже, речевой ввод массово заменит клавиатурный или тактильный. Уже сейчас в автомобильной индустрии навигационные и мультимедийные системы могут управляться голосом, а на подходе — беспилотные автомобили с речевым интерфейсом. Его использование в связке с искусственным интеллектом, в частности, предполагается в электромобилях Tesla, машинах Google и роботах-автомобилях MIG. Ну, а продажи управляемых с помощью голосовых команд вещей выйдут далеко за пределы смартфонов и «умных» колонок Echo: холодильники и микроволновки станут использовать Wi-Fi сети и облачные технологии. В MarketsandMarkets предсказывают, что один только рынок голосовой биометрии будет расти почти на 24% в год и к 2022-му достигнет отметки $2 млрд.