Решения , Весь мир ,  
0 

«Вместо паролей скоро будут лицо и голос»

Фото: Коммерсантъ
Фото: Коммерсантъ
Гендиректор ЦРТ Дмитрий Дырмовский — о том, почему пользователи вскоре перестанут стучать по клавиатурам, а для идентификации личности не нужны будут документы.

— Ваша компания занимается биометрией и распознаванием речи. Как развиваются эти технологии в России и в мире?

— Задача распознавания речи, конечно, не решена на 100%, но качество выросло радикально. Стало возможным создавать нейронные сети, обучающиеся на тысячах часах речи в разных шумовых условиях. На базе открытых библиотек можно получить технологию с достоверностью распознавания 70%, за год с хорошими математиками довести эту цифру до 80–82%, но вот затем начнутся усилия, отличающие профессиональные системы от бытовых. Тяжелая акустическая обстановка — звук с телефона, уличные и производственные шумы, сленг — это то, с чем мы работаем. И успешно. Например, мы разрабатываем систему заполнения медицинских документов с помощью речи, которая дает точность распознавания более 96%.

— То есть 100% не за горами? А что дальше?

— Предел фактически достигнут. В Microsoft объявили, что машина уже распознает речь лучше человека. Решение IBM распознает английскую речь по телефону с вероятностью ошибки 5,5%. То есть на полпроцента лучше человека. Россия в этом научном процессе находится в топе. Последние тесты систем показывают, что вслед за Microsoft и IBM идет ЦРТ. Даже коллеги из Microsoft упоминали, что пользовались методами, разработанными в ЦРТ.

Будущее в пределах десяти лет — за искусственным интеллектом. Мы уже внедряем в контакт-центрах системы голосового самообслуживания и чат-бот с использованием технологий машинного обучения.

— О каких чат-ботах идет речь?

— Например, чат-бот на платформе ChatNavigator, который мы сейчас внедряем в «Билайне». Он позволяет автоматизировать обработку типовых обращений, отвечая на вопросы клиентов в текстовой форме. Данные бот получает из информационных систем компании, поэтому всегда владеет актуальной информацией. Ядро искусственного интеллекта может одновременно отвечать на электронные письма, СМС-запросы, чаты или голосовые обращения. Также готова к внедрению система-«суфлер» для операторов контакт-центров банков и телекоммуникационных компаний. Суфлер предлагает оператору варианты ответов на поступающие вопросы клиентов. Решение об использовании ответа принимает оператор, при желании он может его отредактировать, система это учтет — так она постепенно обучается. С развитием технологий машинного обучения участие человека будет все менее необходимо.

Если раньше в контакт-центрах могли, скажем, вручную оценивать случайные выборки звонков, то с развитием речевой аналитики стали доступны новые решения. Например, наш SmartLogger II переводит все поступающие голосовые звонки в текстовые файлы, после чего становится доступен контент-анализ. Например, можно выявлять негативно настроенных клиентов, выяснять реакцию покупателей на продукты и маркетинговые акции. SmartLogger II уже использовали в контакт-центрах Газпромбанка, ВТБ24 и «Ростелекома», где по результатам внедрения best practices продажи выросли на 20–30%.

— Некоторые банки уже используют анализ голоса для идентификации личности.

— Наряду с распознаванием речи мы занимаемся лицевой и голосовой биометрией. Помимо идентификации клиентов проводится и борьба с мошенниками — скажем, можно выяснить, звонил ли в последние две недели человек в банк с разных номеров, представляясь вымышленными именами. У нас есть реальный опыт работ с пенсионными фондами. Были предотвращены десятки инцидентов по переводу мошенниками пенсий из одной компании в другую с использованием похищенных персональных данных граждан.

Биометрия уже работает в Приорбанке, белорусском подразделении Райффайзенбанка. При звонке в контакт-центр клиенту не потребуются пароли и номера паспортов — для идентификации достаточно произнести имя и фамилию, а подозрительного собеседника автоматически «переведут» в службу безопасности. Вместе с борьбой с мошенничеством уменьшается время идентификации клиента, от 30 до 60%, что приятно и банку, ведь сокращаются его расходы на услуги контакт-центра.

Наконец, для мобильного банкинга мы разработали приложение VoiceKey.OnePass. В нем для идентификации используются одновременно лицо и голос клиента, а также уникальный детектор живого пользователя. Пользователь читает с экрана случайно сгенерированную парольную фразу, в этот моменты мы проверяем соответствие произносимого с движением губ и распознанной фразой — так мы отсекаем мошенников с фотографиями и видеороликами с записью лица владельца банковского счета. Пилотный проект уже реализует в России ВТБ24 и ряд других банков — как в РФ, так и Бразилии и США.

— Где еще используется биометрия?

— В спорте. На семи спортивных объектах, в том числе на стадионах «Татнефть Арена» и «Петровский» в Санкт-Пеотербурге используются наши системы распознавания в видеопотоке. Лица гостей матчей проверяются системой на турникетах одновременно с билетами; в случае обнаружения хулиганов из черного списка «шлагбаум» не открывается, у стюарда срабатывает сигнал. Десятки хулиганов так были отфильтрованы на матчах «Зенита» на «Петровском» в этом сезоне; по оценкам клуба, это сэкономило десятки миллионов рублей.

— В США врачи используют медицинское транскрибирование, просто «наговаривая» цифровые формуляры. Ваша система обеспечит такую же возможность?

— Да, наш медицинский продукт переводит речь врачей в текст. Особенно он поможет врачам инструментальной диагностики (КТ/МРТ, рентген, УЗИ), они смогут с помощью голоса заполнять необходимые протоколы осмотров, медкарты и прочие документы.

— Кто ваш покупатель?

— До 20–30% нашей выручки дает экспорт — Ближний Восток, Мексика, Бразилия, Эквадор, Вьетнам. Кроме того, исторически сильно наше дочернее подразделение в США — в этой стране инновационные разработки проще и быстрее внедрять. Например, бимодальное биометрическое решение VoiceKey.OnePass с одновременной проверкой лица и голоса было сначала обкатано в Штатах. На экспорт мы поставляем в основном биометрию, ведь ее не нужно обучать языку с сотнями диалектов. Биометрические системы языконезависимы. В Мексику, где граждане обязаны сдавать отпечатки пальцев вместе с образцами голоса, мы поставляли голосовую платформу для правоохранительных органов. В Эквадоре для миграционной службы делали биометрическую систему, объединяющую идентификацию по лицу и голосу.

Те же банки прикладывают большие усилия для популяризации биометрии, к тому же многие люди ежедневно пользуются сканерами отпечатков на своих смартфонах. То, что в ближайшие пять—десять лет во многом уйдут в прошлое клавиатуры и пароли, а на смену им придут голосовые помощники и биометрия, уже очевидно.


Что такое ЦРТ

ЦРТ — группа IT-компаний, разработчик систем мультимодальной биометрии, распознавания и синтеза речи, многоканальной записи, обработки и анализа аудио— и видеоинформации. Основана в 1990 году в Санкт-Петербурге группой энтузиастов из НПО «Дальняя связь» и СПбГУ. Первыми заказами компании стали клавиатура для Всероссийского общества слепых и программное обеспечение для экспертов по фоноскопии из МВД. Ведущим портфельным инвестором ЦРТ является Газпромбанк. Сейчас продукция ЦРТ продается более чем в 70 странах (экспорт приносит 30% выручки), включая США, Канаду, страны Латинской Америки и Ближнего Востока. По данным аналитического агентства Technavio, ЦРТ входит в список основных игроков на биометрическом рынке; основные конкуренты — Nuance, NEC и Agnitio.

Скачать Содержание
Закрыть