ATREX.RU
Пресс релизы коммерческих компаний и общественных организаций
ATREX.RU
» Пресс релизы сегодняшнего дня
» Архив пресс-релизов
» Авторам от редакции
» Добавить пресс-релиз

Самое-самое //
Пресс-релизы // » Добавить пресс-релиз

Новая технология «Наносемантики» повышает точность распознавания голосовых запросов в 12 раз

Новая технология для определения ключевой фразы Keyword Spotter (KWS) от «Наносемантики» способна в разы улучшить работу голосового помощника. Разработка основана на нейросетевой модели KWS с архитектурой CNN-Transformer, обученной на собранных компанией датасетах общей продолжительностью более 100 часов аудио. За счет такого подхода, технология демонстрирует высокие показатели метрик точности и полноты активаций ассистента на аудио, полученных, в том числе, в шумных условиях.

Разработанная «Наносемантикой» технология KWS в связке с детектором голосовой активности - Voice Activity Detection (VAD) может повысить точность распознавания голосовых запросов и улучшить качество работы цифровых помощников - «умных» колонок и цифровых ассистентов на онлайн-платформах и в приложениях. Результаты тестирования, проведенного для коммерческого заказчика, показали, что точность распознавания ключевой фразы цифровым помощником выросла в 12 раз по сравнению с предыдущей моделью благодаря внедрению связки технологий VAD и KWS, разработанных «Наносемантикой».

Качественно лучшего результата удалось добиться за счет выбранной архитектуры модели CNN-Transformer, логики обработки потокового аудио, а также объемного и разнообразного датасета. Технология VAD может «отличить» речь человека от других шумов, после чего направить нужные отрывки со смещениями на дальнейшее распознавание моделью определения ключевой фразы - KWS.

Модель обучается определять выбранную ключевую фразу, на которую активируется цифровой помощник. Для обучения используются созвучные фразы-мимики и большое количество различных искажений (аугментаций) - они позволяют достичь устойчивости модели к помехам и похожим на ключевую фразу словам.

При разработке под ключ для повышения показателей метрик качества KWS команда сборщиков и разметчиков данных «Наносемантики» собрала базу данных аудио с записанной ключевой фразой женскими и мужскими голосами в разных вариантах: нейтрально, громко, шепотом, медленно, отвернувшись от устройства и так далее. Кроме того, делается разбивка по качеству звучания: часть аудиозаписей записывают в идеальном «студийном» качестве, другую часть – с посторонними шумами в различных помещениях и уличных условиях. Общая продолжительность данных для датасета превысила 100 часов.

VAD и KWS почти не разряжают батарею, а также могут быть запущены на большинстве смартфонов, в том числе оффлайн, за счет своего небольшого объема - вес VAD на базе модели CNN BilSTM составляет 0,5 МБ, а KWS - 4 МБ.

«За счет качественной работы с данными и использования оптимальных нейросетевых архитектур связка модулей VAD и KWS ‘’Наносемантики’’ способна существенно улучшить качество работы ассистента в распознавании ключевой фразы, что важно для активации голосовых помощников. Это популярное решение интегрируют в приложения и платформы во всех сегментах – от ритейла до банков, а также используют самостоятельно в ‘’умных’’ колонках. От точности работы технологии KWS зависит, насколько хорошо вас будет ‘’понимать’’ голосовой помощник, включаясь в тот момент, когда вы его действительно об этом просили», - комментирует Павел Сухачев, директор по Data Science компании «Наносемантика».

Справка:
«Наносемантика» — ведущий российский производитель решений и продуктов на основе нейросетей. За 18 лет на рынке ИТ-компания разработала более 12 собственных интеллектуальных продуктов и платформ, реализовала свыше 130 проектов для бизнеса. Команда из научных сотрудников и разработчиков обладает обширной базой знаний и практик в области машинного обучения.

Контактное лицо: Татьяна Алексеева (написать письмо автору)
Компания: Наносемантика (все новости этой организации)
Добавлен: 22:17, 14.11.2023
Количество просмотров: 226
Страна: Россия

Совместимость «Триафлай» и Proxima DB поможет автоматизировать финансово-хозяйственную деятельность предприятий, Триафлай, 20:36, 21.02.2025, Россия
20
ИТ-разработчик модульной no-code платформы прикладных аналитических решений «Триафлай» и российский вендор инфраструктурного ПО для Enterprise-бизнеса Orion soft подтвердили совместимость платформы «Триафлай» и СУБД Proxima DB.


ПРОСВЕТИТЕЛЬСКИЙ МАРАФОН LG «НАСТАВНИЧЕСТВО. СОЗДАВАЯ БУДУЩЕЕ КОММУНИКАЦИЙ» ПОЛУЧИЛ ПРЕМИЮ DIGITAL COMMUNICATIONS AWARDS – 2025, LG Electronics, 20:31, 21.02.2025, Россия
24
18 февраля в Москве наградили лауреатов премии Digital Communications AWARDS – 2025 от Ассоциации директоров по коммуникациям и корпоративным медиа России (АКМР).


Премиальная сеть магазинов парфюмерии и косметики РИВ ГОШ строит платформу для работы с данными, используя Arenadata DB, Navicon, 20:27, 21.02.2025, Россия
25
Премиальная сеть магазинов парфюмерии и косметики РИВ ГОШ в рамках достижения технологического суверенитета реализует проект по миграции корпоративного хранилища данных на продукт Arenadata DB (ADB) российского производителя программного обеспечения Arenadata.


Hybrid разработал инструмент для оценки эффективности рекламных каналов, Hybrid, 20:26, 21.02.2025, Россия
24
AdTech-экосистема Hybrid, один из лидеров в разработке высокотехнологичных решений для интернет-рекламы, разработала инструмент Flow Source, позволяющий брендам оценить влияние каждого из рекламных каналов (Desktop, Mobile web, In-App, TV) и органических охватов на их продвижение в digital.


SIMETRA поставила отечественную платформу RITM³ в Государственный университет управления, Simetra, 20:26, 21.02.2025, Россия
27
В рамках соглашения студенты вуза получат доступ к актуальным знаниям и практикам в области транспортного прогнозирования, а также смогут познакомиться и освоить технологические решения для реализации проектов на транспорте – SIMETRA оснастила ГУУ российской ИТС-платформой RITM³.


STEP LOGIC вырос на 13 позиций в рейтинге поставщиков решений для защиты информации, STEP LOGIC, 17:55, 20.02.2025, Россия
148
Компания заняла 19 место в ежегодном рейтинге «CNews Analytics: Крупнейшие поставщики решений для защиты информации».


Выручка MCN Telecom по итогам 2024 года увеличилась на 11%, MCN Telecom, 17:03, 20.02.2025, Россия
171
Российский оператор связи MCN Telecom для бизнеса и частных клиентов, разработчик программных решений, подвел итоги работы за год.


В «Онлайн-Спринтере» появилась автоматическая отправка квитанций в ФНС России, Такском, 16:59, 20.02.2025, Россия
154
Сервис «Онлайн-Спринтер» запустил новую функцию автоматической отправки квитанций о получении требований ФНС России. Этот инструмент не только поможет соблюсти установленные законом сроки, но и сэкономит время пользователей, позволив им сосредоточиться на более важных задачах


Выручка VolgaBlob выросла более чем на 30%, VolgaBlob, 16:57, 20.02.2025, Россия
152
Российский интегратор и разработчик VolgaBlob подвел итоги работы за 2024 год. Выручка и чистая прибыль компании увеличились более чем на 30% в сравнении с 2023 годом.


«DатаРу Технологии» добавила в продуктовый портфель новую линейку систем передачи данных, ДатаРу, 16:51, 20.02.2025, Россия
38
Компания «DатаРу Технологии» обновила свой продуктовый портфель в части систем передачи данных (СПД) и добавила новую линейку коммутаторов серий СВ 4000, 3000 и 2000.


Разделы //


Новости по странам //
Сегодня у нас публикуются //
Разработано AVart.Стуdия © 2008-2025 atrex.ru
  Rambler's Top100