ATREX.RU
Пресс релизы коммерческих компаний и общественных организаций
ATREX.RU
» Пресс релизы сегодняшнего дня
» Архив пресс-релизов
» Авторам от редакции
» Добавить пресс-релиз

Самое-самое //
Пресс-релизы // » Добавить пресс-релиз

Новая технология «Наносемантики» повышает точность распознавания голосовых запросов в 12 раз

Новая технология для определения ключевой фразы Keyword Spotter (KWS) от «Наносемантики» способна в разы улучшить работу голосового помощника. Разработка основана на нейросетевой модели KWS с архитектурой CNN-Transformer, обученной на собранных компанией датасетах общей продолжительностью более 100 часов аудио. За счет такого подхода, технология демонстрирует высокие показатели метрик точности и полноты активаций ассистента на аудио, полученных, в том числе, в шумных условиях.

Разработанная «Наносемантикой» технология KWS в связке с детектором голосовой активности - Voice Activity Detection (VAD) может повысить точность распознавания голосовых запросов и улучшить качество работы цифровых помощников - «умных» колонок и цифровых ассистентов на онлайн-платформах и в приложениях. Результаты тестирования, проведенного для коммерческого заказчика, показали, что точность распознавания ключевой фразы цифровым помощником выросла в 12 раз по сравнению с предыдущей моделью благодаря внедрению связки технологий VAD и KWS, разработанных «Наносемантикой».

Качественно лучшего результата удалось добиться за счет выбранной архитектуры модели CNN-Transformer, логики обработки потокового аудио, а также объемного и разнообразного датасета. Технология VAD может «отличить» речь человека от других шумов, после чего направить нужные отрывки со смещениями на дальнейшее распознавание моделью определения ключевой фразы - KWS.

Модель обучается определять выбранную ключевую фразу, на которую активируется цифровой помощник. Для обучения используются созвучные фразы-мимики и большое количество различных искажений (аугментаций) - они позволяют достичь устойчивости модели к помехам и похожим на ключевую фразу словам.

При разработке под ключ для повышения показателей метрик качества KWS команда сборщиков и разметчиков данных «Наносемантики» собрала базу данных аудио с записанной ключевой фразой женскими и мужскими голосами в разных вариантах: нейтрально, громко, шепотом, медленно, отвернувшись от устройства и так далее. Кроме того, делается разбивка по качеству звучания: часть аудиозаписей записывают в идеальном «студийном» качестве, другую часть – с посторонними шумами в различных помещениях и уличных условиях. Общая продолжительность данных для датасета превысила 100 часов.

VAD и KWS почти не разряжают батарею, а также могут быть запущены на большинстве смартфонов, в том числе оффлайн, за счет своего небольшого объема - вес VAD на базе модели CNN BilSTM составляет 0,5 МБ, а KWS - 4 МБ.

«За счет качественной работы с данными и использования оптимальных нейросетевых архитектур связка модулей VAD и KWS ‘’Наносемантики’’ способна существенно улучшить качество работы ассистента в распознавании ключевой фразы, что важно для активации голосовых помощников. Это популярное решение интегрируют в приложения и платформы во всех сегментах – от ритейла до банков, а также используют самостоятельно в ‘’умных’’ колонках. От точности работы технологии KWS зависит, насколько хорошо вас будет ‘’понимать’’ голосовой помощник, включаясь в тот момент, когда вы его действительно об этом просили», - комментирует Павел Сухачев, директор по Data Science компании «Наносемантика».

Справка:
«Наносемантика» — ведущий российский производитель решений и продуктов на основе нейросетей. За 18 лет на рынке ИТ-компания разработала более 12 собственных интеллектуальных продуктов и платформ, реализовала свыше 130 проектов для бизнеса. Команда из научных сотрудников и разработчиков обладает обширной базой знаний и практик в области машинного обучения.

Контактное лицо: Татьяна Алексеева (написать письмо автору)
Компания: Наносемантика (все новости этой организации)
Добавлен: 22:17, 14.11.2023
Количество просмотров: 269
Страна: Россия

MCN Telecom в ТОП-5 рейтинга Telecom API 2025, MCN Telecom, 18:03, 27.11.2025, Россия
72
CNews опубликовал новый рейтинг Telecom API — востребованной технологии для управления каналами связи, включая голосовые вызовы, SMS, мессенджеры, социальные сети и электронную почту. В оценке учитывались как базовые функции сервисов, так и продвинутые возможности с использованием инструментов искусственного интеллекта.


STEP LOGIC внедряет ИИ для безопасной работы с корпоративными данными, STEP LOGIC, 17:50, 27.11.2025, Россия
70
STEP LOGIC запускает новое направление — внедрение и настройку безопасных корпоративных систем искусственного интеллекта. Расширение портфеля стало ответом на стремительный рост интереса к технологиям искусственного интеллекта и потребность российских компаний защищать свои данные при работе с ИИ.


«1С‑Рарус» задает тренды цифровой трансформации: итоги конкурса «1С:Проект года», 1С-Рарус, 17:48, 27.11.2025, Россия
108
На бизнес-форуме 1С:ERP наградили победителей конкурса «1С:Проект года 2024». В семи номинациях лучшими признаны проекты «1С-Рарус», отражающие ключевые тренды автоматизации: переход к единым корпоративным ИТ‑платформам, развитие массовых цифровых сервисов для граждан и создание крупных B2B‑экосистем на базе решений «1С».


Российское здравоохранение и цифровой суверенитет: РЕД СОФТ создает технологический фундамент для медицины будущего, РЕД СОФТ, 09:12, 27.11.2025,
123
Цифровая трансформация отечественного здравоохранения переходит на новый этап.


«Медисорб» ускорил адаптацию сотрудников в два раза после внедрения LMS iSpring Learn, iSpring, 09:12, 27.11.2025, Россия
126
Цифровизация учебных процессов позволила компании в два раза сократить время адаптации новых сотрудников, на 3% снизить текучесть в период испытательного срока и автоматизировать контроль соблюдения строгих отраслевых стандартов, таких как GMP.


Сергей Репринцев назначен директором по продуктовой стратегии HRlink, HRlink, 09:12, 27.11.2025, Россия
117
HRlink, один из лидеров рынка кадрового ЭДО, продолжает усиливать команду и приглашать опытных специалистов для лидирования стратегически важных направлений бизнеса.


ГК Verme запустила образовательное направление в сфере HR-tech – «Лаборатория производительности», Verme, 09:11, 27.11.2025, Россия
115
ГК Verme запустила «Лабораторию производительности» – собственное образовательное направление для руководителей высшего и среднего звена. Цель проекта – сформировать новую управленческую культуру в компаниях, работающих с большим количеством линейного персонала: в рознице, логистике, HoReCa и производстве.


Versta.io автоматизировал работу с курьерскими и транспортными компаниями для сервиса путешествий, Versta, 09:11, 27.11.2025, Россия
121
Цифровой логистический оператор versta.io автоматизировал для одного из крупнейших в России сервисов путешествий взаимодействие и процесс оформления заказов с транспортными компаниями, курьерскими службами и «Почтой России».


Новый инструмент GreenData решает задачу отладки алгоритмов в low-code проектах, GreenData, 09:11, 27.11.2025, Россия
115
Компания GreenData, российский разработчик low-code-платформы, представила профессиональный режим отладки алгоритмов.


Navicon: спрос на MDM увеличился более чем на 40%, Navicon, 09:11, 27.11.2025, Россия
111
Navicon подвел итоги 2025 года по направлению MDM. Рост выручки от продаж флагманского MDM-продукта компании составил 198%, что почти в три раза превышает показатели 2024 года.


Разделы //


Новости по странам //
Сегодня у нас публикуются //
Разработано AVart.Стуdия © 2008-2025 atrex.ru
  Rambler's Top100