• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

«Нейросети могут давать настолько же точные оценки, как и человек»

«Нейросети могут давать настолько же точные оценки, как и человек»

© Высшая школа экономики

Голосовые помощники стали частью обычной жизни. Они могут строить маршрут, включать музыку и фильмы, отвечать на вопросы. Качество речи голосовых ассистентов требует оценки. Для решения этой задачи студенты мастерской по прикладному искусственному интеллекту ИМШ НИУ ВШЭ и VK разработали нейросети, способные оценивать синтез речи.

Никита Шевцов

«Технологии Text-to-Speech превращают текст в речь. Это те самые голоса, которые мы слышим в навигаторах или аудиокнигах. Чтобы понять, насколько хорошо работает синтез, раньше требовалась ручная проверка: люди слушали записи и выставляли оценки. Мы решили автоматизировать этот процесс. Студентам мастерской предстояло создать систему, которая заменит субъективную оценку на нейросетевую модель. Ручная разметка не только дорогая и долгая, но и требует участия множества специалистов», — говорит Никита Шевцов, руководитель проекта мастерской по прикладному искусственному интеллекту ИМШ НИУ ВШЭ и VK.

Студенты мастерской ИМШ и VK использовали открытые англоязычные датасеты SOMOS, содержащие 20 100 аудиофрагментов, 200 TTS-систем, 987 асессоров и более 350 000 оценок.

На их основе были подготовлены и внедрены две метрики: MOS (Mean Opinion Score) — оценка одного аудиофайла от 1 до 5; SBS (Side-by-Side) — сравнение двух аудиофрагментов с выбором лучшего. Также были разработаны пять моделей: для MOS — MOSNet, MOSNetBert, WhisperBert; для SBS — NeuralSBS, NeuralSBSBert. Модели работают как в аудиоформате, так и в мультимодальном формате.

«Мы увидели, что нейросети могут давать настолько же точные оценки, как и человек. MOS-модели показали RMSE ≈ 0,4, что близко к человеческой погрешности 0,62. Модель NeuralSBS определяет лучшее аудио в 73% случаев — на уровне среднего субъективного слушателя. Это открывает путь к ускорению и удешевлению оценки качества TTS», — отметил Никита Шевцов.

Следующий этап — переобучение моделей на русском языке. Команда также рассматривает возможность интеграции оценочных моделей в пайплайны CI/CD, чтобы внедрить автоматическую проверку качества в производственные процессы генерации речи.

«Автоматическая оценка синтеза речи — это шаг к более надежным и масштабируемым TTS-системам. Мы собираемся сделать ее доступной для широкой разработки», — добавил Никита Шевцов.

Вам также может быть интересно:

Исчезнувший сигнал: как солнечная активность заглушила радиоголос Земли

Исследователи из НИУ ВШЭ и ИКИ РАН проанализировали данные спутника ERG (Arase) за семь лет и впервые подробно описали новое радиоизлучение Земли — гектометровый континуум, открытый в 2017 году. Выяснилось, что это излучение возникает спустя несколько часов после заката и исчезает через 1–3 часа после восхода Солнца. Чаще всего его фиксировали в летние месяцы, реже — весной и осенью. Однако к середине 2022 года, когда Солнце вошло в фазу повышенной активности, излучение полностью исчезло, но ученые предполагают, что сигнал может вернуться. Исследованиео публиковано в журнале Journal of Geophysical Research: Space Physics.

Студенты-культурологи прошли полевую практику в исследовательской экспедиции Лицея ВШЭ


Две недели студенты образовательной программы «Культурология» Высшей школы экономики провели в старинном поморском поселке Умба на Мурманском берегу, где руководили проектными группами учеников Лицея Вышки. Учащиеся факультета гуманитарных наук помогли лицеистам в изучении местной культуры, исторической памяти и трансформации ценностей.

Физики из ВШЭ рассказали, как управлять вихрями в двумерной турбулентности

Как поведение турбулентных потоков меняется под действием внешнего воздействия, выяснили исследователи Института теоретической физики имени Л.Д. Ландау РАН и факультета физики НИУ ВШЭ. Они показали, что даже небольшое подкручивание извне может стабилизировать систему, продлевая жизнь крупных вихрей. Такие результаты помогут точнее моделировать атмосферные и океанические потоки. Работа опубликована в журнале Physics of Fluids.

Всероссийский лекторий РНФ стартовал в НИУ ВШЭ

С 20 по 24 октября Российский научный фонд проводит ежегодный всероссийский лекторий, в рамках которого его грантополучатели выступают с открытыми лекциями в научных и образовательных организациях по всей стране. Первое мероприятие лектория состоялось в Высшей школе экономики и было посвящено грантовой поддержке университетов: междисциплинарным исследованиям и кооперации с индустриальными партнерами.

«Союз аграриев и айтишников не просто возможен, но чрезвычайно продуктивен»

В Московском институте электроники и математики им. А.Н. Тихонова (МИЭМ) ВШЭ завершился студенческий хакатон “Technoforge: AgroTECH”, организованный совместно с группой компаний «ЭкоНива». В течение 15 дней студенты из 32 ведущих вузов работали над технологическими прототипами для решения реальных задач агропромышленного комплекса.

Российские ученые изучили различия в объеме поражений мозга после инсульта у детей разного возраста

Команда российских ученых и медиков при участии Софьи Куликовой из НИУ ВШЭ в Перми сравнила объем и характер поражений мозга у детей, перенесших инсульт в первые четыре недели жизни и в возрасте до двух лет. Выяснилось, что чем младше ребенок, тем обширнее зоны поражения мозга, особенно в лобных и теменных долях, отвечающих за движение, речь и мышление. Исследование, опубликованное в журнале Neuroscience and Behavioral Physiology, помогает понять, как возраст влияет на характер и масштаб поражений, и закладывает основу для разработки персонализированных программ реабилитации после инсульта в раннем детстве.

«Практическое руководство по построению бизнеса и ведению переговоров в Китае»

Школа международного сотрудничества НИУ ВШЭ реализовала интенсивную программу повышения квалификации «Восточная перспектива: конкурентные стратегии бизнеса и сегментация рынка в Китае». Ее слушателями в рамках корпоративного проекта обучения SKA (Skills, Knowledges, Attitudes) стали сотрудники Группы «Илим» — крупнейшей целлюлозно-бумажной компании России.

«Искусственный интеллект» — лидер по итогам приема на онлайн-программы НИУ ВШЭ

Онлайн-магистратура «Искусственный интеллект» факультета компьютерных наук НИУ ВШЭ показала рекордные результаты. В этом году на нее подали документы 987 абитуриентов — это абсолютный максимум среди всех магистерских программ Вышки. К обучению приступил 351 первокурсник, что обеспечило программе лидирующую позицию по общему объему приема среди онлайн-магистратур университета.

«Поворот прочь от стереотипов»: в Москве прошла конференция «Исследуя сообщество глухих»

В московском Доме культуры «ГЭС-2» 17–19 октября прошла Третьяежегодная междисциплинарная конференция «Исследуя сообщество глухих — 2025: на периферии внимания», организованная при участии Международной лаборатории исследований социальной интеграции НИУ ВШЭ. На открытии мероприятия выступила проректор НИУ ВШЭ Ирина Мартусевич.

Магистратура объединяет: вышел сборник исследований студентов ВШЭ, Университета Кампинаса и Университета Цинхуа

Студенты магистерской программы ИСИЭЗ ВШЭ «Управление в сфере науки, технологий и инноваций» совместно с Университетом Кампинаса (Бразилия) и Университетом Цинхуа (Китай) выпустили сборник исследований “Being Innovative or Being on the Safe Side — Managing the Risk of Failure”. Авторы проанализировали восприятие рисков и готовность к инновациям в организациях с учетом культурного контекста.