• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Новый метод кластеризации упрощает анализ больших массивов информации

Новый метод кластеризации упрощает анализ больших массивов информации

© iStock

Исследователи из ВШЭ и Института проблем управления РАН предложили новый метод анализа данных — туннельную кластеризацию. Он помогает быстро находить группы похожих объектов и требует меньше вычислительных ресурсов, чем традиционные методы. В зависимости от конфигурации данных алгоритм может работать в десятки раз быстрее аналогов. Исследование опубликовано в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления».

С каждым годом объем информации, которую нужно обработать, становится все больше. Данные поступают из разных источников: научных исследований, финансовых отчетов, медицинских обследований и множества других. Для поиска закономерностей и структурирования информации в таких массивах применяют методы кластеризации — группировки данных по схожим характеристикам. Группы, полученные таким способом, называют кластерами.

Один из самых популярных методов кластеризации — метод k-средних. Он делит данные на заданное количество кластеров, предварительно выбирая их центры (центроиды). Однако у этого метода есть ограничение: перед началом работы необходимо знать, сколько кластеров должно получиться, что не всегда возможно при анализе сложных данных.Ученые из НИУ ВШЭ и Института проблем управления имени В.А. Трапезникова РАН предложили новый подход, который упрощает этот процесс, — туннельную кластеризацию. В отличие от метода k-средних, этот алгоритм не требует заранее задавать число кластеров: он сам определяет, сколько кластеров необходимо, анализируя структуру данных.

Фуад Алескеров

«Алгоритм  формирует “туннели” данных — области в многомерном пространстве, в которых группируются объекты с похожими характеристиками, — объясняет руководитель департамента математики факультета экономических наук НИУ ВШЭ Фуад Алескеров. — Пользователь может выбрать один из трех вариантов работы алгоритма: с фиксированными границами кластеров, с адаптивными границами, которые подстраиваются под структуру данных, или комбинированный подход. Это делает метод гибким и подходящим для разных типов задач».

Метод протестировали на синтетическом (сгенерированном) наборе данных из 100 000 объектов, а также на реальных задачах в области государственного управления и банковского сектора.

Визуализация исходных данных и итогов туннельной кластеризации в 4-мерной системе параллельных координат.
© Aleskerov, F.T., Myachin, A.L. & Yakuba, V.I. Tunnel Clustering Method. Dokl. Math. 110, 474–479 (2024)

Главное преимущество нового метода — скорость. В отличие от классических алгоритмов, требующих больших вычислительных ресурсов, туннельная кластеризация в зависимости от конфигурации данных может справляться с анализом в десятки раз быстрее. 

Кроме того, ученые ввели понятие «степень перехода» — параметр, который показывает, сколько характеристик объекта нужно изменить, чтобы он оказался в другом кластере. Это помогает оценить четкость границ кластеров и выявлять объекты, находящиеся на стыке групп.

Алексей Мячин

«Люди создают все больше данных, и этот процесс только ускоряется. Согласно последнему отчету “Digital 2025: Global Overview Report”, в начале 2025 года в интернете насчитывалось 5,56 миллиарда пользователей — это почти 68% населения планеты. Взрослые проводят в Cети в среднем по 6 часов 38 минут в день, общаясь, работая, смотря видео и потребляя контент, — рассказывает старший научный сотрудник Международного центра анализа и выбора решений НИУ ВШЭ Алексей Мячин. — Компании, которые игнорируют анализ данных, теряют большие деньги».

Авторы продолжают работать над усовершенствованием алгоритма, включая исследования по снижению размерности данных, что позволит еще больше сократить временные затраты при поиске закономерностей в данных. 

Работа выполнена при частичной поддержке РНФ.

Вам также может быть интересно:

Ученые ВШЭ рассказали, как определить важные для речевой функции области мозга при операциях

Сотрудники Центра языка и мозга НИУ ВШЭ провели школу по трактографии — методу, который позволяет «увидеть» важнейшие связи в мозге и помогает хирургам избежать повреждений критически важных для речевой функции областей во время операции. Участниками курса стали нейрохирурги и радиологи из Москвы и других регионов страны, интересующиеся методами предоперационного картирования речи.

«Огромное счастье — возможность обсудить свои научные идеи с заинтересованными людьми»

Созданная в нижегородском кампусе Вышки Международная лаборатория динамических систем и приложений ведет глубокие теоретические изыскания и прикладные исследования, среди которых изучение океанических волн, пересоединений солнечной короны, вулканических явлений и устойчивости судов. Ее ученые, за последние 5 лет выигравшие более 20 значимых научных грантов, активно сотрудничают с российскими и зарубежными коллегами из Китая, Испании, США, Великобритании, Бразилии и других стран. О работе лаборатории новостная служба «Вышка.Главное» побеседовала с ее заведующей, профессором Ольгой Починкой.

Лингвисты НИУ ВШЭ выяснили, как билингвы используют конструкции с числительными в русском языке

Исследователи ВШЭ выделили более 4000 примеров устной русской речи билингвов из семи регионов России и выяснили: большинство нестандартных форм в конструкциях с числительными связано не только с их родным языком, но и с тем, как часто выражение встречается в повседневной речи. Например, фразы «два часа» или «пять километров» почти всегда совпадают с литературным вариантом, а вот менее привычные выражения, особенно с числительными от двух до четырех, а также с собирательными формами вроде «двое» или «трое», часто звучат иначе. Исследование опубликовано в журнале International Journal of Bilingualism.

Ошибка иммунитета: как антитела при рассеянном склерозе путают мишени

Исследователи НИУ ВШЭ и ИБХ РАН изучили, как иммунная система ведет себя при рассеянном склерозе — болезни, при которой собственные антитела атакуют нервные волокна организма. Сравнив образцы крови пациентов и здоровых людей, ученые обнаружили, что иммунитет больных рассеянным склерозом может путать вирусные белки с белками нервных клеток. Также было выявлено несколько ключевых белков, которые могут стать новыми биомаркерами болезни и помочь в ее диагностике. Исследование опубликовано в журнале Frontiers in Immunology. Работа выполнена при поддержке РНФ.

Первый цифровой тест для оценки навыков чтения у взрослых доступен на RuStore

Центр языка и мозга НИУ ВШЭ разработал первый стандартизированный инструмент для оценки навыков чтения на русском языке у взрослых — тест «ЛексиМетр-В». Теперь он доступен в цифровом формате на платформе RuStore. Это приложение позволяет быстро и эффективно диагностировать нарушения чтения, включая дислексию, у людей в возрасте от 18 лет и старше.

Двадцать против десяти: в НИУ ВШЭ проанализировали, как развивались числительные у лезгинских народов

Считается, что в лезгинских языках Дагестана и Азербайджана изначально использовалась двадцатеричная система счета, а десятичная появилась позже. Однако новый анализ числительных в разных диалектах показал, проведенный лингвистом из НИУ ВШЭ Максимом Меленченко, что могло быть и наоборот: изначально использовался десятичный счет, а двадцатеричный появился позже. Исследование опубликовано в журнале Folia Linguistica.

Сервисы должны быть гибкими: как использовать искусственный интеллект государству

Международная лаборатория цифровой трансформации в государственном управлении НИУ ВШЭ провела круглый стол «Искусственный интеллект в государственном управлении: современные тенденции». Какие сервисы улучшит ИИ и что важно учитывать, применяя новые технологии, рассказали российские и зарубежные ученые.

Искусственный интеллект помогает точнее прогнозировать риски сложных заболеваний

Разработанные в Центре искусственного интеллекта НИУ ВШЭ нейросетевые модели значительно улучшают прогнозирование риска ожирения, диабета первого типа, псориаза и других многофакторных заболеваний. Совместное исследование с компанией Genotek показало, что алгоритмы глубокого обучения эффективнее традиционных методов, особенно при сложных взаимодействиях генов (эпистазах). Результаты опубликованы в журнале Frontiers in Medicine.

«Надеюсь, что смогу инициировать новые исследования в Высшей школе экономики»

Более 10 тысяч научных проектов было поддержано Российским научным фондом (РНФ) в 2024 году. Один из получателей грантов фонда — ученый из Ирана, доцент МИЭМ ВШЭ Ахмад Остовари Могаддам. Благодаря поддержке РНФ и Вышки он принял решение надолго остаться в России.

Мозг детей с аутизмом иначе слышит мир

Международный коллектив исследователей при участии ученых из Центра языка и мозга НИУ ВШЭ впервые применил в одном эксперименте два метода — магнитоэнцефалографию и морфометрический анализ — для изучения детей с расстройствами аутического спектра. Оказалось, что мозг детей с аутизмом хуже справляется с фильтрацией и пониманием звуков, особенно в той части, которая обычно отвечает за речь. Исследование опубликовано в журнале Cerebral Cortex.