Охота на ботов и троллей. ИСП РАН представил технологию социальных сетей::БИТ 01.2017

Поиск по сайту

bit.samag.ru

Web

Рассылка Subscribe.ru

подписаться письмом

Вход в систему


Запомнить меня
Регистрация Забыли пароль?

О журнале

Ваше мнение

Статьи

Общие тенденции и тренды

Архив

Мероприятия

Календарь мероприятий

май

2026

показать все

Новости партнеров

21.05.2026

МТУСИ и «Группа Астра» приступили к совместной практико-ориентированной подготовке ИТ-кадров

21.05.2026

Миллиарды под прицелом: 45% российских компаний не выделяют бюджет на защиту ИИ

21.05.2026

Минцифра Оренбуржья и «Астра Консалтинг» договорились о сотрудничестве в сфере цифрового развития

21.05.2026

Татьяна Сизова: «Вызовы бизнеса, которые мы обсуждаем в Москве, имеют значение для всей страны»

21.05.2026

«Солар» и «Группа Астра» расширяют сотрудничество и упрощают доставку ИБ-решений через Astra Store

показать все

Статьи

22.05.2026

Строительная отрасль России в одном цифровом пространстве: обзор сервиса «Всем подряд»

22.04.2026

Суверенные облака: стратегия на 2026–2028

22.04.2026

Российское ПО дорожает: как обосновать бюджет?

22.04.2026

Управление данными: искусство превращения хаоса в актив

23.03.2026

Эволюция бизнес-процессов от ИИ-инструментов к мультиагентным командам

29.07.2025

Точность до метра и сантиметра: как применяют технологии позиционирования

18.04.2024

Как искусственный интеллект изменит экономику

22.09.2023

Эпоха российской ориентации на Запад в сфере программного обеспечения завершилась

22.09.2023

12 бизнес-концепций, которыми должны овладеть ИТ-руководители

показать все

Охота на ботов и троллей. ИСП РАН представил технологию социальных сетей

Главная / Архив номеров / 2017 / Выпуск №01 (64) / Охота на ботов и троллей. ИСП РАН представил технологию социальных сетей

Рубрика: Сделано в России

Охота на ботов и троллей
ИСП РАН представил технологию социальных сетей

С самого начала, с момента, когда интернет стал действительно глобальной сетью, связывающей миллионы пользовательских компьютеров, отличительной чертой его была анонимность пользователей

Возможность скрывать свое имя за ником, оперировать не одним аккаунтом, а целым «парком» виртуальных личностей, размещать и распространять практически любую информацию, стала почвой для развития целой отрасли в журналистике и public relations, громадного набора специфических рекламных и PR-технологий.

Однако спустя четверть века эра анонимности подходит к концу. Технологии анализа больших объемов данных, представленные в декабре 2016 года на Первой открытой конференции ИСП РАН, наносят по этой эпохе удар, который может оказаться смертельным.

Что не учел пророк интернет-эры

В 1974 году, мечтая о том, каким станет мир через полвека, академик Сахаров написал: «В перспективе, быть может, позднее, чем через 50 лет, я предполагаю создание всемирной информационной системы (ВИС), которая сделает доступным для каждого в любую минуту содержание любой книги, когда-либо и где-либо опубликованной, содержание любой статьи, получение любой справки. ВИС должна включать индивидуальные миниатюрные запросные приемники-передатчики, диспетчерские пункты, управляющие потоками информации, каналы связи, включающие тысячи искусственных спутников связи, кабельные и лазерные линии. Даже частичное осуществление ВИС окажет глубокое воздействие на жизнь каждого человека, на его досуг, на его интеллектуальное и художественное развитие. В отличие от телевизора, который является главным источником информации многих современников, ВИС будет предоставлять каждому максимальную свободу в выборе информации и требовать индивидуальной активности».

Описание ныне существующей глобальной информационной сети удалось ему очень неплохо, что позволяет по праву включать его имя в список «пророков интернет-эры». Однако вэтом пророчестве не было учтено одно – бесконтрольное распространение информации. Информационные потоки сегодня настолько мощны и велики, что вычленить из них необходимое подчас не представляется возможным. А объем информации, фальсифицированной и откровенно ложной, в этих потоках просто непредсказуем.

Первый информационный вброс был зафиксирован в середине 1980-х, в разгар холодной войны. 1 апреля 1984 года в предшествовавшей интернету сети Usenet было опубликовано обращение генерального секретаря КПСС Константина Черненко, в котором, в частности, шла речь о присоединении СССР к американским информационным сетям. «Причина нашего присоединения к сети – это формирование дискуссионной площадки с американскими и европейскими народами, чтобы продемонстрировать им наши усилия подостижению мирного сосуществования между ними и советским народом, – говорилось в тексте. – Теперь же давайте откроем бутылку водки и отметим наше появление в этой сети. Ваше здоровье!»

«Текстерра» – технология многоязычного интеллектуального анализа текста

Этот вброс вызвал среди американских пользователей сети вполне ощутимую панику и даже спровоцировал скандал в СМИ. Впрочем, его автор недолго оставался анонимом. В том, что это всего лишь придуманный им первоапрельский розыгрыш, пару недель спустя признался Пит Биртема, один из первопроходцев интернета, сотрудник голландского Центра математики и информатики. Однако факт остается фактом: вброшенной информации поверили, восприняли ее всерьез. Шутка ввела в заблуждение всю Америку.

С той поры информационные вбросы стали одним из главных бичей глобальной сети. Анонимность источников, возможность многократной репликации информационных массивов на различных ресурсах предоставляют сегодня фантастические возможности для распространения любых сведений и даже, как показывает совсем недавняя история, длякоординации действий повстанцев и террористов. Отследить путь того или иного вброса, вычислить его источник, выстроить «дерево распространения информации» до последнего времени удавалось далеко не всегда. И в любом случае эта работа была трудоемкой и затратной. Не меньше сложностей возникало и с установлением личности автора того илииного вброса либо фейка.

На каждое действие есть противодействие

Для анализа текстов социальных сетей Институтом системного программирования РАН была разработана «Текстерра» – технология многоязычного интеллектуального анализа текста. В ее основе – программный комплекс, способный накапливать и анализировать информацию, устанавливать взаимосвязь между использованием тех или иных лексических схем.

В качестве основного источника информации «Текстерра» использует ссылочный массив Википедии, выстраивая граф семантической связанности описанных на этом ресурсе объектов.

Кроме того, «Текстерра» позволяет извлекать знания из ресурсов MediaWiki и Linked Data, а также расширять базу знаний концептами, описанными в произвольных текстовых документах, используя оригинальные методы извлечения информации. В результате в распоряжении системы оказывается семантический граф с более чем пятью миллионами узлов, на основании которого и анализируются значения терминов и отношений между ними в текстовых документах.

Проще говоря, программа способна составить анализ текста, опираясь на объем понятий и терминов, почти на порядок превышающий по объему багаж знаний, зафиксированный вБританской энциклопедии, а если его будет не хватать – расширить свою базу данных.

Изначально технология служит основой для решения задач, базирующихся на интеллектуальном анализе текстов, включая создание семантических поисковых систем, разработку вопросно-ответных систем, автоматическое реферирование и аннотирование, создание диалоговых систем и так далее. Но одной из ее функций является анализ текстовых сообщений в социальных сетях и на форумах.

Используя «Текстерру», можно вычислить лексически сходные тексты, принадлежащие перу одного автора или написанные по некоему базовому лекалу, а потому содержащие сходные семантические конструкции, и таким образом выявить структуру информационного вброса.

Причем сделать это очень быстро: при создании технологии особое внимание уделялось не только качеству, но и производительности, так что в настоящее время «Текстерра» – один из самых быстрых инструментов такого рода. Программный комплекс поддерживает английский, русский и корейский языки, также систему можно быстро адаптировать для работы с другими языками.

Разработку технологии ИСП РАН начал в 2007 году совместно с компанией Hewlett Packard, затем в 2010-2013 годах развитие технологии проводилось в рамках долгосрочного сотрудничества с компанией Samsung, а сегодня «Текстерра» – ключевой компонент платформы анализа мнений пользователей в сети Интернет. Интерфейс «Текстерры» уже сегодня доступен на сайте ИСП РАН.

Другая же перспективная разработка ИСП РАН – система «Талисман» – позволяет отследить и выделить фиктивные аккаунты, служащие для распространения недостоверной информации, спама, имитации массовой активности – ботов.

«Талисман» позволяет отследить и выделить фиктивные аккаунты, служащие для распространения недостоверной информации, спама, имитации массовой активности – ботов

Боты сегодня – это уже не просто отдельные фиктивные профили в социальных сетях, а целые конгломераты – ботнеты, связанные между собой «социальными связями», вписанные в группы и сообщества реальных пользователей сети Интернет. Современные боты подчас производят более чем реальное впечатление живых людей, используя чужие фотографии, специально разработанные диалоговые программы для генерации текстов сообщений.

Из-за их способности к адаптации проблема обнаружения ботов остается постоянно актуальной. Новые методы их поиска продолжают разрабатываться, но обычно разработчики просто не успевают за эволюцией интернет-фейков. Тем не менее сегодня в ИСП РАН разработан новый метод, с помощью которого можно с большой долей вероятности отличить самого «продвинутого» бота от живого пользователя сети. В ее основе лежат анализ социальных сетей, а точнее, анализ профилей и социальных связей их пользователей исовременные методы машинного обучения.

На основе данных профилей социальных сетей выстраивается социальный граф, в котором узлы соответствуют пользователям и сообществам, а ребра – отношениям дружбы иподпискам. Посредством распространения в нем социальных меток определяются такие демографические атрибуты, как возраст пользователя, а также семейное положение, уровень образования и так далее. Если значения тех или иных атрибутов не вписываются в создаваемый программным комплексом алгоритм, можно с серьезной долей уверенности говорить о том, что выпадающий из схемы профиль социальной сети – фейк. Ну а дальше приходит на помощь «Текстерра», позволяющая вычислить множества фейков, созданных одной рукой либо ведущихся по одному лекалу-методичке.

Эта же технология построения социальных графов позволяет оперировать и неполными или намеренно искаженными данными, указанными в профилях, вычислять демографические атрибуты отдельных профилей и оперировать их массивами. По распространению меток, по графу друзей и подписок метод предсказывает незаполненное иликорректирует неверно заполненное значение атрибута из профиля пользователя.

Эта функция необходима в первую очередь как маркетинговый инструмент. Поскольку информация о пользователях социальных сетей зачастую указывается ими не полностью илинекорректно, использовать ее для маркетинговых, социологических или демографических исследований затруднительно. Если же демографические атрибуты пользователей будут выстроены в соответствующие графы, это позволит как минимум фильтровать целевую аудиторию рекомендуемых товаров и услуг, а как максимум – проводить возможно более точный анализ демографического, социального или географического профиля интернет-сообществ, вычислять целевую аудиторию информационных кампаний в интернете.

Мало того, технология «Талисман», разработанная в ИСП РАН, позволяет на основании анализа неполных данных, с использованием информации из социальных сетей вычислить даже место проживания пользователя, его принадлежность к определенному социальному слою, приверженность той или иной идеологии и другую полезную информацию.

Сегодня обе эти технологии продолжают дорабатываться и совершенствоваться, обрастать новым функционалом. Уже то, что они позволяют делать сейчас, производит впечатление технологий будущего, сюжетного элемента научно-фантастического фильма. Можно представить себе, во что они вырастут через год-два.

Похоже, эпохе анонимности интернета, поре, когда любая информация могла быть вброшена в сеть безнаказанно и без проверки, приходит конец. Интернет-анонимность, бывшая любимым фетишем сетевых анархистов, доживает последние если не дни, то годы. При этом такой «конец детства» не будет репрессивным, а обитателям сети не грозят какие-токары со стороны властей предержащих, вынуждающие раскрывать их инкогнито. Напротив, интернет-анархию погубит ее собственный главный принцип – неконтролируемый доступ к информации. Как только технологии, о которых шла речь в этой статье, станут общедоступными, ситуация изменится сама собой.

Сергей Кормилицын

В начало⇑

Комментарии отсутствуют

Комментарии могут отставлять только зарегистрированные пользователи

Выпуск №2 (155) 2026г.

Где купить

Архив

Вакансии на сайте Jooble

Tel.: (499) 277-12-41 Fax: (499) 277-12-45 E-mail: sa@samag.ru