Охота на ботов и троллей. ИСП РАН представил технологию социальных сетей::БИТ 01.2017
 
                 
Поиск по сайту
 bit.samag.ru     Web
Рассылка Subscribe.ru
подписаться письмом
Вход в систему
 Запомнить меня
Регистрация
Забыли пароль?

Календарь мероприятий
май    2018
Пн
Вт
Ср
Чт
Пт
Сб
Вс
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

показать все 

Новости партнеров

22.05.2018

Форум DIS Group «Данные – основа цифровой трансформации. Informatica Day 2018»

Читать далее 

22.05.2018

ГК ANGARA на Positive Hack Days 8: итоги участия

Читать далее 

22.05.2018

Рынок e-commerce в России. Эра цифровой глобализации

Читать далее 

22.05.2018

Panasonic представил инновационное решение для автономных мобильных POS-терминалов на базе планшетов Toughpad FZ-G1

Читать далее 

22.05.2018

«Инфосистемы Джет» модернизировала систему защиты базы данных СКБ-банка с помощью решения Imperva

Читать далее 

22.05.2018

C 21 по 27 мая включительно каждый, кто купит билет, получит второй в подарок. Акция действует только для категории «Конференция».

Читать далее 

22.05.2018

Мобильное приложение “Горячая линия Рунета” от РОЦИТ

Читать далее 

показать все 

Статьи

26.04.2018

Зачем вещам интернет?

Читать далее 

26.04.2018

Опрос. IoT на распутье

Читать далее 

26.04.2018

Опрос. Кто боится админа?

Читать далее 

26.04.2018

Какие инновации изменят нашу жизнь в ближайшие пять лет?

Читать далее 

16.03.2018

Когда в России появится свой «Алибаба»?

Читать далее 

21.04.2017

Язык цифр или внутренний голос?

Читать далее 

16.04.2017

Планы – ничто, планирование – все. Только 22% компаний довольны своими инструментами для бизнес-планирования

Читать далее 

16.04.2017

Цифровизация экономики

Читать далее 

23.03.2017

Сервисная компания – фея или Золушка?

Читать далее 

17.02.2017

Информационные технологии-2017

Читать далее 

показать все 

Охота на ботов и троллей. ИСП РАН представил технологию социальных сетей

Главная / Архив номеров / 2017 / Выпуск №01 (64) / Охота на ботов и троллей. ИСП РАН представил технологию социальных сетей

Рубрика: Сделано в России


Охота на ботов и троллей
ИСП РАН представил технологию социальных сетей

С самого начала, с момента, когда интернет стал действительно глобальной сетью, связывающей миллионы пользовательских компьютеров, отличительной чертой его была анонимность пользователей

Возможность скрывать свое имя за ником, оперировать не одним аккаунтом, а целым «парком» виртуальных личностей, размещать и распространять практически любую информацию, стала почвой для развития целой отрасли в журналистике и public relations, громадного набора специфических рекламных и PR-технологий.

Однако спустя четверть века эра анонимности подходит к концу. Технологии анализа больших объемов данных, представленные в декабре 2016 года на Первой открытой конференции ИСП РАН, наносят по этой эпохе удар, который может оказаться смертельным.

Что не учел пророк интернет-эры

В 1974 году, мечтая о том, каким станет мир через полвека, академик Сахаров написал: «В перспективе, быть может, позднее, чем через 50 лет, я предполагаю создание всемирной информационной системы (ВИС), которая сделает доступным для каждого в любую минуту содержание любой книги, когда-либо и где-либо опубликованной, содержание любой статьи, получение любой справки. ВИС должна включать индивидуальные миниатюрные запросные приемники-передатчики, диспетчерские пункты, управляющие потоками информации, каналы связи, включающие тысячи искусственных спутников связи, кабельные и лазерные линии. Даже частичное осуществление ВИС окажет глубокое воздействие на жизнь каждого человека, на его досуг, на его интеллектуальное и художественное развитие. В отличие от телевизора, который является главным источником информации многих современников, ВИС будет предоставлять каждому максимальную свободу в выборе информации и требовать индивидуальной активности».

Описание ныне существующей глобальной информационной сети удалось ему очень неплохо, что позволяет по праву включать его имя в список «пророков интернет-эры». Однако вэтом пророчестве не было учтено одно – бесконтрольное распространение информации. Информационные потоки сегодня настолько мощны и велики, что вычленить из них необходимое подчас не представляется возможным. А объем информации, фальсифицированной и откровенно ложной, в этих потоках просто непредсказуем.

Первый информационный вброс был зафиксирован в середине 1980-х, в разгар холодной войны. 1 апреля 1984 года в предшествовавшей интернету сети Usenet было опубликовано обращение генерального секретаря КПСС Константина Черненко, в котором, в частности, шла речь о присоединении СССР к американским информационным сетям. «Причина нашего присоединения к сети – это формирование дискуссионной площадки с американскими и европейскими народами, чтобы продемонстрировать им наши усилия подостижению мирного сосуществования между ними и советским народом, – говорилось в тексте. – Теперь же давайте откроем бутылку водки и отметим наше появление в этой сети. Ваше здоровье!»

«Текстерра» – технология многоязычного интеллектуального анализа текста

Этот вброс вызвал среди американских пользователей сети вполне ощутимую панику и даже спровоцировал скандал в СМИ. Впрочем, его автор недолго оставался анонимом. В том, что это всего лишь придуманный им первоапрельский розыгрыш, пару недель спустя признался Пит Биртема, один из первопроходцев интернета, сотрудник голландского Центра математики и информатики. Однако факт остается фактом: вброшенной информации поверили, восприняли ее всерьез. Шутка ввела в заблуждение всю Америку.

С той поры информационные вбросы стали одним из главных бичей глобальной сети. Анонимность источников, возможность многократной репликации информационных массивов на различных ресурсах предоставляют сегодня фантастические возможности для распространения любых сведений и даже, как показывает совсем недавняя история, длякоординации действий повстанцев и террористов. Отследить путь того или иного вброса, вычислить его источник, выстроить «дерево распространения информации» до последнего времени удавалось далеко не всегда. И в любом случае эта работа была трудоемкой и затратной. Не меньше сложностей возникало и с установлением личности автора того илииного вброса либо фейка.

На каждое действие есть противодействие

Для анализа текстов социальных сетей Институтом системного программирования РАН была разработана «Текстерра» – технология многоязычного интеллектуального анализа текста. В ее основе – программный комплекс, способный накапливать и анализировать информацию, устанавливать взаимосвязь между использованием тех или иных лексических схем.

В качестве основного источника информации «Текстерра» использует ссылочный массив Википедии, выстраивая граф семантической связанности описанных на этом ресурсе объектов.

Кроме того, «Текстерра» позволяет извлекать знания из ресурсов MediaWiki и Linked Data, а также расширять базу знаний концептами, описанными в произвольных текстовых документах, используя оригинальные методы извлечения информации. В результате в распоряжении системы оказывается семантический граф с более чем пятью миллионами узлов, на основании которого и анализируются значения терминов и отношений между ними в текстовых документах.

Проще говоря, программа способна составить анализ текста, опираясь на объем понятий и терминов, почти на порядок превышающий по объему багаж знаний, зафиксированный вБританской энциклопедии, а если его будет не хватать – расширить свою базу данных.

Изначально технология служит основой для решения задач, базирующихся на интеллектуальном анализе текстов, включая создание семантических поисковых систем, разработку вопросно-ответных систем, автоматическое реферирование и аннотирование, создание диалоговых систем и так далее. Но одной из ее функций является анализ текстовых сообщений в социальных сетях и на форумах.

Используя «Текстерру», можно вычислить лексически сходные тексты, принадлежащие перу одного автора или написанные по некоему базовому лекалу, а потому содержащие сходные семантические конструкции, и таким образом выявить структуру информационного вброса.

Причем сделать это очень быстро: при создании технологии особое внимание уделялось не только качеству, но и производительности, так что в настоящее время «Текстерра» – один из самых быстрых инструментов такого рода. Программный комплекс поддерживает английский, русский и корейский языки, также систему можно быстро адаптировать для работы с другими языками.

Разработку технологии ИСП РАН начал в 2007 году совместно с компанией Hewlett Packard, затем в 2010-2013 годах развитие технологии проводилось в рамках долгосрочного сотрудничества с компанией Samsung, а сегодня «Текстерра» – ключевой компонент платформы анализа мнений пользователей в сети Интернет. Интерфейс «Текстерры» уже сегодня доступен на сайте ИСП РАН.

Другая же перспективная разработка ИСП РАН – система «Талисман» – позволяет отследить и выделить фиктивные аккаунты, служащие для распространения недостоверной информации, спама, имитации массовой активности – ботов.

«Талисман» позволяет отследить и выделить фиктивные аккаунты, служащие для распространения недостоверной информации, спама, имитации массовой активности – ботов

Боты сегодня – это уже не просто отдельные фиктивные профили в социальных сетях, а целые конгломераты – ботнеты, связанные между собой «социальными связями», вписанные в группы и сообщества реальных пользователей сети Интернет. Современные боты подчас производят более чем реальное впечатление живых людей, используя чужие фотографии, специально разработанные диалоговые программы для генерации текстов сообщений.

Из-за их способности к адаптации проблема обнаружения ботов остается постоянно актуальной. Новые методы их поиска продолжают разрабатываться, но обычно разработчики просто не успевают за эволюцией интернет-фейков. Тем не менее сегодня в ИСП РАН разработан новый метод, с помощью которого можно с большой долей вероятности отличить самого «продвинутого» бота от живого пользователя сети. В ее основе лежат анализ социальных сетей, а точнее, анализ профилей и социальных связей их пользователей исовременные методы машинного обучения.

На основе данных профилей социальных сетей выстраивается социальный граф, в котором узлы соответствуют пользователям и сообществам, а ребра – отношениям дружбы иподпискам. Посредством распространения в нем социальных меток определяются такие демографические атрибуты, как возраст пользователя, а также семейное положение, уровень образования и так далее. Если значения тех или иных атрибутов не вписываются в создаваемый программным комплексом алгоритм, можно с серьезной долей уверенности говорить о том, что выпадающий из схемы профиль социальной сети – фейк. Ну а дальше приходит на помощь «Текстерра», позволяющая вычислить множества фейков, созданных одной рукой либо ведущихся по одному лекалу-методичке.

Эта же технология построения социальных графов позволяет оперировать и неполными или намеренно искаженными данными, указанными в профилях, вычислять демографические атрибуты отдельных профилей и оперировать их массивами. По распространению меток, по графу друзей и подписок метод предсказывает незаполненное иликорректирует неверно заполненное значение атрибута из профиля пользователя.

Эта функция необходима в первую очередь как маркетинговый инструмент. Поскольку информация о пользователях социальных сетей зачастую указывается ими не полностью илинекорректно, использовать ее для маркетинговых, социологических или демографических исследований затруднительно. Если же демографические атрибуты пользователей будут выстроены в соответствующие графы, это позволит как минимум фильтровать целевую аудиторию рекомендуемых товаров и услуг, а как максимум – проводить возможно более точный анализ демографического, социального или географического профиля интернет-сообществ, вычислять целевую аудиторию информационных кампаний в интернете.

Мало того, технология «Талисман», разработанная в ИСП РАН, позволяет на основании анализа неполных данных, с использованием информации из социальных сетей вычислить даже место проживания пользователя, его принадлежность к определенному социальному слою, приверженность той или иной идеологии и другую полезную информацию.

Сегодня обе эти технологии продолжают дорабатываться и совершенствоваться, обрастать новым функционалом. Уже то, что они позволяют делать сейчас, производит впечатление технологий будущего, сюжетного элемента научно-фантастического фильма. Можно представить себе, во что они вырастут через год-два.

Похоже, эпохе анонимности интернета, поре, когда любая информация могла быть вброшена в сеть безнаказанно и без проверки, приходит конец. Интернет-анонимность, бывшая любимым фетишем сетевых анархистов, доживает последние если не дни, то годы. При этом такой «конец детства» не будет репрессивным, а обитателям сети не грозят какие-токары со стороны властей предержащих, вынуждающие раскрывать их инкогнито. Напротив, интернет-анархию погубит ее собственный главный принцип – неконтролируемый доступ к информации. Как только технологии, о которых шла речь в этой статье, станут общедоступными, ситуация изменится сама собой.

Сергей Кормилицын

В начало⇑

 

Комментарии отсутствуют

Комментарии могут отставлять только зарегистрированные пользователи

Выпуск №04 (77) 2018г.
Выпуск №04 (77) 2018г. Выпуск №03 (76) 2018г. Выпуск №02 (75) 2018г. Выпуск №01 (74) 2018г.

           

Tel.: (499) 277-12-41  Fax: (499) 277-12-45  E-mail: sa@samag.ru

 

Copyright © Системный администратор

  Яндекс.Метрика