Поиск по сайту
 bit.samag.ru     Web
Рассылка Subscribe.ru
подписаться письмом
Вход в систему
 Запомнить меня
Регистрация
Забыли пароль?
Календарь мероприятий
март    2017
Пн
Вт
Ср
Чт
Пт
Сб
Вс
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

показать все 

Новости партнеров

24.03.2017

«Битрикс24» поможет мексиканскому правительству проводить опросы населения

Читать далее 

24.03.2017

Скомпрометированную репутацию ИБ-специалиста не прикрыть никакими профессиональными сертификатами — считают эксперты Кибербаталий

Читать далее 

24.03.2017

«Актив» признан лучшим проектом по импортозамещению

Читать далее 

24.03.2017

Вся элита Татарстана соберется на I Съезде предпринимателей в Нижнекамске

Читать далее 

22.03.2017

VIII ежегодная конференция B2B basis «Продажи и маркетинг 2017» пройдет 24-25 марта с трансляцией в регионы

Читать далее 

22.03.2017

В Москве пройдёт XX Юбилейный Бизнес-Форум TOP Marketing! 100 идей: Технологии в маркетинге

Читать далее 

22.03.2017

В Москве пройдёт банковская сессия по применению блокчейна

Читать далее 

показать все 

Статьи

23.03.2017

Сервисная компания – фея или Золушка?

Читать далее 

20.03.2017

Правила рациональных инвесторов

Читать далее 

20.03.2017

Угрозы для BYOD

Читать далее 

20.03.2017

Люди ищут компании, компании ищут людей. Где учить, искать и находить ИТ‑профессионалов?

Читать далее 

20.03.2017

Опрос. Что ждут вузы от партнерства с компаниями?

Читать далее 

17.02.2017

Информационные технологии-2017

Читать далее 

15.02.2017

Опрос. Информационные технологии 2017 года

Читать далее 

17.12.2016

Эффект вроде есть и его вроде нет

Читать далее 

17.12.2016

Технология блокчейн в России и в мире

Читать далее 

17.12.2016

Город-джекпот

Читать далее 

показать все 

Охота на ботов и троллей. ИСП РАН представил технологию социальных сетей

Главная / Архив номеров / 2017 / Выпуск №01 (64) / Охота на ботов и троллей. ИСП РАН представил технологию социальных сетей

Рубрика: Сделано в России


Охота на ботов и троллей
ИСП РАН представил технологию социальных сетей

С самого начала, с момента, когда интернет стал действительно глобальной сетью, связывающей миллионы пользовательских компьютеров, отличительной чертой его была анонимность пользователей

Возможность скрывать свое имя за ником, оперировать не одним аккаунтом, а целым «парком» виртуальных личностей, размещать и распространять практически любую информацию, стала почвой для развития целой отрасли в журналистике и public relations, громадного набора специфических рекламных и PR-технологий.

Однако спустя четверть века эра анонимности подходит к концу. Технологии анализа больших объемов данных, представленные в декабре 2016 года на Первой открытой конференции ИСП РАН, наносят по этой эпохе удар, который может оказаться смертельным.

Что не учел пророк интернет-эры

В 1974 году, мечтая о том, каким станет мир через полвека, академик Сахаров написал: «В перспективе, быть может, позднее, чем через 50 лет, я предполагаю создание всемирной информационной системы (ВИС), которая сделает доступным для каждого в любую минуту содержание любой книги, когда-либо и где-либо опубликованной, содержание любой статьи, получение любой справки. ВИС должна включать индивидуальные миниатюрные запросные приемники-передатчики, диспетчерские пункты, управляющие потоками информации, каналы связи, включающие тысячи искусственных спутников связи, кабельные и лазерные линии. Даже частичное осуществление ВИС окажет глубокое воздействие на жизнь каждого человека, на его досуг, на его интеллектуальное и художественное развитие. В отличие от телевизора, который является главным источником информации многих современников, ВИС будет предоставлять каждому максимальную свободу в выборе информации и требовать индивидуальной активности».

Описание ныне существующей глобальной информационной сети удалось ему очень неплохо, что позволяет по праву включать его имя в список «пророков интернет-эры». Однако вэтом пророчестве не было учтено одно – бесконтрольное распространение информации. Информационные потоки сегодня настолько мощны и велики, что вычленить из них необходимое подчас не представляется возможным. А объем информации, фальсифицированной и откровенно ложной, в этих потоках просто непредсказуем.

Первый информационный вброс был зафиксирован в середине 1980-х, в разгар холодной войны. 1 апреля 1984 года в предшествовавшей интернету сети Usenet было опубликовано обращение генерального секретаря КПСС Константина Черненко, в котором, в частности, шла речь о присоединении СССР к американским информационным сетям. «Причина нашего присоединения к сети – это формирование дискуссионной площадки с американскими и европейскими народами, чтобы продемонстрировать им наши усилия подостижению мирного сосуществования между ними и советским народом, – говорилось в тексте. – Теперь же давайте откроем бутылку водки и отметим наше появление в этой сети. Ваше здоровье!»

«Текстерра» – технология многоязычного интеллектуального анализа текста

Этот вброс вызвал среди американских пользователей сети вполне ощутимую панику и даже спровоцировал скандал в СМИ. Впрочем, его автор недолго оставался анонимом. В том, что это всего лишь придуманный им первоапрельский розыгрыш, пару недель спустя признался Пит Биртема, один из первопроходцев интернета, сотрудник голландского Центра математики и информатики. Однако факт остается фактом: вброшенной информации поверили, восприняли ее всерьез. Шутка ввела в заблуждение всю Америку.

С той поры информационные вбросы стали одним из главных бичей глобальной сети. Анонимность источников, возможность многократной репликации информационных массивов на различных ресурсах предоставляют сегодня фантастические возможности для распространения любых сведений и даже, как показывает совсем недавняя история, длякоординации действий повстанцев и террористов. Отследить путь того или иного вброса, вычислить его источник, выстроить «дерево распространения информации» до последнего времени удавалось далеко не всегда. И в любом случае эта работа была трудоемкой и затратной. Не меньше сложностей возникало и с установлением личности автора того илииного вброса либо фейка.

На каждое действие есть противодействие

Для анализа текстов социальных сетей Институтом системного программирования РАН была разработана «Текстерра» – технология многоязычного интеллектуального анализа текста. В ее основе – программный комплекс, способный накапливать и анализировать информацию, устанавливать взаимосвязь между использованием тех или иных лексических схем.

В качестве основного источника информации «Текстерра» использует ссылочный массив Википедии, выстраивая граф семантической связанности описанных на этом ресурсе объектов.

Кроме того, «Текстерра» позволяет извлекать знания из ресурсов MediaWiki и Linked Data, а также расширять базу знаний концептами, описанными в произвольных текстовых документах, используя оригинальные методы извлечения информации. В результате в распоряжении системы оказывается семантический граф с более чем пятью миллионами узлов, на основании которого и анализируются значения терминов и отношений между ними в текстовых документах.

Проще говоря, программа способна составить анализ текста, опираясь на объем понятий и терминов, почти на порядок превышающий по объему багаж знаний, зафиксированный вБританской энциклопедии, а если его будет не хватать – расширить свою базу данных.

Изначально технология служит основой для решения задач, базирующихся на интеллектуальном анализе текстов, включая создание семантических поисковых систем, разработку вопросно-ответных систем, автоматическое реферирование и аннотирование, создание диалоговых систем и так далее. Но одной из ее функций является анализ текстовых сообщений в социальных сетях и на форумах.

Используя «Текстерру», можно вычислить лексически сходные тексты, принадлежащие перу одного автора или написанные по некоему базовому лекалу, а потому содержащие сходные семантические конструкции, и таким образом выявить структуру информационного вброса.

Причем сделать это очень быстро: при создании технологии особое внимание уделялось не только качеству, но и производительности, так что в настоящее время «Текстерра» – один из самых быстрых инструментов такого рода. Программный комплекс поддерживает английский, русский и корейский языки, также систему можно быстро адаптировать для работы с другими языками.

Разработку технологии ИСП РАН начал в 2007 году совместно с компанией Hewlett Packard, затем в 2010-2013 годах развитие технологии проводилось в рамках долгосрочного сотрудничества с компанией Samsung, а сегодня «Текстерра» – ключевой компонент платформы анализа мнений пользователей в сети Интернет. Интерфейс «Текстерры» уже сегодня доступен на сайте ИСП РАН.

Другая же перспективная разработка ИСП РАН – система «Талисман» – позволяет отследить и выделить фиктивные аккаунты, служащие для распространения недостоверной информации, спама, имитации массовой активности – ботов.

«Талисман» позволяет отследить и выделить фиктивные аккаунты, служащие для распространения недостоверной информации, спама, имитации массовой активности – ботов

Боты сегодня – это уже не просто отдельные фиктивные профили в социальных сетях, а целые конгломераты – ботнеты, связанные между собой «социальными связями», вписанные в группы и сообщества реальных пользователей сети Интернет. Современные боты подчас производят более чем реальное впечатление живых людей, используя чужие фотографии, специально разработанные диалоговые программы для генерации текстов сообщений.

Из-за их способности к адаптации проблема обнаружения ботов остается постоянно актуальной. Новые методы их поиска продолжают разрабатываться, но обычно разработчики просто не успевают за эволюцией интернет-фейков. Тем не менее сегодня в ИСП РАН разработан новый метод, с помощью которого можно с большой долей вероятности отличить самого «продвинутого» бота от живого пользователя сети. В ее основе лежат анализ социальных сетей, а точнее, анализ профилей и социальных связей их пользователей исовременные методы машинного обучения.

На основе данных профилей социальных сетей выстраивается социальный граф, в котором узлы соответствуют пользователям и сообществам, а ребра – отношениям дружбы иподпискам. Посредством распространения в нем социальных меток определяются такие демографические атрибуты, как возраст пользователя, а также семейное положение, уровень образования и так далее. Если значения тех или иных атрибутов не вписываются в создаваемый программным комплексом алгоритм, можно с серьезной долей уверенности говорить о том, что выпадающий из схемы профиль социальной сети – фейк. Ну а дальше приходит на помощь «Текстерра», позволяющая вычислить множества фейков, созданных одной рукой либо ведущихся по одному лекалу-методичке.

Эта же технология построения социальных графов позволяет оперировать и неполными или намеренно искаженными данными, указанными в профилях, вычислять демографические атрибуты отдельных профилей и оперировать их массивами. По распространению меток, по графу друзей и подписок метод предсказывает незаполненное иликорректирует неверно заполненное значение атрибута из профиля пользователя.

Эта функция необходима в первую очередь как маркетинговый инструмент. Поскольку информация о пользователях социальных сетей зачастую указывается ими не полностью илинекорректно, использовать ее для маркетинговых, социологических или демографических исследований затруднительно. Если же демографические атрибуты пользователей будут выстроены в соответствующие графы, это позволит как минимум фильтровать целевую аудиторию рекомендуемых товаров и услуг, а как максимум – проводить возможно более точный анализ демографического, социального или географического профиля интернет-сообществ, вычислять целевую аудиторию информационных кампаний в интернете.

Мало того, технология «Талисман», разработанная в ИСП РАН, позволяет на основании анализа неполных данных, с использованием информации из социальных сетей вычислить даже место проживания пользователя, его принадлежность к определенному социальному слою, приверженность той или иной идеологии и другую полезную информацию.

Сегодня обе эти технологии продолжают дорабатываться и совершенствоваться, обрастать новым функционалом. Уже то, что они позволяют делать сейчас, производит впечатление технологий будущего, сюжетного элемента научно-фантастического фильма. Можно представить себе, во что они вырастут через год-два.

Похоже, эпохе анонимности интернета, поре, когда любая информация могла быть вброшена в сеть безнаказанно и без проверки, приходит конец. Интернет-анонимность, бывшая любимым фетишем сетевых анархистов, доживает последние если не дни, то годы. При этом такой «конец детства» не будет репрессивным, а обитателям сети не грозят какие-токары со стороны властей предержащих, вынуждающие раскрывать их инкогнито. Напротив, интернет-анархию погубит ее собственный главный принцип – неконтролируемый доступ к информации. Как только технологии, о которых шла речь в этой статье, станут общедоступными, ситуация изменится сама собой.

Сергей Кормилицын

В начало⇑

 

Комментарии отсутствуют

Комментарии могут отставлять только зарегистрированные пользователи

Выпуск №02 (65) 2017г.
Выпуск №02 (65) 2017г. Выпуск №01 (64) 2017г.

Телеканал «Про Бизнес», программы «Технологии в ритейле»

           

Tel.: (499) 277-12-41  Fax: (499) 277-12-45  E-mail: sa@samag.ru

 

Copyright © Системный администратор

  Яндекс.Метрика