Выбери представления данных и выяви из них лучшее::БИТ 04.2016

Поиск по сайту

bit.samag.ru

Web

Рассылка Subscribe.ru

подписаться письмом

Вход в систему


Запомнить меня
Регистрация Забыли пароль?

О журнале

Ваше мнение

Статьи

Общие тенденции и тренды

Архив

Мероприятия

Календарь мероприятий

июль

2025

показать все

Новости партнеров

11.07.2025

CICADA8 запускает на рынок решение для безопасной разработки ПО

09.07.2025

T1 разработал решение для формирования банковской отчётности на базе BI-платформы Modus

09.07.2025

Что готовы доверить ИИ российские предприниматели

07.07.2025

Операционная система РЕД ОС включена в состав программно-аппаратных комплексов для авиационной отрасли

07.07.2025

Треть российских компаний отдают техподдержку сетей на аутсорс из-за высокой стоимости содержания собственного штата

показать все

Статьи

30.06.2025

Нет никакого развития современных технологий!

30.06.2025

Людмила Сальникова: «Сегодня руководитель, который хочет быть успешным, иметь свой мощный репутационный капитал, просто обязан быть публичным. В цифровом мире неизвестность равносильна пустому месту»

30.06.2025

Сергей Мисюра: «В техподдержке – 95% инцидентов уникальны по содержанию»

26.06.2025

Новые технологии: зачем нам столько?

18.04.2024

Как искусственный интеллект изменит экономику

22.09.2023

Эпоха российской ориентации на Запад в сфере программного обеспечения завершилась

22.09.2023

12 бизнес-концепций, которыми должны овладеть ИТ-руководители

22.09.2023

Проще, чем кажется. Эталонная модель документооборота или краткое руководство по цифровой трансформации

показать все

Выбери представления данных и выяви из них лучшее

Главная / Архив номеров / 2016 / Выпуск №04 (57) / Выбери представления данных и выяви из них лучшее

Рубрика: ИТ-управление

Эдуард Клышинский, к.т.н., доцент департамента компьютерной инженерии НИУ ВШЭ

Выбери представления данных
и выяви из них лучшее

Грамотный выбор решения – залог успешного проекта. Есть несколько базовых принципов, владение которыми помогает повысить обоснованность принимаемых решений¹

Для того чтобы правильно принимать решения, необходимо уподобиться главному герою фильма «Люди в черном» в тот момент, когда он проходил вступительный экзамен. Пока все стреляют в монстров, ты находишь главную мишень и поражаешь ее с первого выстрела. Но как отличить ее от всех остальных? В этой статье мы постараемся понять, каквизуализировать данные, чтобы принятие решений стало проще.

В предыдущей статье [1] мы рассмотрели вопрос о том, как принимать взвешенное решение по имеющимся данным. При этом считалось, что имеющиеся данные достаточно прозрачны – мы понимаем, какие процессы стоят за полученными данными, можем спрогнозировать эти процессы, предсказать, какие значения мы получим при переходе в область, где у нас данных нет.

На практике такое случается далеко не всегда. Перед нами лежит неисследованная область, логику поведения которой мы не понимаем. Например, пользователи приходят на сайт тогда, когда это удобно им, а время их прихода меняется год от года. Что стоит за этими изменениями? Правильным ответом здесь будет: «Вопрос нуждается в исследовании». Вместо того чтобы генерировать гипотезы, хорошо бы разобраться с тем, как ведет себя система, и лишь потом предлагать какие-то закономерности.

Анализировать числовые данные с листа могут далеко не все. Автор слышал историю о специалисте, который, глядя на колонки цифр, мог определить, что именно надо исправить вмодели самолета для того, чтобы она стала вести себя адекватно. Но если бы меня спросили, могу ли я привести еще два примера… Можно вспомнить операторов из фильма «Матрица», но больше в голову ничего не приходит. Все-таки большинство предпочтет визуальную информацию. При правильно подобранном формате она позволяет представить большой объем данных в удобной форме.

Итак, у нас есть многомерный набор данных и двумерный экран. Каким образом мы можем представить первое на втором? С двумя и тремя измерениями все понятно, эволюция сделала так, что мы легко справляемся с плоскими и объемными изображениями. Но что делать, когда данных больше?

На самом деле мы привыкли обрабатывать больше трех измерений. Не заводя разговор о времени, можно просто сказать, что все объекты обладают цветом. Представьте себе сферу. Теперь допустим, что нам необходимо показать разницу температур на поверхности этой сферы. Логичным решением будет показать эту разницу цветом: более холодные зоны принято обозначать синим, более теплые – красным. Если показать сферу с двух разных сторон, мы получим полную картину. Аналогично можно представить себе карту высот иглубин на глобусе Земли. Ну, или Марса, как это показано на рис. 1.

Рисунок 1. Карта высот Марса. Изображение взято с сайта НАСА (http://nasa.gov)

На самом деле мы использовали здесь незаметный трюк – вместо четырех измерений мы использовали только три. Вместо того чтобы представить сферу в виде трехмерного объекта, мы взяли только ее поверхность, которую можно описать всего двумя координатами – широтой и долготой. Далее мы прибавили третью координату, температуру, ипостроили изображение.

Запомните этот трюк, мы вернемся к нему в дальнейшем. Он называется сокращением размерности пространства признаков и заключается в том, что мы отбрасываем часть параметров как несущественные или менее важные.

Заметьте также, что если на изображении мы покажем сферу только с одной стороны, мы безвозвратно потеряем половину информации. Если мы покажем сферу с двух сторон, мыполучим всю информацию, но с искажениями.

Вернемся к карте Земли. Помните проекцию, на которой Гренландия занимает такую же площадь, что и Африка? И это при том, что площадь Гренландии – 2,1 млн км², а площадь Африки – 30,2 млн км². Так получается за счет искажений на краях – или мы растягиваем карту при получении плоской проекции, или мы «фотографируем» сферу, но при этом награницах все будет сливаться. То есть для более точной передачи информации требуется сделать шесть «снимков» нашей сферы, иначе информация об экваторе или полюсах будет отображаться с искажениями.

Мораль: на одну и ту же информацию можно и нужно смотреть с различных точек зрения. Данный вывод является не только философским, но и геометрическим – правильно подобранная проекция может помочь отобразить данные, тогда как неправильный ее подбор может исказить всю картину.

Но вернемся к нашей неравномерно разогретой сфере. Мы можем и не отбрасывать лишние координаты, а работать именно в четырехмерном пространстве. Помните картину, где Земля изображалась в разрезе? Ядро, мантия, кора… Все как на рис. 2. Это настоящее четырехмерное изображение: три координаты в сфере плюс «тип материала», показанный цветом. Отсутствующую на плоском изображении информацию дорисовывает наше воображение.

Рисунок 2. Структура планет. Изображение взято с сайта НАСА (http://nasa.gov)

Мы понимаем, что из сферы вырезан сектор и представляем себе рисунок на поверхности выреза. Мы используем симметричность земной сферы для того, чтобы понять, что ядро равномерно по всем направлениям (хотя это совершенно не обязательно – данные могут быть и несимметричны, просто мы выберем характерный срез). Мы используем умение восстанавливать объем из плоского изображения, чтобы понять, что ядро сферично.

С помощью различных ухищрений в некоторых случаях на листе можно отобразить до шести измерений. Представьте себе фотографию глобуса с нанесенной картой течений илинаправлений ветра (см. рис. 3). Каждая стрелочка, показывающая направление течения, отражает информацию о перемещении в трехмерном пространстве: течение идет вверх иливниз, вправо или влево, от нас или к нам. Плюс к этому хвостик каждой стрелочки привязан к какой-то точке в трехмерном пространстве.

Рисунок 3. Карта ветров. Изображение взято с сайта НАСА (http://nasa.gov)

Таким образом, мы получаем шесть измерений: три показывают, где стрелочка находится, три – куда она направлена. Внимательный читатель может возразить, что направление снова можно задать лишь двумя координатами: широтой и долготой. А как быть с длиной стрелки, показывающей скорость течения? Мы ведь не ограничиваемся только направлением, поэтому нам нужны именно все три координаты.

Если вместо статичного изображения взять видео, мы получим уже целых семь координат (добавится изменение ситуации во времени). Температура течения может отражаться цветом стрелки, соленость – толщиной линий, опасность течения для мореплавания – видом оперения. Десять измерений на одном плоском экране! Но мне кажется, что я начинаю перенапрягать ваше воображение. Да и смотреть на такое видео будет довольно сложно. Мы точно не можем охватить всю картину целиком одним взглядом. Но вся необходимая информация для анализа у нас есть.

А что делать, если мы хотим представить себе течения во всем объеме? Задача вполне актуальна, если мы рассчитываем полет объекта. В такой ситуации стоит добавить интерактивности – вырез, который показывал нам структуру Земли, должен двигаться. В этом случае слой за слоем мы получим информацию обо всем объеме. Именно таким образом поступает томограф, который выдает последовательность срезов органа, по которым потом может быть восстановлена трехмерная картина.

Теперь вернемся к нашему примеру с анализом посещаемости сайта. Если раньше новостные сайты наблюдали несколько всплесков активности, приходящихся на начало и конец рабочего дня, а также на обеденный перерыв, то теперь пользователи чаще читают новости по дороге на работу. Подтверждением этого факта является увеличение доли мобильных версий браузеров в это время.

Чтобы обнаружить этот факт, можно воспользоваться одним трюком: группировкой данных в зависимости от их природы. Одни и те же данные можно представить в линейном виде (см. рис. 4 слева) или в виде спирали (см. рис. 4 справа). Изображение справа дает гораздо больше информации об имеющихся зависимостях. Альтернативой может стать расположение фрагментов ряда данных одного под другим. Мораль: правильно подобранный метод визуализации значительно упрощает анализ данных.

Рисунок 4. Варианты представления временных данных. Изображение взято из книги «Mastering the Information Age Solving Problems with Visual Analytics», D. Keim и др.

Итак, мы можем отобразить на листе четыре-пять измерений без серьезных потерь с точки зрения качества анализа информации. А что делать, если число параметров значительно больше?

Для начала попробуем отобразить их все. В инженерной графике принято строить эпюры – проекции объекта на три плоскости. Если сфотографировать объект спереди, сверху ислева, то мы получим представление о том, как он выглядит в объеме. Аналогичным образом можно построить эпюр для трехмерных данных. Если внимательно присмотреться к рис. 5, то можно увидеть две группы точек и понять их взаимное расположение.

Рисунок 5. Пример расположения данных на трехмерном эпюре

Аналогичным образом можно строить эпюры для многомерных пространств. Каждый элемент такого эпюра будет показывать проекцию всех данных на плоскость, определяемую двумя параметрами из всего множества. На рис. 6 показан пример таких данных. Здесь показаны квартиры Сан-Франциско (зеленые точки) и Нью-Йорка (синие точки). В качестве параметров выбраны высота над уровнем моря, год постройки, количество ванных комнат, спален, цена, площадь и стоимость квадратного метра.

Рисунок 6. Многомерный эпюр, показывающий массив данных по квартирам Сан-Франциско и Нью Йорка. Изображение взято с http://www.r2d3.us

Правый верхний график показывает зависимость высоты над уровнем моря (по вертикали) от стоимости квадратного метра (по горизонтали). Левый верхний график показывает зависимость высоты над уровнем моря (по вертикали) от года постройки (по горизонтали). При наличии богатого пространственного воображения можно представить себе весь объем данных, но гораздо проще анализировать его по частям.

Если внимательно изучить каждый график в отдельности, можно заметить, что цена растет с ростом площади квартиры, причем чем больше стоимость за квадратный метр, тем выше стоимость квартиры (три графика в правом нижнем углу). Наблюдается зависимость числа спален и ванн от площади и стоимости квартиры (третий ряд снизу).

Но если мы знаем о существовании такой зависимости, нужно ли нам отображать эти данные? И здесь можно повторить трюк с отбрасыванием параметров. Если мы твердо уверены, что чем больше квартира, тем больше в ней спален и ванных комнат, то впоследствии мы всегда сможем восстановить эту информацию по исходному набору данных. Значит, последние два параметра можно отбросить и тем самым упростить себе задачу.

Теперь давайте проведем еще один мысленный эксперимент. Возьмем клетчатый лист бумаги и нанесем точки в местах пересечения линий. Изогнем лист в виде синусоиды. Теперь повернем этот лист по каждой из трех осей. Если теперь смотреть на эпюр получившихся точек, то мы увидим некоторую мешанину. В ней будут видны линии, но понять закономерность будет сложно. Теперь представим себе, что мы добавляем еще четыре-пять координат. Картина стала еще сложнее. Но мы-то знаем, что закономерность есть. Необходимо только поменять угол зрения на проблему, примерно так же, как мы это делали с Африкой и Гренландией.

Такой поворот делает метод главных компонент (Principal Component Analysis, PCA). Он выбирает направление, в котором разброс параметров самый большой, и назначает его первой осью координат. Аналогичным образом выбирается вторая ось, третья…

После этого можно отобразить данные с использованием новой системы координат, полученной с помощью таких поворотов. Число осей можно выбирать самостоятельно. Мыпытались запутать систему поворотами и добавлением параметров, она успешно выбрала нужные параметры и вернула лист на место.

Однако метод главных компонент не сможет разгладить лист после того, как мы его изогнули. А если бы лист был резиновым, помимо изгибов, мы могли бы его растянуть илисжать. С подобными искажениями справляются такие методы, как Elastic Maps или t-SNE. Они не только делают повороты, но и стараются «надавить» на систему точек таким образом, чтобы расположить их в двух- или трехмерном пространстве с минимальными искажениями.

На рис. 7 показан результат применения метода t-SNE к данным, находившимся ни много ни мало примерно в 600 000-мерном пространстве. Шестьсот тысяч параметров! Если бы унас было столько точек, мы и то смогли бы проанализировать их с большим трудом, а здесь сотнями тысяч измеряется число параметров. А результатом применения является выделение некоторых зон, в которых точки расположены плотно и отдельно от других. Скажу по секрету: это была довольно важная информация для данного исследования.

Рисунок 7. Результат применения метода t-SNE к данным в 600 000-мерном пространстве. Автор благодарит Петра Ермакова за предоставленное изображение

Завершая наше визуальное путешествие по методам представления данных, хочу заметить, что, к великому сожалению, Эксель не умеет строить подобную визуализацию. Дляподобной обработки данных необходимо нечто более серьезное – SAS, SPSS, Statistica. Можно пригласить профессионального программиста на Питоне или языке с коротким названием R. И если этот программист будет еще и специалистом по анализу данных, не показывайте ему эту статью. Не из вредности. Просто потому, что все это он и сам прекрасно знает. Он ведь недаром ел свой хлеб до сих пор, правда? бит

Клышинский Э. Выяви альтернативы и выбери из них лучшую. //«БИТ», №3, 2016 г. – С. 52-55 (http://bit.samag.ru/archive/article/1658).

1. Автор все еще признателен Катерине Ляско за идею названия и аннотации к данной статье (см. «БИТ», №1 2016 г., http://bit.samag.ru/archive/article/1613).

В начало⇑

Комментарии отсутствуют

Комментарии могут отставлять только зарегистрированные пользователи

Выпуск №4 (147) 2025г.

Где купить

Архив

Вакансии на сайте Jooble

Tel.: (499) 277-12-41 Fax: (499) 277-12-45 E-mail: sa@samag.ru