Календарь мероприятий
ноябрь 2024
Пн |
Вт |
Ср |
Чт |
Пт |
Сб |
Вс |
| | | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | |
показать все
Новости партнеров
Обновление BI.ZONE Secure DNS: гибкая настройка фильтрации и максимальная скорость
Читать далее
RED Security: в октябре количество DDoS-атак на ТЭК выросло в 3 раза
Читать далее
Falcongaze представила новую версию DLP-системы — SecureTower 7 Helium
Читать далее
ИСП РАН покажет результаты 30-ти лет работы на Открытой конференции в Москве
Читать далее
Юбилейная конференция ЭОС: ЭОС: 30 лет лидерства на рынке автоматизации документооборота и обсуждение актуальных трендов
Читать далее
показать все
Статьи
Тандем технологий – драйвер инноваций.
Читать далее
ИИ: маршрут не построен, но уже проектируется
Читать далее
Глеб Шкрябин: «Надежные и масштабируемые системы — основа стабильной работы бизнеса в условиях больших нагрузок»
Читать далее
Елена Ситдикова: «На разработчиках программного обеспечения для транспорта лежит большая ответственность перед пассажирами»
Читать далее
Технологический ИИ-арсенал
Читать далее
Взгляд в перспективу: что будет двигать отрасль информационной безопасности
Читать далее
5 способов повысить безопасность электронной подписи
Читать далее
Как искусственный интеллект изменит экономику
Читать далее
Неочевидный САПР: выход ПО за рамки конструкторской деятельности
Читать далее
Скоро некому будет делать сайты и заниматься версткой
Читать далее
показать все
|
Выбери представления данных и выяви из них лучшее
Главная /
Архив номеров / 2016 / Выпуск №04 (57) / Выбери представления данных и выяви из них лучшее
Рубрика:
ИТ-управление
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
Эдуард Клышинский, к.т.н., доцент департамента компьютерной инженерии НИУ ВШЭ
Выбери представления данных и выяви из них лучшее
Грамотный выбор решения – залог успешного проекта. Есть несколько базовых принципов, владение которыми помогает повысить обоснованность принимаемых решений1
Для того чтобы правильно принимать решения, необходимо уподобиться главному герою фильма «Люди в черном» в тот момент, когда он проходил вступительный экзамен. Пока все стреляют в монстров, ты находишь главную мишень и поражаешь ее с первого выстрела. Но как отличить ее от всех остальных? В этой статье мы постараемся понять, каквизуализировать данные, чтобы принятие решений стало проще.
В предыдущей статье [1] мы рассмотрели вопрос о том, как принимать взвешенное решение по имеющимся данным. При этом считалось, что имеющиеся данные достаточно прозрачны – мы понимаем, какие процессы стоят за полученными данными, можем спрогнозировать эти процессы, предсказать, какие значения мы получим при переходе в область, где у нас данных нет.
На практике такое случается далеко не всегда. Перед нами лежит неисследованная область, логику поведения которой мы не понимаем. Например, пользователи приходят на сайт тогда, когда это удобно им, а время их прихода меняется год от года. Что стоит за этими изменениями? Правильным ответом здесь будет: «Вопрос нуждается в исследовании». Вместо того чтобы генерировать гипотезы, хорошо бы разобраться с тем, как ведет себя система, и лишь потом предлагать какие-то закономерности.
Анализировать числовые данные с листа могут далеко не все. Автор слышал историю о специалисте, который, глядя на колонки цифр, мог определить, что именно надо исправить вмодели самолета для того, чтобы она стала вести себя адекватно. Но если бы меня спросили, могу ли я привести еще два примера… Можно вспомнить операторов из фильма «Матрица», но больше в голову ничего не приходит. Все-таки большинство предпочтет визуальную информацию. При правильно подобранном формате она позволяет представить большой объем данных в удобной форме.
Итак, у нас есть многомерный набор данных и двумерный экран. Каким образом мы можем представить первое на втором? С двумя и тремя измерениями все понятно, эволюция сделала так, что мы легко справляемся с плоскими и объемными изображениями. Но что делать, когда данных больше?
На самом деле мы привыкли обрабатывать больше трех измерений. Не заводя разговор о времени, можно просто сказать, что все объекты обладают цветом. Представьте себе сферу. Теперь допустим, что нам необходимо показать разницу температур на поверхности этой сферы. Логичным решением будет показать эту разницу цветом: более холодные зоны принято обозначать синим, более теплые – красным. Если показать сферу с двух разных сторон, мы получим полную картину. Аналогично можно представить себе карту высот иглубин на глобусе Земли. Ну, или Марса, как это показано на рис. 1.
Рисунок 1. Карта высот Марса. Изображение взято с сайта НАСА (http://nasa.gov)
На самом деле мы использовали здесь незаметный трюк – вместо четырех измерений мы использовали только три. Вместо того чтобы представить сферу в виде трехмерного объекта, мы взяли только ее поверхность, которую можно описать всего двумя координатами – широтой и долготой. Далее мы прибавили третью координату, температуру, ипостроили изображение.
Запомните этот трюк, мы вернемся к нему в дальнейшем. Он называется сокращением размерности пространства признаков и заключается в том, что мы отбрасываем часть параметров как несущественные или менее важные.
Заметьте также, что если на изображении мы покажем сферу только с одной стороны, мы безвозвратно потеряем половину информации. Если мы покажем сферу с двух сторон, мыполучим всю информацию, но с искажениями.
Вернемся к карте Земли. Помните проекцию, на которой Гренландия занимает такую же площадь, что и Африка? И это при том, что площадь Гренландии – 2,1 млн км2, а площадь Африки – 30,2 млн км2. Так получается за счет искажений на краях – или мы растягиваем карту при получении плоской проекции, или мы «фотографируем» сферу, но при этом награницах все будет сливаться. То есть для более точной передачи информации требуется сделать шесть «снимков» нашей сферы, иначе информация об экваторе или полюсах будет отображаться с искажениями.
Мораль: на одну и ту же информацию можно и нужно смотреть с различных точек зрения. Данный вывод является не только философским, но и геометрическим – правильно подобранная проекция может помочь отобразить данные, тогда как неправильный ее подбор может исказить всю картину.
Но вернемся к нашей неравномерно разогретой сфере. Мы можем и не отбрасывать лишние координаты, а работать именно в четырехмерном пространстве. Помните картину, где Земля изображалась в разрезе? Ядро, мантия, кора… Все как на рис. 2. Это настоящее четырехмерное изображение: три координаты в сфере плюс «тип материала», показанный цветом. Отсутствующую на плоском изображении информацию дорисовывает наше воображение.
Рисунок 2. Структура планет. Изображение взято с сайта НАСА (http://nasa.gov)
Мы понимаем, что из сферы вырезан сектор и представляем себе рисунок на поверхности выреза. Мы используем симметричность земной сферы для того, чтобы понять, что ядро равномерно по всем направлениям (хотя это совершенно не обязательно – данные могут быть и несимметричны, просто мы выберем характерный срез). Мы используем умение восстанавливать объем из плоского изображения, чтобы понять, что ядро сферично.
С помощью различных ухищрений в некоторых случаях на листе можно отобразить до шести измерений. Представьте себе фотографию глобуса с нанесенной картой течений илинаправлений ветра (см. рис. 3). Каждая стрелочка, показывающая направление течения, отражает информацию о перемещении в трехмерном пространстве: течение идет вверх иливниз, вправо или влево, от нас или к нам. Плюс к этому хвостик каждой стрелочки привязан к какой-то точке в трехмерном пространстве.
Рисунок 3. Карта ветров. Изображение взято с сайта НАСА (http://nasa.gov)
Таким образом, мы получаем шесть измерений: три показывают, где стрелочка находится, три – куда она направлена. Внимательный читатель может возразить, что направление снова можно задать лишь двумя координатами: широтой и долготой. А как быть с длиной стрелки, показывающей скорость течения? Мы ведь не ограничиваемся только направлением, поэтому нам нужны именно все три координаты.
Если вместо статичного изображения взять видео, мы получим уже целых семь координат (добавится изменение ситуации во времени). Температура течения может отражаться цветом стрелки, соленость – толщиной линий, опасность течения для мореплавания – видом оперения. Десять измерений на одном плоском экране! Но мне кажется, что я начинаю перенапрягать ваше воображение. Да и смотреть на такое видео будет довольно сложно. Мы точно не можем охватить всю картину целиком одним взглядом. Но вся необходимая информация для анализа у нас есть.
А что делать, если мы хотим представить себе течения во всем объеме? Задача вполне актуальна, если мы рассчитываем полет объекта. В такой ситуации стоит добавить интерактивности – вырез, который показывал нам структуру Земли, должен двигаться. В этом случае слой за слоем мы получим информацию обо всем объеме. Именно таким образом поступает томограф, который выдает последовательность срезов органа, по которым потом может быть восстановлена трехмерная картина.
Теперь вернемся к нашему примеру с анализом посещаемости сайта. Если раньше новостные сайты наблюдали несколько всплесков активности, приходящихся на начало и конец рабочего дня, а также на обеденный перерыв, то теперь пользователи чаще читают новости по дороге на работу. Подтверждением этого факта является увеличение доли мобильных версий браузеров в это время.
Чтобы обнаружить этот факт, можно воспользоваться одним трюком: группировкой данных в зависимости от их природы. Одни и те же данные можно представить в линейном виде (см. рис. 4 слева) или в виде спирали (см. рис. 4 справа). Изображение справа дает гораздо больше информации об имеющихся зависимостях. Альтернативой может стать расположение фрагментов ряда данных одного под другим. Мораль: правильно подобранный метод визуализации значительно упрощает анализ данных.
Рисунок 4. Варианты представления временных данных. Изображение взято из книги «Mastering the Information Age Solving Problems with Visual Analytics», D. Keim и др.
Итак, мы можем отобразить на листе четыре-пять измерений без серьезных потерь с точки зрения качества анализа информации. А что делать, если число параметров значительно больше?
Для начала попробуем отобразить их все. В инженерной графике принято строить эпюры – проекции объекта на три плоскости. Если сфотографировать объект спереди, сверху ислева, то мы получим представление о том, как он выглядит в объеме. Аналогичным образом можно построить эпюр для трехмерных данных. Если внимательно присмотреться к рис. 5, то можно увидеть две группы точек и понять их взаимное расположение.
Рисунок 5. Пример расположения данных на трехмерном эпюре
Аналогичным образом можно строить эпюры для многомерных пространств. Каждый элемент такого эпюра будет показывать проекцию всех данных на плоскость, определяемую двумя параметрами из всего множества. На рис. 6 показан пример таких данных. Здесь показаны квартиры Сан-Франциско (зеленые точки) и Нью-Йорка (синие точки). В качестве параметров выбраны высота над уровнем моря, год постройки, количество ванных комнат, спален, цена, площадь и стоимость квадратного метра.
Рисунок 6. Многомерный эпюр, показывающий массив данных по квартирам Сан-Франциско и Нью Йорка. Изображение взято с http://www.r2d3.us
Правый верхний график показывает зависимость высоты над уровнем моря (по вертикали) от стоимости квадратного метра (по горизонтали). Левый верхний график показывает зависимость высоты над уровнем моря (по вертикали) от года постройки (по горизонтали). При наличии богатого пространственного воображения можно представить себе весь объем данных, но гораздо проще анализировать его по частям.
Если внимательно изучить каждый график в отдельности, можно заметить, что цена растет с ростом площади квартиры, причем чем больше стоимость за квадратный метр, тем выше стоимость квартиры (три графика в правом нижнем углу). Наблюдается зависимость числа спален и ванн от площади и стоимости квартиры (третий ряд снизу).
Но если мы знаем о существовании такой зависимости, нужно ли нам отображать эти данные? И здесь можно повторить трюк с отбрасыванием параметров. Если мы твердо уверены, что чем больше квартира, тем больше в ней спален и ванных комнат, то впоследствии мы всегда сможем восстановить эту информацию по исходному набору данных. Значит, последние два параметра можно отбросить и тем самым упростить себе задачу.
Теперь давайте проведем еще один мысленный эксперимент. Возьмем клетчатый лист бумаги и нанесем точки в местах пересечения линий. Изогнем лист в виде синусоиды. Теперь повернем этот лист по каждой из трех осей. Если теперь смотреть на эпюр получившихся точек, то мы увидим некоторую мешанину. В ней будут видны линии, но понять закономерность будет сложно. Теперь представим себе, что мы добавляем еще четыре-пять координат. Картина стала еще сложнее. Но мы-то знаем, что закономерность есть. Необходимо только поменять угол зрения на проблему, примерно так же, как мы это делали с Африкой и Гренландией.
Такой поворот делает метод главных компонент (Principal Component Analysis, PCA). Он выбирает направление, в котором разброс параметров самый большой, и назначает его первой осью координат. Аналогичным образом выбирается вторая ось, третья…
После этого можно отобразить данные с использованием новой системы координат, полученной с помощью таких поворотов. Число осей можно выбирать самостоятельно. Мыпытались запутать систему поворотами и добавлением параметров, она успешно выбрала нужные параметры и вернула лист на место.
Однако метод главных компонент не сможет разгладить лист после того, как мы его изогнули. А если бы лист был резиновым, помимо изгибов, мы могли бы его растянуть илисжать. С подобными искажениями справляются такие методы, как Elastic Maps или t-SNE. Они не только делают повороты, но и стараются «надавить» на систему точек таким образом, чтобы расположить их в двух- или трехмерном пространстве с минимальными искажениями.
На рис. 7 показан результат применения метода t-SNE к данным, находившимся ни много ни мало примерно в 600 000-мерном пространстве. Шестьсот тысяч параметров! Если бы унас было столько точек, мы и то смогли бы проанализировать их с большим трудом, а здесь сотнями тысяч измеряется число параметров. А результатом применения является выделение некоторых зон, в которых точки расположены плотно и отдельно от других. Скажу по секрету: это была довольно важная информация для данного исследования.
Рисунок 7. Результат применения метода t-SNE к данным в 600 000-мерном пространстве. Автор благодарит Петра Ермакова за предоставленное изображение
Завершая наше визуальное путешествие по методам представления данных, хочу заметить, что, к великому сожалению, Эксель не умеет строить подобную визуализацию. Дляподобной обработки данных необходимо нечто более серьезное – SAS, SPSS, Statistica. Можно пригласить профессионального программиста на Питоне или языке с коротким названием R. И если этот программист будет еще и специалистом по анализу данных, не показывайте ему эту статью. Не из вредности. Просто потому, что все это он и сам прекрасно знает. Он ведь недаром ел свой хлеб до сих пор, правда? бит
- Клышинский Э. Выяви альтернативы и выбери из них лучшую. //«БИТ», №3, 2016 г. – С. 52-55 (http://bit.samag.ru/archive/article/1658).
1. Автор все еще признателен Катерине Ляско за идею названия и аннотации к данной статье (см. «БИТ», №1 2016 г., http://bit.samag.ru/archive/article/1613). В начало⇑
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
Комментарии отсутствуют
Комментарии могут отставлять только зарегистрированные пользователи
|
Вакансии на сайте Jooble
|