Календарь мероприятий
февраль 2025
Пн |
Вт |
Ср |
Чт |
Пт |
Сб |
Вс |
| | | | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | | |
показать все 
Новости партнеров
Роботизация бизнес-процессов: Итоги вебинара Сбер и DBI.
Читать далее 
Исследование Threat Zone 2025: представили годовую динамику российского ландшафта угроз
Читать далее 
BI.ZONE PAM 2.0: ускорено решение рутинных задач по управлению привилегированным доступом
Читать далее 
Руководитель, архитектор, лидер: кто такой Delivery Manager?
Читать далее 
DBI принял участие в PGProDay 2025
Читать далее 
показать все 
Статьи
Вы уже пользуетесь DeepSeek?
Читать далее 
Машинное обучение в облаке
Читать далее 
Лучшее, конечно, впереди?
Читать далее 
Как управлять командой разработчиков в условиях постоянных изменений?
Читать далее 
Как привлекать ИТ-таланты в условиях дефицита кадров?
Читать далее 
Что следует учитывать ИТ-директорам, прежде чем претендовать на должность генерального директора?
Читать далее 
Взгляд в перспективу: что будет двигать отрасль информационной безопасности
Читать далее 
5 способов повысить безопасность электронной подписи
Читать далее 
Как искусственный интеллект изменит экономику
Читать далее 
Неочевидный САПР: выход ПО за рамки конструкторской деятельности
Читать далее 
показать все 
|
Машинное обучение в облаке
Главная / Статьи / Опросы / Машинное обучение в облаке
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
Машинное обучение в облаке
Эксперты отвечают на вопросы «БИТа» о возможностях и сценариях машинного обучения.
1. Безопасно ли использовать такой инструмент?
2. Какие могут возникнуть проблемы с машинным обучением в облаке?
3. Какие есть лучшие платформы для этого?
4. Развивается ли эта сфера в России?
Алексей Пономарёв, руководитель направления инновационных технологий группы ИТ-компаний TeamIdea
«Облачные платформы можно рассматривать как инструмент для экономии бюджета, особенно для задач, связанных с обучением моделей»
Сценарии машинного обучения в облаке строятся, прежде всего, на возможности загружать большие объемы данных в инфраструктуру, развернутую на облачных ресурсах. Это дает гибкость в выборе мощностей, таким образом компании могут оптимизировать затраты на покупку дорогостоящего оборудования (корпоративное хранилище данных, видеокарты с модулями GPU и т.д.). То есть, по сути, облачные платформы можно рассматривать как инструмент для экономии бюджета, особенно для задач, связанных с обучением моделей.
Можно выделить два основных сценария машинного обучения в облаке. Первый – обучаем в облаке и там же разворачиваем продуктивную среду, на которой уже обученная модель работает в рамках бизнес-требований заказчика.
Второй сценарий и самый распространенный – используем платформу машинного обучения непосредственно для формирования моделей на каких-то данных. Далее эту модель переносим в закрытый корпоративный контур безопасности заказчика.
Безопасно ли использовать такой инструмент? Чтобы получить безопасность, нужно правильно выбирать провайдера, на платформе которого будет происходить машинное обучение: нужно убедиться, что он поддерживает международные стандарты безопасности хранения данных.
Еще один важный аспект – это географическое расположение дата-центров, куда будут загружаться данные для обучения. В свете геополитических событий это фактор важнейший при выборе облачных или локальных ресурсов.
Какие могут возникнуть проблемы с машинным обучением в облаке? В первую очередь есть риск нарушить закон. Как в России, так и за рубежом достаточно жесткое законодательство в плане использования персональных данных граждан. При выгрузке данных для обучения в облачное хранилище провайдера нужно понимать, какие из них могут быть критически важными и подпадать под юридические запреты. Если служба информационной безопасности на предприятии согласует машинное обучение, то нужно быть уверенным, что данные как минимум анонимны, не представляют собой пароли, фотографии и так далее.
Большие проблемы могут быть также, если загруженные для обучения в облаке данные связаны с коммерческой тайной предприятия или того хуже – государственной тайной. Есть риск, что засвеченные данные в облаке осядут где-то за рубежом, а это нарушение как минимум нескольких федеральных законов.
Какие есть лучшие платформы для этого? Лидирующие позиции традиционно удерживает большая четверка: Amazon, Microsoft, Google и IBM. Эти компании предоставляют облачную платформу как сервис – в ней все настроено для очень удобного, гибкого и быстрого старта машинного обучения. В России всегда развивался сектор поставки программного обеспечения как сервиса, то есть можно было в облаке развивать различные ПО, базы данных, дополнительные ресурсы. Но у нас пока нет сервиса как единой платформы именно для машинного обучения. К этой цели провайдеры еще идут.
Андрей Малов, директор по продукту “ТТК.Облако”
«В случае реализации машинного обучения на базе инфраструктуры onPrem или в облаке IaaS ,компания может быть абсолютно уверена, что сервис защищен как физически, так и с точки зрения информационной системы»
Существует машинное обучение, связанное с текстовыми данными, обработкой видеоинформации и аудиоинформации. Практически все каналы коммуникаций и все виды данных, накопленных компаниями, могут подвергаться машинному обучению. Но для этого нужны соответствующие ресурсы обработки и хранения данных – все это можно получить в облаке.
Безопасно ли использовать такой инструмент? Уровень безопасности напрямую зависит от типа сервиса. Сервисы машинного обучения можно получить как услугу в формате SaaS. В этом случае компания мало контролирует процесс обучения и обработки своих данных с точки зрения информационной безопасности. Ей приходится доверять провайдеру, передавать в его руки практически полностью ответственность за безопасность данных.
Поэтому, выбирая SaaS, нужно четко понимать, какие юридические гарантии провайдер может предоставить. Чаще всего они выражены в форме оферты, которую заказчик услуги заполняет при регистрации на сайте провайдера. Оферту необходимо очень внимательно прочитать. Может оказаться так, что оператор сервиса никакой ответственности за разглашение данных не несет – в этом случае с ним не стоит сотрудничать.
Также существует вариант построения собственной платформы машинного обучения. Это можно сделать как в формате onPrem, купив необходимый набор серверов и программное обеспечение.
Другой вариант – построить платформу машинного обучения в облаке на инфраструктуре IaaS, арендуя все необходимое, включая сервер, средства защиты, саму платформу. В этом случае компания получает намного более защищенный процесс обработки информации.
Несмотря на то, что сервер находится в стороннем ЦОДе, можно полностью управлять установленным на него программным обеспечением. Например, установить одну из защищенных операционных систем, добавить необходимые средства защиты, тем самым построить защищенный контур обработки информации.
Кроме того оператор ЦОД гарантирует необходимые меры физической защиты при доступе к этому серверу (то есть никаких посторонних людей около него не будет). Таким образом, в случае реализации машинного обучения на базе инфраструктуры onPrem или в облаке IaaS ,компания может быть абсолютно уверена, что сервис защищен как физически, так и с точки зрения информационной системы.
Какие есть лучшие платформы для этого? В первую очередь я бы отметил ClearML. Это open-source инструмент, который позволяет построить правильный пайплайн для управления экспериментами машинного обучения. Дело в том, что когда мы пытаемся научить нейросеть делать что-то полезное на основе наших данных, то проводим большое количество экспериментов: меняем параметры нейросети, количество слоев, их размер, меняем логику обучения и т.д. Итераций может быть великое множество. А после каждой итерации обученную нейросеть нужно к тому же проверить на тестовых примерах. ClearML позволяет автоматизировать этот процесс и избавиться от ручного труда. Подобный сервис также можно получить в формате SaaS, но уже с технической поддержкой от провайдера этого сервиса либо развернуть самостоятельно в своей инфраструктуре.
Развивается ли эта сфера в России? Машинное обучение – сфера, которая сейчас на пике развития в России. По моим наблюдениям, многие компании пробуют свои силы в этом. Очевиден постоянно растущий спрос на инфраструктуру как для машинного обучения, так и для запуска решений на базе уже предобученных моделей ИИ. На мой взгляд, это одна из передовых сфер, которая обеспечит рост технологической сферы в ближайшие несколько лет.
Андрей Никитин, начальник отдела цифрового моделирования продаж в IBS
«При выборе облачного сервиса нужно обращать внимание на провайдеров, обеспечивающих безапелляционно высокую защиту от несанкционированного доступа и имеющих безупречную репутацию на рынке»
В искусственном интеллекте можно выделить несколько основных направлений: машинное обучение, глубокое обучение и генеративный ИИ. Все эти направления нацелены на решение конкретных задач бизнеса. Машинное обучение позволяет автоматизировано анализировать большой объем исторических данных в табличном виде, находить в них скрытые закономерности и, на их основании, прогнозировать значение целевого параметра до того, как оно станет известным.
Простыми словами, машинное обучение – это «умный» статистический анализ. Примерами применения машинного обучения являются виртуальные анализаторы, прогнозирование продаж, урожая, классификация объектов и прочее. В глубоком же обучении используются нейронные сети. Основным пулом задач для глубокого обучения являются задачи анализа изображений. Генеративный ИИ, в свою очередь, это ныне популярные GPT-подобные системы, открывшие возможности к интеллектуальному анализу текстов, изображений, генерации контента.
Все модели машинного обучения, как правило, не требуют больших вычислительных мощностей в отличие от задач глубокого обучения и генИИ. Поэтому модели машинного обучения можно размещать в контуре заказчика, что не вызывает дополнительных рисков с точки зрения информационной безопасности, так как потребности использовать облачные сервисы не возникает.
В задачах глубокого обучения и генИИ такая потребность может возникнуть, так как облачные сервисы предоставляют доступ мощному специализированному оборудованию (GPU, TPU), которое сконфигурировано и ориентировано под задачи с высокой вычислительной сложностью. При выборе облачного сервиса нужно обращать внимание на провайдеров, обеспечивающих безапелляционно высокую защиту от несанкционированного доступа и имеющих безупречную репутацию на рынке.
В части развития этой сферы в России ситуация неоднозначная. Технические возможности в России довольно перспективные, но большинство организации могут иметь внутренние правила, запрещающие хранение чувствительных данных за пределами своих сетей.
Кроме того, в области здравоохранения и финансов существуют строгие нормы по защите данных. Необходимо убедиться, что выбранный облачный провайдер соответствует регуляторным требованиям, либо размещать ИИ-модели только в собственном контуре.
Мы со своей стороны видим, что большинство наших заказчиков предпочитают размещать ИИ-модели в собственном контуре для обеспечения информационной безопасности. При этом по мере развития облачных сервисов в России доверие к использованию данных ресурсов, вероятно, будет расти.
Александр Борисов, руководитель направления Data Science RAMAX Group
«Если на вход обученной модели, например, для распознавания котов на фото, подать аналогичные данные – фото с собакой, то модель выдаст прогноз: на этом фото котов нет»
Машинное обучение – это создание «знаний» из данных с использованием алгоритмов определенных классов, способных к обобщению этих данных и извлечению их них прогнозов. «Знания» в этом подходе – это понимание структуры данных во всем имеющемся объеме, и их «свертка» в веса модели машинного обучения. Если на вход обученной модели, например, для распознавания котов на фото, подать аналогичные данные – фото с собакой, то модель выдаст прогноз: на этом фото котов нет.
Таким образом, возможности машинного обучения напрямую связаны с данными, на которых обучалась модель – для описанного примера нам нужна база фото с большим количеством отмеченных на них котов, обычно от нескольких сотен до нескольких тысяч для каждого класса будущего прогноза. Для получения такой базы вам потребуется провести «разметку» каждого фото с помощью специального ПО, и если на каких-то фото кот будет размечен неправильно (например, без хвоста), то это может привести к ошибочным прогнозам модели.
Другой фактор – для обучения модели требуются значительные вычислительные ресурсы, и если у вас их нет под рукой на постоянной основе, то вам на помощь придут облачные ИИ-сервисы, позволяющие временно получить практически любой объем таких ресурсов.
С другой стороны, у компании, использующей такой сервис, могут возникнуть вопросы к безопасности передачи и хранения чувствительных данных, которые используются для обучения модели.
Представьте, что вместо разметки котов ваш сервис распознает платежные поручения. В таком случае сканы разделяются на отдельные элементы, перемешиваются и передаются различным исполнителям. Но это не всегда возможно – например, в случае массивов медицинских данных.
Исторически, первые облачные ИИ-сервисы создали технологические гиганты – можно привести в пример AmazonWebServices, MicrosoftAzure, GoogleCloud и Colab.
В России сегодня также есть свои продукты аналогичного класса – их развивают в Сбере (Cloud.RuMLSpace), Яндексе (Cloud, DataSphere), облачных провайдерах, таких как Selectel. Недавно аналогичный сервис появился у МТС (WebServices, ML-платформа).
Основное преимущество – скорость развертывания и доступ к специализированным графическим ускорителям (GPU), необходимым для обучения нейросетей. Из ограничений можно назвать сложности с передачей данных из ИТ-периметра компании в облако, либо обученных моделей внутрь ИТ-периметра компании, и воссоздание такого сервиса вне облака – для этого нужно использовать специальные MLOps-решения.
Сергей Сженов, директор департамента по развитию продуктов, EdgeЦенто
«Облачное машинное обучение – это мощный инструмент, но важно учитывать его возможности и риски, выбирая надежных провайдеров и соблюдая требования к информационной безопасности»
Облачные технологии в машинном обучении открывают широкие горизонты для разработки, тестирования, тренировки и внедрения моделей искусственного интеллекта.
Основные преимущества и области применения включают: 1. Универсальность и масштабируемость: – Облачные решения позволяют динамично наращивать вычислительные мощности в зависимости от потребностей. Это особенно важно для сложных моделей, требующих обширных данных и значительных вычислительных ресурсов. 2. Доступность мощных инструментов и библиотек: – Облачные сервисы предоставляют готовые инструменты для обработки данных и развертывания моделей, такие как TensorFlow, PyTorch, Scikit-learn и другие. 3. Примеры использования: – Анализ больших данных для прогнозов и аналитики. – Компьютерное зрение: распознавание изображений и видео. – Обработка естественного языка: чат-боты, анализ текста, машинный перевод. – Предиктивная аналитика: прогнозирование спроса, анализ поведения пользователей. 4. Интеграция с другими системами: – Возможность соединения с базами данных, IoT-устройствами и другими облачными сервисами.
Использование облачных технологий для машинного обучения может быть безопасным при соблюдении лучших практик. Основные аспекты безопасности включают: 1. Шифрование данных: – Данные, используемые в обучении, должны быть защищены шифрованием как при передаче, так и при хранении. 2. Контроль доступа: – Доступ к данным и моделям должен быть ограничен авторизованными пользователями с определенными правами. 3. Надежные поставщики: – Надежные облачные платформы, такие как Google Cloud, AWS, Microsoft Azure, содержат встроенные средства для защиты данных и моделей.
Возможные проблемы машинного обучения в облаке 1. Конфиденциальность данных: – Передача данных в облако может быть сопряжена с рисками утечек, особенно если данные персональные или чувствительные. 2. Зависимость от поставщика: – Компании могут стать зависимыми от инфраструктуры и инструментов конкретного облачного сервиса. 3. Задержки и производительность: – Работа с большими данными может привести к задержкам из-за сетевых ограничений. 4. Проблемы с локальными регуляциями: – В некоторых случаях могут быть ограничения на передачу и обработку данных за границей.
Популярные платформы для машинного обучения в облаке 1. Google Cloud AI Platform: – Инструменты для создания, тренировки и развертывания моделей машинного обучения с интеграцией TensorFlow и других библиотек. 2. Amazon Web Services (AWS) SageMaker: – Полная платформа для обучения и развертывания моделей с поддержкой распределенного обучения. 3. Microsoft Azure Machine Learning: – Платформа с возможностями автоматизированного машинного обучения и интеграцией с другими сервисами Azure. 4. IBM Watson: – Инструменты для обработки естественного языка и создания предиктивных моделей. 5. Яндекс Облако (в России): – Локальная альтернатива для российских компаний, отвечающая требованиям безопасности и регуляциям.
Развитие облачного машинного обучения в России. Сектор облачного машинного обучения в России активно развивается благодаря: 1. Поддержке локальных провайдеров: – Яндекс Облако и СберОблако предлагают решения, соответствующие российским законам и защищающие персональные данные. 2. Интеграции с государственными программами: – Внедрение технологий ИИ в государственный и коммерческий сектора в рамках цифровизации. 3. Росту экосистемы: – Увеличение числа стартапов и компаний, работающих с ИИ, благодаря доступности облачных технологий. 4. Проблемам импортозамещения: – На фоне санкций компании ищут локальные решения для облачных вычислений. Облачное машинное обучение – это мощный инструмент, но важно учитывать его возможности и риски, выбирая надежных провайдеров и соблюдая требования к информационной безопасности.
Сергей Щербаков, старший руководитель группы аналитики данных и ML, ICL Services
«Инструмент сам по себе полностью безопасен – он не захватит мир, он не разобьет окно, он не выложит в общий доступ миллионы строк персональных данных»
Если очень упрощать, то основная фишка машинного обучения – это умение учиться самостоятельно на основе известных данных. Результатом такого обучения является обученный алгоритм (обученная модель), которая может решать поставленную при обучении задачу на основе исходных данных с определенной точностью.
Инструмент сам по себе полностью безопасен – он не захватит мир, он не разобьет окно, он не выложит в общий доступ миллионы строк персональных данных.
Но очевидно, что, как и любым инструментом, им надо уметь пользоваться и соблюдать элементарные требования по безопасности. Например, помнить, что все выдаваемые решения – это определенная вероятность, которая не является истиной в последней инстанции. Ну, и в плане информационной безопасности тоже банальные рекомендации – если вы скачиваете какую-нибудь модель с просторов интернета, то было бы неплохо проверить ее на наличие вирусов или закладок.
Если мы говорим про машинное обучение как сам процесс обучения, то основная проблема одна, и она традиционна для облачной среды – это данные, представляющие персональную, коммерческую, медицинскую или любую другую тайну. Если данные нельзя выносить в облако – это проблема и решить ее будет достаточно сложно.
Понятно, что кроме этого есть вопросы целесообразности обучения в облаке (тоже стандартные, для сравнения облако vs локальные вычисления), есть технические вопросы организации передачи данных в облако, есть вопросы переноса результатов обучения в локальный контур (или нет этого вопроса, если среда работы обученных моделей тоже облачная). Но все это технические нюансы, на проблемы они не тянут.
С другой стороны, есть общие вопросы, которые приходится решать в процессе обучения моделей (очистка данных, валидация, подбор моделей, переобучение и т.п.). Но они не зависят от того, в облаке делаются вычисления или локально.
Так что повторюсь – основная проблема, это данные. Все остальное – нюансы и вопросы.
Практически все облачные провайдеры как мировые, так и российские предоставляют платформы для машинного обучения в облаке. Причем эти сервисы предоставляются в самых разных вариантах – от «накликай себе процесс обучения мышкой» до готовых виртуальных машин с GPU и соответствующим окружением.
Наши облачные провайдеры предоставляют аналогичные сервисы и можно выбрать на любой вкус и кошелек – Яндекс, ВК, Сбер, Селектел и так далее. И я говорю не просто про аренду машин с GPU, куда надо поставить все самому, а про полноценную MLOps платформу, «заточенную» под эксперименты с машинным обучением и позволяющую упростить решение задач по дальнейшему переносу и деплою моделей в продуктивную среду, где бы она ни находилась.
Максим Захаренко, СЕО «Облакотека»
«Машинное обучение в облаке в России активно развивается: компании продолжают внедрять ML-решения, а российские облачные платформы адаптируются под новые задачи»
Машинное обучение в облаке для многих компаний сейчас превращается из просто удобного инструмента в единственную реальную возможность работать с ML без огромных инвестиций в инфраструктуру. У нас в Облакотеке мы видим, что спрос на такие решения только растёт, и если раньше ML использовали в основном крупные компании, то сейчас даже небольшие команды запускают свои модели в облаке.
Рассказываю подробно. Возможности и сценарии ML Один из наиболее популярных сценариев – предсказательная аналитика. Ритейл использует ML для прогнозирования спроса и управления запасами, банки – для выявления мошенничества, а промышленные предприятия – для предиктивного обслуживания оборудования, чтобы предотвращать возможные поломки. Также растёт интерес к ML в области обработки изображений и видео, особенно в медицинской диагностике и системах безопасности.
Например, один из наших клиентов – “Ямми Групп” – использует облачные GPU-ресурсы для обучения моделей компьютерного зрения, которые в реальном времени анализируют изображения с камер наблюдения, установленные в ресторанах KFC и Ростикс.
Безопасность – ключевой вопрос. Когда речь идёт о машинном обучении в облаке, важно понимать, что модели обучаются на данных, – а значит, есть потенциальные риски их утечки. Мы видим, что компании решают этот вопрос по-разному: кто-то выделяет отдельные защищённые контуры для ML, кто-то использует продвинутые механизмы шифрования, а кто-то применяет федеративное обучение, чтобы избежать передачи “чувствительных” данных.
Проблемы при использовании ML. Одна из главных технических сложностей, с которыми сталкиваются клиенты, – качество данных. ML-модель хороша ровно настолько, насколько чистые и правильно размеченные данные на входе. Если они неполные или содержат ошибки, модель будет выдавать некорректные результаты. Поэтому сейчас очень большое внимание уделяется управлению данными (Data Governance), их подготовке и очистке.
Раньше, до введения санкций, российские компании часто использовали зарубежные облачные решения, но теперь доступ к ним ограничен. В результате на рынке появились отечественные альтернативы. В Облакотеке, например, мы запустили сервис GPU для обучения и развертывания ML-моделей, который позволяет компаниям работать с машинным обучением без необходимости закупать дорогостоящее оборудование. Наши клиенты используют эти ресурсы для сложных вычислительных задач – от аналитики до генеративных моделей.
Если говорить о других облачных платформах, то из числа наших конкурентов мы отдаем должное Яндексу и его ML-сервисам, а также VK Cloud, Сбер AI, Selectel. В целом машинное обучение в облаке в России активно развивается: компании продолжают внедрять ML-решения, а российские облачные платформы адаптируются под новые задачи. Мы видим, что интерес к теме только растёт, и можем с уверенностью сказать, что в ближайшие годы появится ещё больше специализированных сервисов и инфраструктурных решений для машинного обучения в облаке.
Ключевые слова: машинное обучение, облачные технологии, безопасность, ЦОД, облачные платформы.
В начало⇑
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
Комментарии отсутствуют
Комментарии могут отставлять только зарегистрированные пользователи
|
Вакансии на сайте Jooble
|