Data science на javascript без python
Содержание:
- К вам всегда будут обращаться с любыми вопросами о данных
- Образование в области Data Science: ничего невозможного нет
- Плюсы и минусы профессии
- Бонусные материалы для самообучения
- Кто такой дата-сайентист?
- Подборка хороших курсов
- Чем я занимаюсь
- Оплата труда
- Как им стать
- Вакансии и зарплата, перспективы профессии
- В чем специфика Data Science
- Какие задачи решает?
К вам всегда будут обращаться с любыми вопросами о данных
Вернемся к предыдущему пункту, где я говорил о том, что вам придется делать все, чтобы угодить влиятельным людям. Эти же люди часто не понимают, что именно значит «дата-сайентист». Для них вы будете экспертом в области всего, что касается данных. Ваши коллеги будут думать так же. Для них вы будете хорошо разбираться в Spark, Hadoop, Hive, Pig, SQL, Neo4J, MySQL, Python, R, Scala, Tensorflow, A/B Testing, NLP. (Кстати, будьте осторожны, когда увидите такие характеристики в каком-то описании вакансии. Скорее всего, руководство такого предприятия готово нанять любого специалиста, надеясь, что он решит все их проблемы с данными).
GIF: Medium
Порой очень сложно донести до людей, что вы не знаете всего. Вы будете переживать, что упадете в глазах других, потому что у вас еще недостаточно опыта в индустрии.
Образование в области Data Science: ничего невозможного нет
Сегодня для тех, кто хочет развиваться в сфере анализа больших данных, существует очень много возможностей: различные образовательные курсы, специализации и программы по data science на любой вкус и кошелек, найти подходящий для себя вариант не составит труда. С моими рекомендациями по курсам можно ознакомиться здесь.
Потому как Data Scientist — это человек, который знает математику. Анализ данных, технологии машинного обучения и Big Data – все эти технологии и области знаний используют базовую математику как свою основу.
Читайте по теме: 100 лучших онлайн-курсов от университетов Лиги плюща Многие считают, что математические дисциплины не особо нужны на практике. Но на самом деле это не так.
Приведу пример из нашего опыта. Мы в E-Contenta занимаемся рекомендательными системами. Программист может знать, что для решения задачи рекомендаций видео можно применить матричные разложения, знать библиотеку для любимого языка программирования, где это матричное разложение реализовано, но совершенно не понимать, как это работает и какие есть ограничения. Это приводит к тому, что метод применяется не оптимальным образом или вообще в тех местах, где он не должен применяться, снижая общее качество работы системы.
Хорошее понимание математических основ этих методов и знание их связи с реальными конкретными алгоритмами позволило бы избежать таких проблем.
Кстати, для обучения на различных профессиональных курсах и программах по Big Data зачастую требуется хорошая математическая подготовка.
«А если я не изучал математику или изучал ее так давно, что уже ничего и не помню»? — спросите вы. «Это вовсе не повод ставить на карьере Data Scientist крест и опускать руки», — отвечу я.
Есть немало вводных курсов и инструментов для новичков, позволяющих освежить или подтянуть знания по одной из вышеперечисленных дисциплин. Например, специально для тех, кто хотел бы приобрести знания математики и алгоритмов или освежить их, мы с коллегами разработали специальный курс GoTo Course. Программа включает в себя базовый курс высшей математики, теории вероятностей, алгоритмов и структур данных — это лекции и семинары от опытных практиков
Особое внимание отведено разборам применения теории в практических задачах из реальной жизни. Курс поможет подготовиться к изучению анализа данных и машинного обучения на продвинутом уровне и решению задач на собеседованиях
15 сентября в Москве состоится конференция по большим данным Big Data Conference. В программе — бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области. Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе. |
Ну а если вы еще не определились, хотите ли заниматься анализом данных и хотели бы для начала оценить свои перспективы в этой профессии, попробуйте почитать специальную литературу, блоги о науке данных или посмотреть лекции. Например, рекомендую почитать хабы по темам Data Mining и Big Data на Habrahabr. Для тех, кто уже хоть немного в теме, со своей стороны порекомендую книгу «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных» Петера Флаха — это одна из немногих книг по машинному обучению на русском языке.
Заниматься Data Science так же трудно, как заниматься наукой в целом. В этой профессии нужно уметь строить гипотезы, ставить вопросы и находить ответы на них. Само слово scientist подталкивает к выводу, что такой специалист должен, прежде всего, быть исследователем, человеком с аналитическим складом ума, способный делать обоснованные выводы из огромных массивов информации в достаточно сжатые строки. Скрупулезный, внимательный, точный — чаще всего он одновременно и программист, и математик.
Плюсы и минусы профессии
- Специалисты очень востребованы на рынке.
- Высокая зарплата.
- Возможность устроиться как в отечественную, так и в зарубежную компанию (с опытом и знанием языка).
- Возможность работать удаленно и/или по гибкому графику.
- Возможность постоянного профессионального развития и «прокачивания» навыков.
- Профессия довольно сложная сама по себе.
- Непростое обучение.
- Необходимо постоянно следить за технологиями и новинками рынка.
- Необходимость решать сложные задачи, для которых не подходят типовые способы.
- Непредсказуемые результаты (не всегда можно сказать до начала работы, будет ли модель эффективной).
Работой с большими данными занимаются 8,1% из опрошенных IT-специалистов. Рейтинг составлен на основе опроса более 47 тысяч человек.
Бонусные материалы для самообучения
Топ-5 книг для начинающих:
- «Data Science», Джоэл Грас.
- «Практическая статистика для специалистов D.S.», Питер Брюс, Эндрю Брюс.
- «Data Science», Кэти О’Нил, Рэйчел Шатт.
- «Python Data Science Essentials», A. Boschetti.
- «Python для сложных задач. Наука о данных и машинное обучение», Дж. Вандер Плас.
Полезные ссылки и ресурсы:
- https://habr.com/ru/company/skillfactory/blog/536828/ — «12 платформ соревнований по Data Science и искусственному интеллекту для развития ваших навыков в 2021 году». Чтобы преуспеть в профессии, необходимо много практиковаться и в этой статье на Хабре собраны лучшие соревнования по дата сайнс, которые помогут в этом деле.
- https://tproger.ru/translations/the-best-datasets-for-machine-learning-and-data-science/ — «Лучшие датасеты для машинного обучения и анализа данных». Очевидно, чтобы быть профессионалом, нужно не только уметь работать с данными, но и где-то их находить. В этой статье собраны датасеты разных категорий и тематики.
- https://datastart.ru/blog/ — профессиональный блог с полезными статьями и новостями.
- https://tproger.ru/quiz/data-science-test-megafon/ — Интересные тесты от TProger и Мегафон для проверки знаний в дата сайнс.
- https://ods.ai/ — Крупное международное сообщество, с которым вы сможете оставаться в курсе важных событий в профессии.
- https://dev.by/ — Dev.by. Полезный белорусский ресурс обо всем, что связано с разработкой.
- https://colab.research.google.com/notebooks/welcome.ipynb?hl=ru – Colab. ПО для написания кода Python непосредственно в браузере. Разработано для студентов, специалистов по работе с данными и исследователей ИИ.
Англоязычные блоги и сайты с новостями, кейсами, советами:
- https://www.kdnuggets.com/ — KD Nuggets.
- https://indico.io/blog/ — Indico.
- https://dataconomy.com/ — Dataconomy.
- https://deepmind.com/blog — Blog Deep Mind.
YouTube-каналы и плейлисты:
- видеозаписи лекций Константина Воронцова о машинном обучении.
- Плейлист с лекциями по машинному обучению Юрия Кашницкого.
- Ютуб канал с полезными видео по глубокому изучению и другим темам.
- Deep Learning на пальцах. Вводная лекция, которая рассказывает об основах.
- Anaconda, Inc. Хороший канал для тех, кто владеет английским. Много полезного контента.
- DeepMind. Англоязычный канал по глубокому изучению.
Лучшие Телеграмм-каналы:
- BigQuery Insights
- Data Science и все такое
- Small Data Science for Russian Adventures
- gonzo-обзоры ML статей
- Hey Machine Learning
- This is Data
- DeepLearning ru
Кто такой дата-сайентист?
Проще всего объяснить на примерах. Возьмем рынок полипропилена. Есть цены на продукцию, которые формируются на основе каких-то факторов, например, стоимости сырья, курса валют, макроэкономических показателей различных стран или ситуации вокруг заводов-производителей полипропилена. Все это влияет на динамику цены полипропилена, но как именно — непонятно.
Все знают только примерную зависимость, вроде того, что если стоимость нефти растет, то и полипропилен может подорожать, а может и не подорожать, если сыграют еще какие-то факторы. В общем, диванная аналитика на кофейной гуще. Пока не придет дата-сайентист.
Например, в результате расчетов можно рекомендовать заводу заранее закупать побольше сырья, если цена на него низкая, чтобы сэкономить, когда его стоимость поползет вверх. Или предсказать цены на разных рынках, чтобы выбрать, где продать товар выгоднее с учетом остальных факторов, влияющих на прибыль. Вариантов использования прогнозов множество.
Подборка хороших курсов
- Практический курс по машинному обучению с менторской поддержкой
- Курс содержит полный обзор современных методов машинного обучения от простых моделей до работы с нейросетями и Big Data от опытного практика области
- Специализация Яндекса и МФТИ на Coursera на русском языке
- Полное введение в data science и машинное обучение на базе Python
- Теорию можно смотреть бесплатно, задания и сертификат — платные
- Интерактивное пошаговое изучение Data Science с фокусом на Python
- Обучение через практику: с самого начала работа с реальными данными и кодом
- 3 направления на выбор: Data Scientist, Data Analyst или Data Engineer
- Интерактивный онлайн-курс по Data Science с фокусом на R
- 66 курсов по машинному обучению, анализу данных и статистике
- Курс построен на решении практических задач
«Специализация Аналитик Данных»
- Специализация включает сквозной курс и тренажёры по инструментам для анализа данных.
- Срок обучения: 6 месяцев
- Онлайн-программа профессиональной переподготовки от Института биоинформатики и Санкт-Петербургского Академического университета РАН, не требующая специальной подготовки
- Срок обучения: 1 год. С лета 2017 — ускоренная программа (полгода)
- Стоимость: 1999 рублей в месяц
Курс по математике для Data Science
Курс содержит много практики, которая не ограничивается решением классических уравнений и абстрактных заданий.
Основы статистики
Бесплатное и ясное введение в математическую статистику для всех
- Легендарный курс основателя Coursera и одного из лучших специалистов по искусственному интеллекту Эндрю Ын (Andrew Ng)
- Этот курс можно считать индустриальным стандартом по введению в машинное обучение
- Добрый человек “перевел” задания на Python (в оригинале нужно все делать на Octave)
- Курс от NVIDIA и SkillFactrory
- Комплексный курс по глубокому обучению на Python для начинающих
- Видеозаписи занятий легендарной Школы анализа данных Яндекса
- Курсы: машинное обучение, алгоритмы и структуры данных, параллельные вычисления, дискретный анализ и теория вероятности и др.
“10 онлайн-курсов по машинному обучению”
Подборка удаленных образовательных программ, составленная проектом “Теплица социальных технологий”
- Любопытное введение в статистику на примере … котиков
- Вы получите знания об основах описательной статистики, дисперсионном и корреляционном анализе
- Фишка курса — наглядность (опять же картинки с котиками)
- Учит извлекать данные из разных файлов, баз данных и API
- Преобразовывать данные для удобного анализа
- Интерпретировать и визуализировать результаты анализа
Курс по Python для анализа данных
Практический курс по Python для аналитиков с менторской поддержкой.
- Курс от Высшей школы экономики
- Онлайн-курс по самому популярному языку программирования для data scientist’ов
Чем я занимаюсь
Я оцениваю эффективность рекламных кампаний в Mail.ru Group. У компании много разных продуктов: поисковик, почта, игры, соцсети — и это далеко не все. У каждого проекта много рекламы в разных форматах, где-то они пересекаются. Я определяю, как использование рекламы повлияло, например, на увеличение установок приложений Mail.ru Group.
Для этого мы собираем данные: заходим в отчетные системы, вытаскиваем исторические данные по охватам, кликам, показам, учитываем, в каких регионах прошла реклама. Потом строим модель, которая пытается предсказать поведение проекта: на сколько увеличится количество загрузок продукта после рекламы. Для этого подставляем разные активности (рекламу на ТВ, в интернете, учитываем, как влияют праздники, другие релевантные факторы) и оцениваем, какой вклад внесла та или другая реклама. Затем делаем презентацию с результатами.
Построение моделей — основная задача исследователя данных. Модель — это программа, которая может адаптироваться под входные данные. Сначала мы подаем модели немного данных и какой-то факт. Потом она строит дерево решений: сверяет с фактом эти данные и понимает закономерность перехода от данных к факту. Чем чаще какой-то показатель учитывается, тем больший вес он имеет. Если модель хорошо отражает действительность, ее можно использовать.
Чаще всего мы используем линейные регрессии. В них легко выбрать конкретную переменную и определить, каков ее вклад. Для работы с линейными регрессиями я использую Statsmodels — пакет для Python, который содержит много полезных инструментов.
Иногда приходится искать другие варианты, например градиентные бустинги. Это большое количество деревьев решений, которые обучаются на результатах друг друга. Если одно дерево обучалось и дало ошибку, мы берем следующее, чтобы ее скомпенсировать, тогда ошибка станет незначительной. Это часто точнее линейной регрессии, но складно объяснить в презентации выводы вряд ли получится, потому что бустинги громоздкие и сложные. Популярные библиотеки для бустинга — XGBoost, LightGBM, CatBoost.
Курс
Data Scientist с нуля
Изучите набор инструментов, необходимый для уровня Middle. Наш карьерный центр поможет вам оформить резюме и начать проходить собеседования уже во время учебы. Дополнительная скидка 5% по промокоду BLOG.
Узнать больше
Кроме этого, для работы я использую Pandas. С этой библиотекой специалист взаимодействует чаще всего, если работает на Python. Если нет, то есть альтернативные библиотеки на языке R, например h2o.
Еще использую Prophet от Facebook для прогнозирования временных рядов. В некоторых задачах он может превосходить градиентный бустинг.
Временные ряды — это упорядоченные по времени значения, например температура воздуха по дням. В основном они нужны для предсказания будущего.
Это Marketing Mix — влияние различных факторов (маркетинговых и других) на целевую метрику. В данном случае — на активность пользователей
Оплата труда
Зарплата data scientists зависит от ряда факторов, включая опыт, квалификацию, местоположение и сектор, в котором сотрудник работает. Условия бывают разными, в зависимости от организации, но весьма распространены гибкий или удаленный график работы, бонусы по результатам работы и частное медицинское страхование.
Заработная плата сайентистов в России обычно начинается от 70 000 до 85 000 рублей и может возрасти до 100 000 рублей, в зависимости от опыта и навыков. В Москве и Санкт-Петербурге можно рассчитывать на заработок от 100 000 до 160 000 рублей.
Ведущие и главные специалисты по данным способны зарабатывать более 200 000 – 250 000 рублей, а в некоторых случаях – и более.
Как им стать
Учеба обязательна для этой профессии. Причем учиться надо много, долго и основательно. Для начала надо освоить азы математики, статистики и информатики, а дальше изучить языки программирования, лучше начать с Python.
На блоге iklife.ru собраны лучшие курсы по Python для начинающих и опытных программистов, которые будут полезны при освоении должности Data Scientist.
Также рекомендую вам прочитать следующие книги:
- Брендан Тирни, Джон Келлехер “Наука о данных”
- Кирилл Еременко “Работа с данными в любой сфере”
- Уэс Маккинни “Python и анализ данных”
Куда пойти учиться
Лучшее обучение – это онлайн-обучение. Платформы Skillbox, Нетология, GeekBrains, SkillFactory, ProductStar и Stepik предлагают свои обучающие программы:
- Профессия Data Scientist
- Data Scientist
- Data Science с нуля
Ознакомиться с полным перечнем курсов для Data Scientist можно на нашем блоге.
Уточню, что на этом учеба не должна заканчиваться. Data Scientist – это такая профессия, которая предполагает непрерывное обучение. Даже если вы уже работаете, периодически повышать свой уровень надо обязательно. К тому же выбор достаточно широк – это и онлайн-курсы, и тренинги, и конференции.
Где найти работу
Сложно сказать, где именно искать работу по этой профессии. Не из-за того, что мало мест, а, наоборот, потому что нет такой сферы бизнеса, где нельзя было бы применить талант этого специалиста. Ему доступна как работа в офисе, так и удаленно на дому.
Он востребован в таких областях деятельности как:
- IT-сфера,
- медицина,
- банковские структуры,
- СМИ,
- торговля,
- политика,
- транспортные компании,
- страховые фирмы,
- сельское хозяйство,
- наука,
- метеослужбы.
Как я уже говорила, Data Scientist нужен во многих сферах, где необходимы прогнозы, анализ рисков и поведения клиентов. Поэтому список можно дополнить.
Перед откликом на вакансию надо подготовить резюме. В нем сосредоточиться в первую очередь нужно на математических и IT-навыках, опыте работе, успешных проектах и достижениях. Описание должно получиться кратким, лаконичным и простым. Специалисту надо прикрепить портфолио к резюме.
Учтите, что вакансии на эту должность не всегда называются именно “Data Scientist”. Работодатели могут написать, что требуется IT-аналитик, специалист по анализу систем, аналитик Big Data.
Вакансии и зарплата, перспективы профессии
Эта профессия достаточно молодая, но уже востребована на рынке. Количество данных растет в геометрической прогрессии и требует нестандартного подхода к обработке. Традиционное машинное обучение не срабатывает, нужен совершенно другой подход.
Специалистов разного уровня недостаточно, спрос на их услуги очень высок
Но важно понимать, что выйти на достойную оплату труда за несколько месяцев для Data scientist невозможно. Но для старта в профессии достаточно иметь отличную математическую базу, навыки программирование и знать алгоритмы
В зависимости от уровня знаний и опыта работы зарплата специалиста будет следующая:
Квалификация (уровень знаний) |
Опыт работы и зарплата |
Junior |
Опыт работы до 1 года. Специалисты этого уровня уже знают базовые модели и могут их адаптировать для решения конкретной задачи. Умеют визуализировать данные. Зарплата специалиста 60 000 – 120 000 рублей. |
Middle |
Опыт работы 1-3 года. Специалисты этого уровня уже могут обучать прототипы и подбирать модель под конкретную задачу. Они хорошо понимают потребности бизнеса и могут быстро решить задачу. Зарплата специалиста 150 000 – 180 000 рублей. |
Senior |
Опыт работы от 3-х лет. Специалист такого уровня уже может управлять командой, быть связующим звеном между исполнителями и бизнесом. Он хорошо разбирается в распределенных вычислениях, может быстро обучить прототип на незнакомых данных для оценки эффективности новой идеи. Зарплата специалиста 180 000 – 270 000 руб. |
Самые свежие вакансии с кратким описанием требований к кандидату
Итак, начинающий специалист может рассчитывать на зарплату от 60 000 рублей. Востребованность и высокую оплату подтверждают следующие вырезки только с одного сайта с вакансиями:
Направления развития в профессии
Data scientist всегда работает в команде, состоящей из аналитиков и инженеров данных. Каждый специалист занимается только одним направлением:
- Data engineer – инженер данных, отвечает за создание и поддержку инфраструктуры, обеспечивая сбор, хранение и управление потоками данных в реальном времени.
- Chief data officer – директор по данным, управляет жизненным циклом данных так, чтобы каждый специалист получал нужную информацию в подходящем виде и приемлемом качестве. Контролирует работу других специалистов.
- Data mining – аналитик данных, который обрабатывает исходные данные и предоставляет их в компактном виде.
- Text mining – аналитик текстов, который обрабатывает и разделяет тексты на категории, извлекая информацию и обрабатывая изменения.
Сферы применения Data scientist
В настоящее время формирование и обработка баз данных есть в любой сфере деятельности. В реальной жизни специалист может найти применение своих знаний в следующих отраслях:
Отрасль |
Пояснения |
Производство |
Необходимо мониторить текущие процессы и находить причины возникновения брака. Предлагать варианты оптимизации и улучшения качества продукции. Планировать различные эксперименты и предлагать новые виды продукции. |
Энергетика |
Основные задачи специалиста состоят в прогнозировании объемов потребления и цен на электроэнергию. Он может провести диагностику объектов и рассчитать оптимальные тарифы. Предложит оптимизировать режим потребления электроэнергии, подготовит заявки на почасовое потребление. |
Ритейл |
Необходимо прогнозировать спрос и цены, отток или увеличение количества клиентов. Анализировать предпочтения потребителей. Оптимизировать склады и логистику для увеличения эффективности. |
Финансы |
Оценивать риски и резервные фонды. Отслеживать мошенничество и возможные риски неисполненных кредитных обязательств. Построение инвестиционных моделей входит в задачи специалиста. |
В чем специфика Data Science
Прелесть и, с другой стороны, сложность Data Science — в том, что в каждой компании требуют разный набор навыков и по-разному понимают саму сферу.
Однажды на собеседовании мне сказали: «Нужно запрограммировать алгоритмическое интервью», классическое для программиста. В другом месте спрашивали про нейронные сети, а в вакансии ничего про это не написали. На третьем собеседовании мне предложили придумать метрики и сделать вывод из данных, но такими задачами больше занимается аналитик.
На собеседованиях попадаются вопросы из различных областей знания
Поэтому важно себя четко позиционировать: например, я работаю с естественным языком
Из-за размытости границ профессии в компаниях не часто встречается отдельный департамент Data Science. Как правило, ты работаешь в конкретной команде, которая связана с проектом. Поэтому нужно не только уметь строить модели, но и разбираться в продукте, понимать, откуда берутся метрики для предсказаний. Например, в моей сфере нужно понимать, что реклама для ТВ не дает мгновенный эффект, нужно время, чтобы потом она сработала.
Но наука о данных хороша тем, что почти не бывает рутины. Если возникают однообразные задачи, то ты пишешь код, чтобы автоматизировать процесс. В большинстве случаев задачи никто до тебя никогда не делал, поэтому любой проект — творческий.
Мне нравится эта сфера, и я хочу продолжать в ней расти, стать когда-нибудь руководителем. Хочется приносить своей деятельностью еще больший вклад, а для этого нужно больше знать, выработать качества, которых не хватает.
Какие задачи решает?
Data scientists извлекают, анализируют и интерпретируют большие объемы данных из различных источников, используя алгоритмы, интеллектуальный анализ данных, искусственный интеллект, машинное обучение и инструменты статистического учета, чтобы создавать из них бизнес-модели. После интерпретации результаты должны быть изложены понятным и интересным языком.
Специалисты по обработке данных пользуются большим спросом в ряде секторов, поскольку предприятиям требуются люди с правильным сочетанием технических, аналитических и коммуникативных навыков. Data scientists могут работать в различных областях, в том числе:
- коммерции;
- образовании;
- науке;
- здравоохранении;
- розничной торговле;
- информационных технологиях;
- правительственных организациях;
- электронной коммерции (бизнесе онлайн).
Как специалист сайентист должен выполнять следующее:
- работать в тесном сотрудничестве с руководством компании, чтобы выявлять проблемы и использовать имеющиеся сведения, и предлагать варианты для эффективного принятия решений;
- создавать алгоритмы и разрабатывать эксперименты для объединения, управления, опроса и выделения данных для предоставления индивидуальных отчетов коллегам, клиентам или всей организации;
- использовать инструменты машинного обучения и статистические методы для решения проблем;
- тестировать модели интеллектуального анализа данных, чтобы выбрать наиболее подходящие для использования в конкретном проекте;
- поддерживать четкую и последовательную коммуникацию (как устную, так и письменную), чтобы понимать потребности в данных и сообщать о результатах;
- создавать отчеты, которые позволят четко понять, как клиенты или посетители взаимодействуют с компанией;
- оценить эффективность источников данных и методов их сбора данных и улучшать их;
- постоянно повышать квалификацию, чтобы оставаться в курсе последних технологий и методов;
- проводить исследования, на основе которых будут разрабатываться прототипы и доказательства концепций;
- искать возможности использовать соотношения идей, наборы данных, кодов и моделей в других структурах организации (например, в отделах кадров и маркетинга);
- сохранять заинтересованность по поводу использования алгоритмов для решения проблем и давать другим возможность видеть пользу от своей аботы.