Хочеш $120 тис. на рік? Чому потрібно вчитися, щоб працювати з Big Data

 Згідно зі статистикою LinkedIn, напрямки machine learning, data science і big data лідери в fastest growing jobs
Фото: pixabay.com

Згідно зі статистикою LinkedIn, напрямки machine learning, data science і big data лідери в fastest growing jobs

Фахівці з роботи з великими даними - одна з найбільш затребуваних IT-спеціальностей як у всьому світі, так і в Україні. Наприклад, в США середня зарплата такого фахівця перевищує $120 000 на рік. Потреба в таких людях набирає набирає обертів в нашій країні.

Це не щось абсолютно нове, що звалилося на індустрію з небес, а розвиток інструментів, які раніше використовувалися для вирішення прикладних завдань бізнесу. Їх розвитку сприяло зростання обчислювальних потужностей, що в свою чергу дозволило працювати з величезними масивами інформації.

«Раніше практично в кожній компанії був відділ статистики. Потім ця функція трансформувалася в бізнес-аналіз, а сьогодні трансформується в data-аналітику, яка працює з більш деталізованою, більш глибинною інформацією», - розповів НВ Володимир Рибалко, керівник Vodafone Big Data Team у напрямку маркетингу.

В Україні дата сайентісти потрібні і великим сервісним IT-компаніям, які роблять левову частку внеску в ту саму «третю галузь за розміром ВВП», так і стартапам, компаніям, які займаються розробкою скорингових продуктів, мобільним операторам, рітейлерам і т.д. Однак, незважаючи на попит, масово таких фахівців в країні поки не готують. Є онлайн-курси відомих світових організацій на кшталт Coursera, курси та школи від приватних компаній.

Математика є проблемною точкою на старті кар'єри в цій сфері

Так, в Київстар вирішили виховувати кадри самостійно і відкрили Big Data School, випускники якої можуть потрапити як в цю компанію, так і в іншу, яка їм сподобається. «Наша компанія має потребу в висококваліфікованих фахівцях, яким буде під силу вирішення завдань для сучасного бізнесу», - пояснює Віталій Султан, Digital-директор Київстар і наводить як приклад продукти, які вже використовуються бізнес-клієнтами. Це, наприклад, скоринг та heatmap - теплові карти, які демонструють статистичні агреговані дані про скупчення на певних локаціях потенційних клієнтів компаній. Аналогічні продукти пропонує Vodafone Україна.

НВ звернулося до компаній, які займаються підготовкою кадрів для роботи з великими даними, і хто сам розробляє такі продукти, за порадами для новачків - чому потрібно вчитися, щоб стати data scientist.

Ірина Зайцева

керівник проекту uData School

Сьогодні на українському ринку серед data science фахівців переважають програмісти з хорошим знанням data science tools. У той же час рівень проектів по обробці великих даних все частіше вимагає набагато більшого - вміння створювати алгоритми з нуля, знаходити закономірності в масивах даних - а це наявність потужної математичної бази. В основі багатьох рішень бізнес-кейсів в data science лежить теорія ймовірностей і математична статистика.

З нашого досвіду відбору та підготовки кандидатів на вступ до uData School, саме математика є проблемною точкою на старті кар'єри в цій сфері, адже без системних і глибоких знань основ теорії ймовірностей, математичної статистики, лінійної алгебри та математичного аналізу занурюватися у машинне навчання непродуктивно.

Цінний практичний досвід дає участь в математичних олімпіадах і конкурсах. Саме в такого роду активностях формується вміння вирішувати нестандартні завдання, бачити різні підходи і справлятися зі складнощами. Робота з великими даними часто виходить за рамки стандартних завдань і вимагає від фахівця креативу, особливо математичного.

Спеціаліст в data science - це в першу чергу класний математик.

Володимир Рибалко

керівник Vodafone Big Data Team у напрямку маркетингу

Щоб стати data scientist, перш за все треба знати фундаментальні науки. Такі як математичний аналіз, лінійну алгебру, математичну статистику, чисельні методи, а також похідні від цих наук: алгоритми, програмування, економетрику, яка об'єднує в собі знання статистики, програмування і економічної теорії. У них розглядаються властивості і закономірності даних, методи обробки, аналізу і моделювання, які є об'єктом для вивчення в data science. Це ключові науки, які дають можливість стати хорошим data scientist.

Ну, і безумовно, це вивчення прикладних пакетів, мов програмування - Python, R, SAS Miner і SPSS, які в поєднанні дозволяють оптимальним чином вирішувати завдання data science. Це «фундамент», присутній в програмі кожного технічного вузу.

Більшості випускників технічних вузів не вистачає двох речей. Перша: люди підписуються на курси по data science на онлайн-платформах, таких як Coursera та ін., отримують певне уявлення і навіть деякі навички, але фундаментальні науки - класичну математику і матстатистику - знають недостатньо глибоко. Вони вміють застосовувати пакетні рішення, використовуючи мови програмування, підключаючи бібліотеки. Але інтерпретувати дані і вирішити поставлену проблему не можуть, головним чином, тому що не можуть розпізнати її корінь. Відповідь на це питання якраз і дає фундаментальна математика.

Хороші data scientists недостатньо добре знають бізнес. Або часом не хочуть його вивчати

Друга проблема: хороші data scientists недостатньо добре знають бізнес. Або часом не хочуть його вивчати. А гіпотеза самої проблеми походить якраз з бізнесу. Спочатку data-scientist повинен зрозуміти бізнес-суть проблеми, а вже потім сформулювати гіпотезу і перевірити її цифрами або знайти якісь взаємозв'язки, що пояснюють той чи інший феномен. Друга проблема характерна не тільки для data-scientists. Вона типова для будь-якого фахівця, який приходить в нову сферу.

Якщо вдаватися в класику, фахівці з data science діляться на кілька груп. Перша - ті, хто працює з підготовкою даних, агрегацією даних, налаштуванням потоків даних на рівні «заліза». У них переважають скоріше знання системних адміністраторів в роботі з базами даних, ніж рішення пошукових завдань. Відповідно, в пріоритеті у них стоять IT-шні навички.

Друга група data scientists - це ті, хто на зібраних великих даних проводять аналіз, пошук взаємозв'язків. У них переважають знання математики і статистики, а програмування допомагає у вирішенні завдань. Це дві типові ролі, хоча існує ще маса класифікацій, наприклад, в data governance. Останні більш сфокусовані на забезпеченні доступності, цілісності і безпечного зберігання даних тощо.

В рамках створення продукту на підставі даних виділяється окрема роль продуктолога, яка, по суті, скопійована з класичних IT-процесів розробки. Завдання продуктолога - інтерпретувати вимоги замовника на мову, зрозумілу data-scientist-ам, дотримуватися якості продукту і забезпечувати комплекс маркетингу для виведення продукту на ринок. Відповідно, data-scientist тісно взаємодіє з продуктологом, але як таким продутологом не є.

Олег Гриник

Senior Solution Architect, Engineering Development Manager в EPAM Ukraine

Згідно зі статистикою LinkedIn, напрямки machine learning, data science і big data - лідери в fastest growing jobs (спеціальності, що найшвидше зростають - прим. Редакції). Пов'язано це з тим, що успішні бізнеси прагнуть по максимуму автоматизувати процес прийняття рішень за допомогою різних програм, що використовують машинне навчання. Вони допомагають розуміти і структурувати дані, прогнозувати ризики, формувати тренди і багато іншого. Тому ці три напрямки дуже перспективні для навчання, а логічна послідовність для розвитку в цій галузі виглядає так: big data -> machine learning -> data science.

При великому бажанні, приблизно за 3-4 місяці можна отримати знання, необхідні для початку роботи з big data. А ось для того, щоб стати професійним data scientist, потрібно буде старанного попрацювати не рік, і не два.

Big data - це сукупність методів обробки дуже великих обсягів різних за типом даних. По суті, біг дата-розробник робить речі, які багато в чому перетинаються з іншими напрямками. Це аналіз і побудова схеми даних, і побудова бекенда і transformation pipeliens, багато роботи з інфраструктурою (DevOps) і хмарними рішеннями. В цілому, для розуміння Big Data потрібно знати наступне:

  • Мова програмування - або Python, або Scala/Java. У data science популярніший Pyhon, і багато компаній використовують його для автоматизації.
  • Потрібно добре знати і розбиратися в Linux, а також в технологіях обробки даних, які зараз зустрічаються на більшості проектів (Apache Spark і Apache Kafka)
  • DevOps-технології на рівні «розуміння» - будуть для вас добрим плюсом (Terraform, Ansible, Fabric, Puppet), як і знання контейнеризації docker/k8s.
  • Необхідно розбиратися в базах даних (як в OLAP/OLTP, так і NoSQL).
  • Знання Cloud обов'язково. З мого досвіду, більшість big data проектів, з якими я працював, були засновані на AWS.

Цей список можна продовжувати, але всього іншого можна навчитися в процесі роботи.

Приблизно за 3-4 місяці можна отримати знання, необхідні для початку роботи з big data

Machine learning об'єднує як роботу з даними, так і різного роду розробку і побудову алгоритмів. Тут доведеться згадати і статистику, і лінійну алгебру (величезна частка роботи в цьому напрямку - це саме всілякі операції з матрицями). Так само потрібно знати різні бібліотеки і фреймворки.

  • Вибір мови трохи багатший: Python, Scala і R.
  • Багато проектів по Machine Learning працюють з хмарними рішеннями, тут теж потрібно мати базове розуміння, що це таке (напр. AWS, Azure або Google Cloud).
  • Знання machine learning бібліотек (хоча б Spark ML, Scikit, Tensorflow)
  • Робота з ноутбуками Jupyter, Zeppelin, Databricks.

І головне - вчіться у найкращих: стежте за передовими компаніями та новими алгоритмами, які вони використовують, і пробуйте їх у себе на проекті.

У data science, крім знань математики та вищезазначених технологій, важливо також розуміти бізнес-домен і, по суті, стати Subject Matter Expert. Оскільки необхідно правильно реалізувати алгоритм прийняття рішень, то потрібно чітке розуміння даних і різних підходів в бізнесі. В інтернеті є достатньо ресурсів, які допоможуть і підкажуть, як створити та оптимізувати подібну модель на досить хорошому рівні. А ось для того, щоб зробити цю модель оптимально точною, потрібно реалізувати не один десяток експериментів і підходів з глибоким розумінням бізнес-домену.

Віталій Султан

Digital-директор Київстар

Гарний дата-сайентіст - це людина, компетенції якої знаходяться на перетині навичок впевненого програміста, відмінної математичної бази і розуміння предметної області. Інші важливі вміння - говорити на одній мові з клієнтом, ставити правильні питання і вміти вирішити задачу так, щоб на виході вийшов якісний продукт.

Оскільки ринок ними поки не забезпечений, Київстар прийняв рішення відкрити власну школу дата-сайентістов - Big Data School. Школа стала першим безкоштовним курсом підготовки експертів в сфері високих даних. На сьогоднішній день в ній відбулося вже два випуски, популярність Big Data School зростає. У другому наборі з 1712 бажаючих (а це в два рази більше, ніж в першому) ми відібрали 20 найбільш перспективних студентів, у яких дійсно "горять очі" при згадці про технології Big Data і створенні нових продуктів.

Програма Big Data School увібрала в себе найкраще з теорії і практики для вирішення реальних завдань українського бізнесу. В рамках навчання студенти детально знайомляться з архітектурою Hadoop, роботою Map Reduce, вивчають формати зберігання даних, інструменти по роботі з даними Hive, можливості Spark і вбудованої бібліотеки по машинному навчанню MLlib. Ще одна перевага школи - в тому, що новоотриманi теоретичні знання студенти застосовують на практиці при підготовці курсових проектів. Наприклад, наші випускники змогли передбачити, хто з загального числа абонентів Київстар може бути автомобілістом, а хто має дітей певного віку.

Хочете знати не тільки новини, а й що за ними криється?

Читайте журнал Новое Время онлайн.
Передплатіть зараз

Читайте 3 місяці за 59 грн

Читайте термінові новини та найцікавіші історії у Viber та Telegram Нового Времени.

Коментарі

1000

Правила коментування
Показати більше коментарів

Останні новини

ТОП-3 блога

Фото

ВІДЕО

Читайте на НВ style

IT-індустрія ТОП-10

опитування

Погода
Погода в Киеве

влажность:

давление:

ветер: