Узнайте, чем занимается Data Scientist и что требуют работодатели от кандидата на эту должность в 2023-м году.
На рынке труда в сфере ИТ появляется всё больше предложений в области анализа данных. Сосредоточимся на «учёных по данным». Они работают в разных сферах экономики: от финансов и маркетинга до медицины и социальных наук.
Наука о данных – междисциплинарная и стремительно развивающаяся область. Потоки информации наводняют мир. Ежедневно собираются и обрабатываются бесчисленные потоки информации, и этот процесс ускоряется день ото дня по мере развития ИИ. Нет никаких признаков того, что что-то способно остановить этот мчащийся поезд (всё-таки он будет развивать хотя бы скорость света).
Задача Data Scientist – извлекать ценную информацию из больших наборов данных и интерпретировать их. Человек, работающий на этой должности, несёт ответственность за представление результатов своего исследования и выявленных тенденций своему руководству и клиентам. Это является основой для принятия правильных бизнес-решений.
Роль Дата Сайентист – вариант для обладателя целого ряда как сложных (программирование), так и мягких (бизнес) скиллов.
Как работает Data Scientist?
Главная компетенция Data Scientist – способность обнаруживать тенденции и закономерности в данных, которые могут быть полезны для бизнеса. Чтобы человек, выполняющий эту функцию, приносил высокий профит компании, он должен быть вовлечён во все этапы жизненного цикла ПО (SDLC). Поэтому Data Scientist должен иметь хотя бы базовое представление о:
- конвейерах данных;
- их анализе;
- машинном обучении;
- математике;
- статистике;
- обработке данных;
- облачных вычислениях;
- разработке программного обеспечения.
Он должен легко общаться и сотрудничать с другими командами, такими как:
- программисты;
- бизнес-аналитики;
- дизайнеры;
- лица, принимающие решения (руководство, клиенты).
Также он должен быть свободным в создании визуализаций и презентаций результатов анализа, чтобы они были понятными.
В задачи человека на этой должности входят, в том числе:
- анализ и извлечение информации из больших наборов данных;
- проектирование моделей прогнозирования;
- разработка алгоритмов машинного обучения;
- оценка качества данных;
- очистка данных от ошибок.
Для этого важны разные методы:
- машинное обучение;
- статистический анализ;
- обучение с учителем;
- глубокое обучение;
- обучение без учителя;
- другие методы.
Вся эта информация основана на опросе ИТ-сообщества 2023 года для области Data Science.
Что важнее для Data Scientist: образование или опыт?
Точно опыт. Хотя во многих объявлениях о вакансиях Data Scientist работодатели указывают на наличие высшего образования или даже докторской степени в следующих областях:
- информатика;
- математика;
- экономика;
- эконометрика;
- статистика;
- операционные исследования;
- наука о данных.
Нельзя отрицать, что люди, заинтересованные в работе на этой должности, как правило, хорошо образованные (или подготовленные) специалисты.
На детальном отчёте IT Community Research за 2023 год по направлению Data Science практически не зафиксировано сотрудников без высшего образования (кроме тех, кто ещё учится). Целых 51%, имеют степень магистра/кандидата технических наук, а 10% – докторскую степень.
Однако, несмотря на это, высшее образование не всегда необходимо для работы Учёного по данным. Обращаясь к содержанию типовых предложений о работе на эту должность, мы видим, что бывает так, что необходимость завершения учёбы выступает как «приятно иметь», а не как необходимая квалификация.
С опытом ситуация иная. Здесь от работодателей требуется даже 4-5-летний опыт работы с информацией разного масштаба. Хотя, конечно, это зависит ещё и от конкретной рекламы, а значит, и от специфики работы в определённой компании и отрасли.
Поэтому наибольшую ценность имеют опытные люди с соответствующими навыками (даже без диплома), а не только что окончившие Data Science, но без практики.
Программирование для Data Scientist? Абсолютно важно – Python, R, SQL, NoSQL
Хотя Data Scientist не является программистом, он часто использует такие языки программирования, как Python, R или SQL.
Если Вы думаете о карьере Data Scientist и у Вас ещё нет основ программирования (например, на R, C++, C#), обязательно начните с изучения Python.
Почему Питон?
Потому что это один из самых популярных языков программирования, которым пользуются специалисты анализа данных, машинного обучения и больших данных. Кроме того, он относительно «простой», гибкий, простой в использовании и имеет много библиотек и фреймворков.
Должности Data Scientist выиграют от таких библиотек, как:
- NumPy;
- Pandas;
- SciPy.
Они часто используются для исследовательского анализа данных, их визуализации и обработки. В Python есть ряд библиотек машинного обучения, таких как:
- Scikit-learn;
- TensorFlow;
- Keras.
Они позволяют создавать модели машинного обучения и обучать их работе с большими данными.
Также доступно ряд библиотек для обработки больших данных:
- PySpark;
- Dask;
- Apache Arrow;
- библиотеки для обработки текста и естественного языка – NLTK, Spacy и Gensim.
Почему SQL и NoSQL?
Когда мы говорим о данных, мы имеем в виду базы, в которых Data Scientist должен иметь возможность свободно перемещаться.
Когда дело доходит до SQL, созданного для управления реляционными базами данных, знание его по-прежнему очень важно, даже несмотря на то, что он был создан в 70-х гг.
Целых 56% респондентов, работающих в области науки о данных, используют SQL в 2023 г. Благодаря SQL Вы можете легко получать сведения из табличных баз данных.
Однако стоит отметить, что компании обращаются к так называемым Базы данных NoSQL (например, Google Cloud Bigtable или Amazon DynamoDB), которые не хранят информацию в виде реляционных таблиц. Базы NoSQL являются дополнением или альтернативой традиционной модели данных. Их развитие связано с увеличением объёма собираемой информации и использованием неструктурированных данных в моделях машинного обучения.
Облака-AWS, Google Cloud Platform и Microsoft Azure
Использование облака в обработке и анализе данных становится всё более распространённым явлением. Чтобы повысить масштабируемость и эффективность своих сервисов, всё больше и больше компаний перемещают информацию в облако (например, на такие платформы, как AWS, Azure, Google Cloud и т.д.). Поэтому способность использовать эти платформы и понимать, как обрабатывать и анализировать сведения в облаке, является главной компетенцией Data Scientist.
Не говоря уже о том, что есть целый ряд инструментов и облачных сервисов для анализа:
- сервисы больших данных;
- машинное обучение;
- прогнозная аналитика.
Они упрощают работу специалиста по работе с базами данных. Облако обеспечивает качественное масштабирование инфраструктуры. Это позволяет обрабатывать большие наборы данных и быстрее внедрять модели машинного обучения. Поэтому, если Вы серьёзно настроены работать Дата Сайентист, не оставайтесь равнодушными к технологиям, связанным с работой в облаке.
Воздушный поток Apache
Кандидат в Data Scientist должен быть знаком с Apache Airflow. Это популярный инструмент с открытым исходным кодом для управления рабочими процессами в области анализа данных и машинного обучения. Он позволяет создавать, планировать и отслеживать сложные потоки данных, которые включают в себя этапы от сбора данных через обработку до обучения и внедрения модели.
Apache Airflow упрощает работу с информацией, поскольку позволяет автоматизировать повторяющиеся задачи: сбор данных из разных источников и их обработка. Вы можете легко запускать сценарии, связанные с обработкой данных и обучением модели.
Это ценный инструмент для Дата Сайентист. Такие крупные технологические компании, такие как Google и Slack, используют его. Конечно, у Airflow есть свои ограничения, но, тем не менее, это популярный инструмент для управления процессами ETL и конвейерами машинного обучения.
Разработка программного обеспечения
Знания по разработке программного обеспечения очень важны для работы Data Scientist. Исходный код, созданный специалистами по обработке и анализу данных, не читается, не проверен и не соответствует правилам стиля.
Конечно, такой код может быть полезен для интеллектуального анализа данных и быстрого анализа. Но если есть необходимость довести модели машинного обучения до производства, уже должны применяться принципы программной инженерии.
Поэтому нужно изучить:
- соглашения о форматировании кода;
- модульные тесты;
- контроль версий, например, на GitHub;
- функционирование зависимостей;
- особенности виртуальных сред;
- работу контейнеров.
Подведём итоги
Это малая часть избранных технических областей, которые надо изучить, чтобы получить работу Data Scientist. У разных компаний свои требования. Иногда это скорее деловая позиция, а иногда больше должность программиста. В отдельных объявлениях есть знание Linux/Unix. Конечно, работодатели требуют знания английского языка – это стандарт в IT-индустрии (но об этом стоит помнить всем IT-специалистам).
Если Вы заинтересованы в анализе данных и тенденций, никогда не упускайте возможности собрать как знания, так и опыт в области науки о данных, потому что это очень перспективная область. Присоединяйтесь к группе Data Scientist!