Данные окружают нас повсюду. Ключевым пунктом в решении различных задач является правильное понимание данных и извлечение из них наиболее полезной информации.
Data Scientist - извлекает важную информацию из данных для решения реальных задач и принятия решений.
Как инженеры машинного обучения строят свою работу
Работа инженера заключается в том, чтобы обучить машину самостоятельно принимать решение и обосновывать выводы. Для этого инженеры создают модели машинного обучения, например, нейронные сети.
Можно привести еще аналогию.
Модель машинного обучения - это сборник правил, по которому машина будет принимать некоторое решение, однако содержание этого сборника (сами правила) определяются машиной самостоятельно. Машина учится принимать решения.
Машина подбирает эти правила таким образом, чтобы принимать правильные решения как можно чаще.
Главная задача инженера - не просто создать модель, а сделать так, чтобы она приносила качественную пользу заказчику., т.е. модель должна решать задачи заказчика.
Вначале работы над моделью важно понять, а зачем заказчику эта модель, какие задачи он хочет решать с её помощью. После этого нам необходимо собрать некоторые данные и проверить, что они подходят для обучения, в том числе, не нарушают никакие законы. И если с данными все в порядке, то только тогда мы можем приступить к созданию модели, а после создания модели, нам нужно проверить её в деле и проведя дополнительные тестирования.
Как создать качественную модель?
- Вы можете представить работу над моделью в виде чек-листа, ориентируясь на который вы не забудете сделать что-то полезное для модели и для заказчика.
- Когда вы работаете над несколькими задачами одновременно, вы в любой момент времени знаете статус каждой задачи: что сейчас делается и какие следующие шаги будут предприняты. Благодаря этому вы не запутаетесь в задачах, тем самым сэкономите время и себе, и заказчику.
Этап 1: Business Understfnding (Понимание целей заказчика).
На этом этапе важно понять:
- Какую задачу хочет решить заказчик
- Как написать задачу на языке машинного обучения
- Как понять, что мы решили задачу?
Этап 2. Data Understanding (Понимание необходимых данных).
На этом этапе важно понять:
- Какие данные нужны системе (фото, видео, тексты)?
- Если данные - фото, то что должно быть на фотографиях?
- Сколько нужно фотографий?
Этап 3. Data Preparation (Подготовка данных)
На этом этапе выполняется подготовка данных.
Выводы:
- Инженеры машинного обучения разбивают свою работу на этапы.
- 1 этап - инженеры определяют, для чего модель нужна заказчику, и какие задачи он хочет решить с её помощью
- 2 этап - нужно определиться, с помощью каких данных будем учить свою модель принимать решение по той проблеме, которую оставит заказчик.
- 3 этап - нужно собрать данные и убедиться, что они подходят для обучения модели.
- 4 этап - непосредственно обучить модель.2
-
Этапы можно использовать, как чек-листы при подготовке моделей.
-
В конце работы модель нужно протестировать.
- важно проводить тестирование на тех данных, которые модель не видела в процессе обучения.
Для обучения модели можно использовать сервис Teachable Machines от Google, который позволяет обучить модели без написания кода.
Где используется машинное обучение?
Везде, где есть данные. Машинное обучение призвано помогать людям и зарабатывать деньги.
- онлайн-маркетинг и персонализированная реклама, например, в e-commerce.
- медицина
- обработка персональных данных
- обработка фотографий, генерирование текстов и т.д.