Это крупнейшая международная платформа соревнований по Data Science. В организации соревнований участвуют крупные и не очень компании, а многие задачи решают реальные проблемы медицины, ИИ, разработки и т. В высокочастотной торговле скорость критически важна, поэтому наши инженеры постоянно работают над ускорением. Они занимаются внутренней оптимизацией и ищут хитрые способы более быстрого получения и обработки данных от бирж. В заключение можно сказать, что результаты исследования указывают на то, что наиболее выгодным вариантом для инвестирования является Сингапурский доллар.
Затем он вычисляет среднее значение цели в каждом бине и отображает его на рисунке слева. Из графика следует, что у клиентов с высокими отрицательными значениями для DAYS_BIRTH (с большим возрастом) более низкие ставки. Это имеет смысл, поскольку молодые люди обычно чаще просрочивают платежи. Эти графики помогают нам понять, что свойство может сказать о клиентах и как это повлияет на модель. За последние пару лет я разработал несколько простых способов создания более совершенных моделей машинного обучения.
📊 Kaggle за 30 минут: практическое руководство для начинающих
Эта модель показывает хорошую точность и при этом, в отличии от всех остальных решений, имеет очень хорошую производительность. Она больше других подходит для применения в реальной жизни и определенно заслуживает внимания. Ключевая идея здесь в том, что весь датасет можно разделить на несколько более маленьких датасетов, каждый из которых будет иметь различное распределение дубликатов, поэтому балансировать эти датасеты нужно по разному.
Обидно до слез… но успокоился, нашел ошибку, написал пост в слаке — и выучил урок. Все дальнейшее описание будет основано на работе с табличными и текстовыми данными. Картинки, которых сейчас очень много на Kaggle — это отдельная тема с отдельными фреймворками. На базовом уровне хорошо уметь их обрабатывать, хотя бы для того, чтобы прогнать через что-то типа ResNet/VGG и вытащить фичи, но более глубокая и тонкая работа с ними — это отдельная и очень обширная тема, не рассматриваемая в рамках данной статьи.
Подробнее о Kaggle
Однако пропущенные значения не всегда означают, что данные не были записаны. Иногда имеет смысл включить значение NaN для признака, который не применим в этой отдельной строке. Например, допустим, что набор данных заявки на кредит с бинарной целью (независимо от того, был ли заявитель утвержден или нет), включает в себя функцию определения того, имеет ли человек автомобиль. Если конкретное лицо не владеет автомобилем, то другой признак для даты регистрации автомобиля будет содержать значение NaN, поскольку информации для заполнения нет. Kaggle — популярная платформа для соревнований по Data Science от Google. Пользователи (люди и организации) могут публиковать на ней свои наборы данных, создавать и исследовать модели машинного обучения, соревноваться друг с другом.
Эти простые, но мощные методы помогли мне попасть в топ 2% соревнования Instacart Market Basket Analysis, и я также использую их вне Kaggle. В начале пути лучше работать одному — это поможет внимательнее относиться к ключевым задачам, https://deveducation.com/ включая исследовательский анализ, очистку данных, разработку признаков и обучение модели. Возможно, когда-нибудь я соберусь получать и Грандмастера, благо золотая в одиночку уже есть, но 4 других пока что выглядят как огромная эпопея.
Зависимость количества дубликатов от времени и различная доля дубликатов в обучающей и тестовой выборках
Результаты работы алгоритма-победителя были включены в датасет для нового соревнования. Хотя это и предсказания модели, это не было проблемой, почти всегда шлемы были определены достаточно точно. Эта интересная особенность связана с id вопросов в обучающей выборке. Сами по себе id вопросов — это служебная информация, однако часто в соревнованиях по машинному обучению id неявно содержат полезную информацию.
- Сочетание этого с надежной тестовой (валидационной) выборкой позволит вам экспериментировать быстро и часто.
- Как видите, как минимум 4 команды из топ 5 использовали дополнительные данные.
- Ключевая идея здесь в том, что весь датасет можно разделить на несколько более маленьких датасетов, каждый из которых будет иметь различное распределение дубликатов, поэтому балансировать эти датасеты нужно по разному.
- Использование таких техник привносит дополнительный selection bias и неизбежно смещает валидационные метрики, а оценить степень влияния этого смещения — это отдельная полноценная задача, особенно когда с метриками и так происходит непонятно что.
Что это дает — мы получаем возможность быстро собрать датасет для обучения из предсгенеренных кубиков. Ну, еще раз — задача данного этапа наработать базу решений, методов и подходов. Чтобы в следующем соревновании вы не тратили время, а сразу сказали — ага, тут может зайти mean target encoding, и кстати, у меня и правильный код для этого через фолды в фолдах есть.
Обучение градиентных бустингов
На практике такие задачи решаются при помощи тюнинга предобученных на ImageNet SOTA моделей компьютерного зрения. Соответственно, в качестве данных был предоставлен набор фотографий (не слишком много, около 4000) и некоторый рейтинг популярности питомца. Последнее, причем, получилось не особо хорошо, потому что кошки/собаки и разные породы имеют несколько kaggle соревнования разный средний рейтинг. Постановка самой задачи соревнования простая — создать систему, предсказывающую популярность питомца по его фотографии. В целом Kaggle — отличная платформа, которая может дать многое как начинающему специалисту, так и профессионалу. Возможно, вы сможете найти отличную работу, возможно, получить солидный денежный приз.
В рабочей практике ситуация с маленькими данными, шумным таргетом и нестабильной валидацией очень распространенна. На паблик-части лидерборда я был на 437 месте, не дотягиваясь даже до бронзы, которая начинается с 353 места. Находится на таком месте после нескольких недель упорной работы морально сложно — ты всегда думаешь, что делаешь что-то не так.
Data researcher
У участников этого соревнования часто случались ситуации, когда на некоторых вопросах их модели предсказывали метки более точные, чем те, которые содержались в оригинальной разметке. Еще необходимо отметить, что ручное исправление явно неверных меток в обучающей выборке не приводило к улучшению качества на тестовой выборке, т. Как мы видим в примере выше, класс 90 доминирует в наших данных. Вышеупомянутая техника SMOTE и другие могут создать более сбалансированный набор обучающих данных. В свою очередь, это может привести к модели, которая лучше обобщает новые данные, где такой дисбаланс может отсутствовать. Самое первое, на что нужно обратить внимание в любом наборе данных – это распределение классов.
Более того, для самых новых вопросов из обучающей выборки доля дубликатов находится в районе 15-20%, что очень хорошо согласуется с предыдущими оценками доли дубликатов в public leaderboard, согласно которым в тестовой выборке всего 17,5% дубликатов. Но не все так просто — тестовые данные, в свою очередь, делятся в определенной пропорции на публичную (public) и приватную (private) часть. В течение соревнования присланное решение оценивается, согласно установленной организаторами метрике, на публичной части данных и выкладывается на лидерборд (т.н. паблик лидерборд) — по которому участники могут оценивать качество своих моделей. В тестовой выборке тоже было довольно много вопросов про Индию.