Позавчера подтвердилась новость о покупке Гуглом Kaggle – отличный повод написать об отличном проекте.

Позавчера подтвердилась новость о покупке Гуглом Kaggle – отличный повод написать об отличном проекте. #стартапдня Kaggle – платформа для проведения конкурсов по машинному обучению и обработке данных. Большая компания публикует какие-нибудь свои данные и задачу – ну, например, по анонимизированным данным о пользователях и их действиях надо предсказать отток, а тысячи специалистов из всего мира пытаются построить лучшую предиктивную модель. Платформа Kaggle автоматически проверяет качество предложенных моделей, применяя их к неопубликованной части исходных данных, а в назначенный день останавливает прием вариантов, и лидер превращается в победителя.

Денежную составляющую приза назначает компания – автор задачи и это совершенно произвольная сумма без каких-либо ограничений и правил, отличных от “чем больше, тем лучше”. Рекордное соревнование идет прямо сейчас – за улучшение алгоритма диагностики рака предлагают миллион долларов, но это совершенно нетипичная сумма. Конкурсов на сто тысяч или больше за историю сервиса было чуть больше двух десятков, а медианный размер приза – на глазок около 10 тысяч.

Экономика участников при этом выглядит примерно так: заказчик платит свои десять тысяч победителям, ещё, скажем, столько же Kaggle и столько же составляют расходы на время своих сотрудников по всей организации процесса – тридцать тысяч долларов, порядок стоимости двух человеко-месяцев средних датасайнсеров в Долине. За это он получает 200-300 хоть что-то сделавших команд, из которых пусть 10% квалифицированы и вкладывались в работу. Итого 20-30 попыток и пропорциональное количество шансов, что, хотя бы случайно, получится очень сильный результат, который можно использовать в своей системе, ведь права на код победителя по стандартным условиям переходят компании-заказчику, – однозначный выигрыш. Участники, соответственно, в формальном проигрыше – если поделить 10 000 на 20-30 эффективных участников, то сумма выйдет не очень большая даже для специалистов из Индии. Но зато азарт, интерес, отвлечение от рабочей рутины – эмоциональный результат они точно получат. Kaggle же кроме консалтинга для заказчика и хостинга не делает ничего, для него каждый конкурс – сплошная выручка.

Но не деньгами едиными, Kaggle это не только про заработок, это ещё и про хантинг. Часть конкурсов без всякой маскировки разыгрывают билет на собеседование в крутой компании – и участников в среднем больше, чем в борьбе за типичные $10 000. Это, кстати, совершенно рационально – прибавка в зарплате очень быстро разовый кеш обгонит, даже если другие преимущества новой работы не учитывать. Есть и просто раздел вакансий, куда можно написать что-нибудь зажигательное, заплатив сумму порядка $1000 за одно объявление. Однако такая прямота – только вершина айсберга, результаты конкурсов открыты и успешный профиль на Kaggle – шикарный пункт в резюме, причем такой прозрачный, что даже самому простому hr-менеджеру можно объяснить, как плохой отличить от хорошего, а хороший от такого, что “ах, поклониться в ноги и немедленно звать самого главного”.

Что касается общих чисел. За все время существования сервиса проведено чуть больше двухсот (не двухсот тысяч, именно двухсот) конкурсов, разыграно миллионов пять долларов (инвестиций в проект было в три раза больше), зарегистрировано больше 800 000 “датасайнсеров”. Реальное количество настоящих специалистов я бы оценил тысяч в пятнадцать-двадцать, если специалистом считать того, кто может построить модель, выигрывающую у Random, и готов вложить в конкурсы необходимое для такой модели время. Если критерии ставить другие, то оценка, разумеется, сдвинется 😊. Кроме собственно соревнований у Kaggle есть огромный и популярный форум, среди своих есть что обсудить, а за хорошие топики можно получить медальку в профиль, не так круто как за соревнование, но для компании второго ряда сойдет.