Яндекс.Толока — туториал про основные компоненты краудсорсинга и практический опыт по эффективной разметке данных (2 часть)

Продолжаем серию публикаций по краудсорсингу от сервиса Яндекс.Толока.

Первая версия краудсорсинговой платформы Яндекс.Толока вышла в 2014 году. Изначально платформу строили для нужд Яндекс.Поиска (хотя идея приносить пользу другим сервисам и внешним заказчикам возникла сразу же). Алгоритмы учились ранжировать результаты Поиска по степени полезности, обучаясь на данных, которые размечались вручную: люди оценивали, релевантен ли найденный ответ поисковому запросу. Тем самым тысячи толокеров (так называют исполнителей) вносили и по-прежнему вносят вклад в качество Поиска.

Применение краудсорсинга в Поиске стало развитием идей, которые использовались и ранее, просто в менее автоматическом режиме.  Сегодня десятки тысяч толокеров регулярно проверяют информацию об организациях на Яндекс.Картах, улучшают рекомендации Яндекс.Музыки и поиск похожих изображений в Картинках. Беспилотный автомобиль учится определять разные типы объектов вокруг, ориентируясь на фотографии, размеченные исполнителями вручную. Целые блоки важных сервисов и отдельные сайты и приложения работают благодаря Толоке.

В 2016 году заказчики из-за пределов компании тоже получили возможность создавать задания в Толоке. Rambler Group поручил исполнителям модерацию на всех своих ресурсах, интернет-магазину Ozon и сервису «Авито» толокеры помогают улучшать поиск по товарам, стартап Dbrain распознаёт с помощью платформы текстовые документы (это ключевая часть продукта Dbrain). Суммарно над проектами Яндекса и других компаний ежедневно трудятся 30 тысяч исполнителей — они выполняют более двенадцати миллионов заданий в день. Со временем Толока превратилась из инфраструктуры для Поиска сначала в инфраструктуру для всего Яндекса, а затем — в инфраструктурную платформу для развития машинного обучения во всём русскоязычном интернете.

Полный курс туториала по краудсорингу от Яндекс.Толока — https://www.youtube.com/playlist?list=PLJOzdkh8T5kq9eSxQhUJ63HH68oPj532O

В первой части туториала по краудсорсингу обсуждаются ключевые компоненты, необходимые для сбора размеченных данных.

Во второй части туториала по краудсорсингу вы придумаете оптимальный конвейер для решения задачи.

В третьей части туториала по краудсорсингу подробно рассказывается про интерфейс заказчика в Яндекс.Толоке и детально объяснено, как создавать в нём проекты и запускать пулы.

Телеграм чат для обсуждений и вопросов по туториалу https://t.me/tutorialcrowd

Краудсорсинг - Яндекс.Толока сертифицированный партнёрСоздай свой проект в Толоке https://clck.ru/Jxq5P