Архив тегов: Яндекс.Толока

Яндекс.Толока — туториал про основные компоненты краудсорсинга и практический опыт по эффективной разметке данных (2 часть)

Продолжаем серию публикаций по краудсорсингу от сервиса Яндекс.Толока.

Первая версия краудсорсинговой платформы Яндекс.Толока вышла в 2014 году. Изначально платформу строили для нужд Яндекс.Поиска (хотя идея приносить пользу другим сервисам и внешним заказчикам возникла сразу же). Алгоритмы учились ранжировать результаты Поиска по степени полезности, обучаясь на данных, которые размечались вручную: люди оценивали, релевантен ли найденный ответ поисковому запросу. Тем самым тысячи толокеров (так называют исполнителей) вносили и по-прежнему вносят вклад в качество Поиска.

Применение краудсорсинга в Поиске стало развитием идей, которые использовались и ранее, просто в менее автоматическом режиме.  Сегодня десятки тысяч толокеров регулярно проверяют информацию об организациях на Яндекс.Картах, улучшают рекомендации Яндекс.Музыки и поиск похожих изображений в Картинках. Беспилотный автомобиль учится определять разные типы объектов вокруг, ориентируясь на фотографии, размеченные исполнителями вручную. Целые блоки важных сервисов и отдельные сайты и приложения работают благодаря Толоке.

В 2016 году заказчики из-за пределов компании тоже получили возможность создавать задания в Толоке. Rambler Group поручил исполнителям модерацию на всех своих ресурсах, интернет-магазину Ozon и сервису «Авито» толокеры помогают улучшать поиск по товарам, стартап Dbrain распознаёт с помощью платформы текстовые документы (это ключевая часть продукта Dbrain). Суммарно над проектами Яндекса и других компаний ежедневно трудятся 30 тысяч исполнителей — они выполняют более двенадцати миллионов заданий в день. Со временем Толока превратилась из инфраструктуры для Поиска сначала в инфраструктуру для всего Яндекса, а затем — в инфраструктурную платформу для развития машинного обучения во всём русскоязычном интернете.

Полный курс туториала по краудсорингу от Яндекс.Толока — https://www.youtube.com/playlist?list=PLJOzdkh8T5kq9eSxQhUJ63HH68oPj532O

В первой части туториала по краудсорсингу обсуждаются ключевые компоненты, необходимые для сбора размеченных данных.

Во второй части туториала по краудсорсингу вы придумаете оптимальный конвейер для решения задачи.

В третьей части туториала по краудсорсингу подробно рассказывается про интерфейс заказчика в Яндекс.Толоке и детально объяснено, как создавать в нём проекты и запускать пулы.

Телеграм чат для обсуждений и вопросов по туториалу https://t.me/tutorialcrowd

Краудсорсинг - Яндекс.Толока сертифицированный партнёрСоздай свой проект в Толоке https://clck.ru/Jxq5P

Яндекс.Толока — туториал про основные компоненты краудсорсинга и практический опыт по эффективной разметке данных

Яндекс опубликовал первый русскоязычный туториал по краудсорсингу. Это серия видео о том, как с помощью передачи простых заданий большому числу исполнителей, можно эффективно собрать и разметить данные. Исполнителям можно поручить разные задания: найти что угодно в интернете, оценить дизайн, проверить или создать контент, поучаствовать в опросе, добраться до точки на карте и сфотографировать там что-нибудь. Тысячи людей будут одновременно выполнять перечисленные действия, формируя необходимый набор данных. Выпуск туториала — повод вновь поговорить о том, как краудсорсинг радикально меняет процессы в компаниях.

Следует заметить, что количество областей применения машинного обучения растет, а с ним и растет потребность в обучающих данных для настройки моделей. Производство таких данных в крупном масштабе требует построения специальных технологических процессов, которые, в частности, обеспечивают контроль качества и умное распределение задач между исполнителями.

Полный курс туториала по краудсорингу от Яндекс.Толока — https://www.youtube.com/playlist?list=PLJOzdkh8T5kq9eSxQhUJ63HH68oPj532O

В вводной части туториала рассказывается о том, что такое краудсорсинг, показывается на примерах, как он помогает оптимизировать бизнес-процессы и идет разговор о существующих краудсорсинговых платформах, включая Толоку.

Телеграм чат для обсуждений и вопросов по туториалу https://t.me/tutorialcrowd

Краудсорсинг - Яндекс.ТолокаСоздай свой проект в Толоке https://clck.ru/Jxq5P

В Яндекс.Толоке появились первые сертифицированные партнёры

В Яндекс.Толоке прошла первая сертификация поставщиков краудсорсинговых решений. Теперь клиенты Толоки могут заказать подготовку проекта и размещение у сертифицированных партнёров. Они помогут заказчикам решать их повседневные бизнес-задачи, привлекая тысячи пользователей к их выполнению и используя технологии Яндекса. В свою очередь для партнёров сертификация в Толоке — это возможность использовать краудсорсинг, чтобы совершенствовать собственные технологии, и дополнительный канал привлечения клиентов.

Первыми сертифицированными партнёрами Толоки стали:

  • BestPlace — платформа для оценки территории и прогноза розничного товарооборота, которая позволяет моментально находить самые рентабельные места в городе. В Толоке компания проводит полевые исследования и актуализирует данные по подсчёту пешеходного трафика, проверяет актуальность объявлений о недвижимости, проводит мониторинг конкурентов для заказчиков.
  • Handl — сервис подготовки и разметки данных для машинного обучения. Handl предоставляет интерфейсы для разметки фото, аудио, видео и текстовых файлов. В Толоке компания делает разметку датасетов эффективной и качественной для заказчика, а также готовит данные любого типа под задачи машинного обучения.
  • ID R&D — компания разрабатывает решения в сфере аутентификации, в том числе через биометрию. Передовые технологии ID R&D применяются в финансовых учреждениях на трёх континентах. Через Толоку компания собирает данные, чтобы совершенствовать алгоритмы работы биометрических систем.
  • SD Data — компания занимается разработкой систем разговорного искусственного интеллекта, а также систем приёмки и тестирования ИИ. В Толоке компания собирает данные для обучения и тестирования — диалоги, вопросы, ответы, переформулировки.
  • VisionLabs — разрабатывает решения в области компьютерного зрения и машинного обучения, основанные на биометрии данных с использованием нейросетей. С помощью пользователей Толоки компания размечает и обрабатывает изображения, чтобы улучшить качество работы своих алгоритмов.

Вторая волна сертификации будет запущена в ближайшее время. Партнерами платформы могут стать IT-компании, использующие в своей работе технологии краудсорсинга, а также digital-агентства и частные специалисты, имеющие большой опыт работы с данными и хорошую экспертизу Толоке. Они также смогут настраивать проекты для внешних клиентов. Узнать условия партнерской программы и оставить заявку на сертификацию можно на сайте проекта.

Краудсорсинг - Яндекс.Толока сертифицированный партнёрИсточник: https://webmaster.yandex.ru/blog/v-yandeks-toloke-poyavilis-pervye-sertifitsirovannye-partnery

Яндекс.Толока — Пишем инструкцию к заданию

Инструкция — это набор основных правил, которые должен изучить исполнитель, приступая к заданию. Хорошая инструкция даёт общее представление о проекте, учит правильно работать с новой информацией, а затем служит актуальным справочником. От чёткости и полноты инструкции зависит качество ответов, которые вы получите, и рейтинг проекта.

Написать инструкцию к заданию можно в визуальном редакторе или с помощью HTML-разметки. О том, какие теги и форматирование при этом использовать, читайте в Руководстве.

Вот несколько советов о том, как составить хорошую инструкцию.

Структура

В начале расскажите о цели проекта: как результат будет применятся в жизни, в чём польза этого задания и как оно поможет вашему бизнесу или исследованию. Так повышается значимость задания и ответственность исполнителя.

Дайте представление об организации работы: что и как предстоит делать. Предупредите об обучении и экзамене, если они есть. Для отложенной приёмки укажите срок проверки и кратко перечислите критерии оценки задания. (далее…)

Кейс: как с помощью чат-бота создать датасет из более 10 тысяч изображений за пять недель

Роман Куцев, основатель компании Trainingdata.ru, помогает стартапам создавать датасеты. Используя технологии краудсорсинга на базе «Яндекс.Толоки», Роман собирает датасет из фотографий людей, который в дальнейшем может быть использован для создания дейтинг-платформы.

Датасет — необходимые данные для работы нейросетей. Проще говоря — это то, что является основой так называемого искусственного интеллекта. Как правило, датасеты собираются индивидуально для какой-либо конкретной задачи. Такими задачами могут быть, например, классификация изображений или поиск объектов на фото.

Если нужно научиться находить пешеходов на изображении, то это уже задача определения объекта на изображении (object detection), и в этом случае нужен датасет из изображений, на которых люди выделены прямоугольниками. Также можно обучить алгоритм находить людей по описанию.

Есть два способа собрать или получить датасет с изображениями: простой и сложный. Простой — найти в интернете готовый датасет под конкретно вашу задачу. Для таких целей Google недавно запустил Dataset Search, который позволяет искать датасеты для разных задач.

Но довольно часто нужного датасета для вашей задачи просто не существует, либо лицензия запрещает его использование в коммерческих целях. Поэтому, если готового датасета нет, то остается вариант собрать его самому.

Оптимальным решением стал краудсорсинг. Так, в «Толоке» постоянно находятся более 10 тысяч исполнителей, которые готовы круглосуточно выполнять задания и сделают это в разы быстрее, чем единственный исполнитель.

К примеру, у компании есть задача обработать несколько сотен тысяч изображений. Фрилансеры потратят на выполнение такого задания несколько месяцев, а толокеры – несколько часов. Безусловно, придется потратить время на создание задания, критериев контроля качества и ханипотов (заданий-ловушек), но это все равно будет быстрее и дешевле, чем наем исполнителей.

Для обучения нейронных сетей важно, чтобы датасет был размечен правильно, без ошибок. Но иногда случалось, что толокер плохо понял задание, либо ленился и на все задания давал одинаковый ответ, либо допускал грамматические ошибки. Из-за этого могло пострадать качество собираемого датасета.

Проблемы удалось решить, когда описания стали проверяться другими толокерами. Независимо друг от друга пять человек раз в сутки оценивали каждый написанный отзыв по четырем критериям:

  1. отсутствие оскорбительных высказываний в адрес человека;
  2. грамотность;
  3. соответствие описания человеку на изображении, отражение в нем личных черт характера и внешности;
  4. креативность текста по пятибалльной шкале.

Благодаря проверке каждого отзыва, толокерам, которые пишут отзывы, присваивается рейтинг. Толокеры с низким рейтингом блокируются, а толокеры с высоким рейтингом поощряются бонусами, что мотивирует их писать еще лучше. Такой процесс приемки заданий позволяет собирать качественный и вариативный датасет.

Подробнее про составление датасета можно узнать из публикации Романа Куцева — https://rb.ru/opinion/chat-bot-dataset/

Краудсорсинг - применение Яндекс.ТолокаПубликация: https://rb.ru/opinion/chat-bot-dataset/

В Яндекс.Толоке появятся сертифицированные подрядчики

У Яндекс.Толоки появятся сертифицированные партнёры, которые будут помогать всем желающим обрабатывать данные с помощью этого сервиса. Теперь компании, которые нуждаются в таких услугах, смогут выбрать проверенного подрядчика.

Партнёром Толоки может стать частный специалист или IT-компания, у которых есть большой опыт в работе с данными и с технологиями краудсорсинга. Благодаря партнёрству с Толокой подрядчики получат дополнительный канал привлечения клиентов, а также будут в числе первых тестировать новые возможности платформы. Узнать условия партнёрской программы и оставить заявку на сертификацию можно на сайте проекта — https://toloka.yandex.ru/for-partners/.

«Сейчас всё больше бизнесов нуждаются в обработке и структурировании больших данных. Для этого необходимы ресурсы, поэтому самый эффективный способ решить такую задачу — краудсорсинг. Нам интересно развивать этот рынок и поддерживать его игроков. С помощью наших партнёров Толокой смогут пользоваться даже те компании, которые не разбираются в технологиях краудсорсинга»,— говорит руководитель Яндекс.Толоки Ольга Мегорская.

Яндекс.Толока — это открытая краудсорсинговая платформа, на которой больше четырёх миллионов человек выполняют задания по сбору и разметке данных для разных заказчиков. Среди клиентов Толоки — сервисы Яндекса, Рамблер, Озон, Авито и многие другие. Каждый месяц исполнители делают несколько миллионов заданий по разметке данных, которые потом используются как эталонные данные для машинного обучения, а также помогают в задачах модерации и генерации контента.

Краудсорсинг - Руководитель Яндекс.Толоки Ольга МегорскаяИсточник: https://yandex.ru/company/services_news/2019/2019-04-08