Кейс: как с помощью чат-бота создать датасет из более 10 тысяч изображений за пять недель

Роман Куцев, основатель компании Trainingdata.ru, помогает стартапам создавать датасеты. Используя технологии краудсорсинга на базе «Яндекс.Толоки», Роман собирает датасет из фотографий людей, который в дальнейшем может быть использован для создания дейтинг-платформы.

Датасет — необходимые данные для работы нейросетей. Проще говоря — это то, что является основой так называемого искусственного интеллекта. Как правило, датасеты собираются индивидуально для какой-либо конкретной задачи. Такими задачами могут быть, например, классификация изображений или поиск объектов на фото.

Если нужно научиться находить пешеходов на изображении, то это уже задача определения объекта на изображении (object detection), и в этом случае нужен датасет из изображений, на которых люди выделены прямоугольниками. Также можно обучить алгоритм находить людей по описанию.

Есть два способа собрать или получить датасет с изображениями: простой и сложный. Простой — найти в интернете готовый датасет под конкретно вашу задачу. Для таких целей Google недавно запустил Dataset Search, который позволяет искать датасеты для разных задач.

Но довольно часто нужного датасета для вашей задачи просто не существует, либо лицензия запрещает его использование в коммерческих целях. Поэтому, если готового датасета нет, то остается вариант собрать его самому.

Оптимальным решением стал краудсорсинг. Так, в «Толоке» постоянно находятся более 10 тысяч исполнителей, которые готовы круглосуточно выполнять задания и сделают это в разы быстрее, чем единственный исполнитель.

К примеру, у компании есть задача обработать несколько сотен тысяч изображений. Фрилансеры потратят на выполнение такого задания несколько месяцев, а толокеры – несколько часов. Безусловно, придется потратить время на создание задания, критериев контроля качества и ханипотов (заданий-ловушек), но это все равно будет быстрее и дешевле, чем наем исполнителей.

Для обучения нейронных сетей важно, чтобы датасет был размечен правильно, без ошибок. Но иногда случалось, что толокер плохо понял задание, либо ленился и на все задания давал одинаковый ответ, либо допускал грамматические ошибки. Из-за этого могло пострадать качество собираемого датасета.

Проблемы удалось решить, когда описания стали проверяться другими толокерами. Независимо друг от друга пять человек раз в сутки оценивали каждый написанный отзыв по четырем критериям:

  1. отсутствие оскорбительных высказываний в адрес человека;
  2. грамотность;
  3. соответствие описания человеку на изображении, отражение в нем личных черт характера и внешности;
  4. креативность текста по пятибалльной шкале.

Благодаря проверке каждого отзыва, толокерам, которые пишут отзывы, присваивается рейтинг. Толокеры с низким рейтингом блокируются, а толокеры с высоким рейтингом поощряются бонусами, что мотивирует их писать еще лучше. Такой процесс приемки заданий позволяет собирать качественный и вариативный датасет.

Подробнее про составление датасета можно узнать из публикации Романа Куцева — https://rb.ru/opinion/chat-bot-dataset/

Краудсорсинг - применение Яндекс.ТолокаПубликация: https://rb.ru/opinion/chat-bot-dataset/