Блог | Yoloco

English [en-US]

Portuguese (Brazil) [pt]

Germany [de]

Войти
Время прочтения・4минут(-ы)

В поисках Инстаграм аккаунтов живых людей

Сейчас русскоязычный сегмент Instagram — это 600 000 лидеров мнений, где 400 000 — из России. Лидер мнений — это аккаунт, у которого более 1 000 подписчиков. Всего аккаунтов в России — 40 млн, а такой большой массив аккаунтов требует эффективных автоматизированных решений. В частности, как находить аккаунты реальных людей среди коммерческих аккаунтов.

В этой статье подробно расскажем, как реализовали новую модель автоматической классификации аккаунтов по трем типам:

  • Живой человек
  • Паблик
  • Коммерческий аккаунт

А затем поделимся с вами результатами наших прогнозов.

Проблема

В социальных сетях много аккаунтов, которые не представляют ценности для рекламодателей и блогеров. Это:

  • Паблики
  • Коммерческие аккаунты (салоны красоты, шоу-румы и т.д.)
  • Масс-фолловеры
  • Боты

Ценность они не представляют по разным причинам:

  • Они вряд ли будут покупать ваши товары и услуги, так как сами что-то продают
  • Паблики также вряд ли станут вашими потенциальными клиентами — у них другая задача
  • А масс-фолловеры вряд ли заметят ваш месседж среди множества других публикаций

Гораздо важнее не уметь вычислять ботов, а уметь находить живых людей. Поэтому в 2021 году Yoloco переходит от парадигмы поиска ботов к парадигме поиска живых людей. Ведь для клиентов важно, чтобы их аудитория состояла из реальных людей, а не ботов, которые будут просто числиться в подписчиках — настоящая обратная связь очень ценна.

Человек может достаточно легко определить тип аккаунта (живой человек, паблик, коммерческий аккаунт). Ему достаточно открыть аккаунт, изучить описание профиля и посмотреть пару публикаций. Однако определять вручную 40 млн аккаунтов — это неэффективное и не очень реалистичное решение.

Некоторые компании, которые занимаются аналитикой, пытаются классифицировать аккаунты, но делают это прямолинейно — берут значения из полей самого Инстаграма (Category). Важно заметить, что эти поля заполняются лично владельцем аккаунта. Именно из-за этого таким результатам не стоит доверять. Например, популярный исполнитель Моргенштерн указал в своем аккаунте в данном поле — Content & Apps. Многие аккаунты вообще не заполняют это поле.

Мы реализовали новую модель классификации аккаунтов по трем типам:

  • Живой человек
  • Паблик
  • Коммерческий аккаунт

Сейчас расскажем про неё подробно и поделимся с вами результатами работы нашей модели — расскажем, сколько в русскоязычном Инстаграме пабликов, живых людей и коммерческих аккаунтов.

Ценность решения

Размечать руками 40 млн аккаунтов — долго и дорого. В ходе разработки своей модели мы готовили датасеты и поэтому знаем что сколько стоит:

  • 1 человек размечает в среднем 2 000 аккаунтов за 8 рабочих часов. Разметка - это ручное действие по определению типа аккаунта: паблик, коммерческий аккаунт или аккаунт живого человека
  • 1 час работы такого специалиста стоит 250-500 рублей в среднем
  • Берем по максимальной ставке и получаем, что разметка 1 аккаунта стоит 2 рубля
  • Разметить 150 000 блогеров обойдется нашей компании в 300 000 рублей и в 75 рабочих дней
  • Разметить всю базу российских подписчиков практически нереально без автоматизации процесса

К счастью, у нас есть технологии. Можно разработать нейросеть, которая будет автоматически классифицировать аккаунты и почти ничего не будет стоить. Мы так и сделали.

Подготовка

Итак, решили разработать модель по определению типа аккаунта в социальной сети. Для этого нам нужно тщательно подготовиться:

  • Определить классы, то есть договориться о том, какие типы аккаунтов для нас существуют
  • Определиться с тем, как определять классы. Создать некое руководство для человека, занимающегося ручной разметкой. Сформулировать базовый набор правил разметки
  • Собрать датасет. Много рутинной работы — разметка и проверка данных

Технический этап работы специалиста по машинному обучению:

  • Поиск фичей
  • Подбор модели
  • Реализация
  • Верификация модели
  • Внедрение модели

У Yoloco всегда есть данные и их много, но, к сожалению, часто для машинного обучения эти данные нужно обогатить, то есть разметить.

На входе у нас было 6 000 аккаунтов, примерно по 2 000 аккаунтов из каждого класса. Все аккаунты были размечены одним человеком и проверены частично другим человеком. На это ушло примерно 2 недели грязного времени и 5 рабочих дней чистого времени.

Чтобы было понятно, приведём примеры аккаунтов каждого типа.

Коммерческий аккаунт

  • Присутствуют ключевые слова, например, «бутик» и «консультация»
  • Есть фразы от первого лица, например, «быстро отправим»
  • Нет имен и фамилий

Человек сразу поймет, что такой аккаунт был создан с целью продать услуги конкретной компании. Очевидно, что аккаунт ведется от имени организации.

Аккаунт живого человека

  • Есть почта и другие контакты
  • Указана должность
  • Указано имя и фамилия в био, присутствует имя в username

Есть личные местоимения Любой человек скажет, что это аккаунт живого человека. Такие аккаунты интересны бизнесу, потому что владелец аккаунта - потенциальный потребитель товаров и услуг.

Паблик

Присутствуют ключевые слова — «паблик», «группа»и т.д.

  • Нет имен
  • Нет коммерческих ключевых слов
  • На фотографиях разные люди или просто картинки без людей
  • Любой пользователь социальных сетей быстро отличит паблик от живого человека.

Результаты

Сначала мы поделимся с вами результатами работы нашей модели, то есть проанализируем весь российский Instagram и найдем % пабликов, коммерческих аккаунтов и живых людей. Мы выбрали случайным образом 1 млн аккаунтов, которые отвечают следующим критериям:

  • Не боты (по нашей модели)
  • Пишут на русском языке

Итак, мы получили следующие результаты:

Как видно на графике, 66 % всех российских аккаунтов — это аккаунты живых людей, которые пришли в Instagram за изначальной целью социальной сети — потреблять контент. 18 % аккаунтов — это аккаунты, которые что-либо продают в Instagram. 14 % — это паблики, которые ведутся хоть и живыми людьми, но размещают обезличенный контент. 2 % — это те, кого не удалось определить.

Это важные результаты для индустрии. Допустим, наступили славные времена и Instagram удалил всех ботов и оставил только честные аккаунты. Даже в этом случае мы получаем следующую картину: только 66 % аудитории российского Инстаграма — потенциальные покупатели, остальные — это паблики и коммерческие аккаунты. В реальности эти 66 % нам нужно еще умножить на процент ботов в Instagram, и мы получим ещё более удручающие цифры.

Важно отметить — в рамках исследования мы взяли большую выборку из русскоязычных аккаунтов, поэтому данное распределение действительно только для русскоязычного Инстаграма.

Выборочно проверили разбивку у некоторых топовых блогеров и получили интересные результаты.

Как видно, у известного российского стендап комика Алексея Щербакова доля живых аккаунтов выше среднего. На платформе Yoloco показывается, что у Алексея качественная аудитория. Среди его подписчиков намного меньше, чем в среднем, коммерческих аккаунтов. Делая рекламу у Алексея вы с большей долей вероятности донесете свой рекламный месседж до живой аудитории, а не до пабликов и магазинов, которым нет дела до вашего продукта.

У топового бьюти-блогера Гоар Аватесян много коммерческих аккаунтов среди подписчиков. Это не очень удивительно, ведь многие салоны красоты и спа-центры уже давно подписаны на блогера.

Интересно то, что у исполнителя Моргенштерна выше среднего количество неопределенных аккаунтов. Это говорит о его молодой аудитории — мы заметили, что среди молодых ребят часто встречаются плохо заполненные профили, видимо, у них сейчас мода оставлять минимум информации о себе в шапке. При этом у Моргенштера крайне низкий процент коммерческих аккаунтов среди подписчиков. Вот уж какой аккаунт создан для рекламы.

А теперь расскажем, как создавали эту модель, перейдем к технической части статьи.

Техническая реализация

Тут не будет рассказа о всех деталях реализации, лишь небольшое количество советов и описание результатов, которых удалось достичь.

Выше, представлены скриншоты Instagram аккаунтов. Собрав информацию с профилей и разметив ее вручную, получили датасет.

По разбросу значений количества слов становится понятно, что главным источником получения информации является колонка [“BIOGRAPHY”], именно с ее полного анализа и началась разработка будущего алгоритма.

Когда дело касается вопросов естественного языка, первое что приходит в голову — bag-of-words. Данный случай — не исключение. В bag-of-words текст представлен в виде пакета слов, без учета грамматики и даже порядка слов, но с сохранением множественности. Для этого в первую очередь нормализуются слова, что приводит к потере информации. Поэтому bag-of-words стоит делать в последнюю очередь. Для работы с русским языком использовали библиотеку pymorphy2.

  1. Анализ текста с точки зрения частей речи. С помощью MorphAnalyzer() для каждого слова определим часть речи и посмотрим на их распределение.
  1. Анализ глаголов с точки зрения:
  • 1/2/3 лицо
  • Женский/Мужской род
  • Множественное/единственное число
  1. И многое другое.

После многих других фич переходим к основному — bag-of-words. Частотный анализ вхождений слов в тексте — примитивная вещь. Перед этим не забываем нормализовать слова. Также на данном этапе стоит хоть как-то ограничить количество слов и, например, по каждому классу взять TOP-30 самых часто встречаемых слов. Разумеется, нам может очень не повезти, и в обучающей выборке будут экземпляры, которые не покажут поведения генеральной совокупности, но никто и не говорил, что модели не требуется сопровождение и ее не нужно дообучать.

В итоге получили 262 численных фичи, и началась работа с моделями. В ходе экспериментов по выбору модели многие принимали участие, но лучше всего себя показал Gradient Boosting Classifiers. Это мощные алгоритмы, которые можно использовать как для задач классификации, так и для регрессии. Модели повышения градиента могут невероятно хорошо работать с очень сложными наборами данных. Вот каких результатов удалось достигнуть на тестовых данных.

Выводы

С помощью технологий компания Yoloco решает задачи по оптимизации и автоматизации рутинных задач классификации. С самого начала создания нашей компании мы ориентированы только на алгоритмы и smart-подходы. Благодаря экспертам в области машинного обучения, мы решаем задачи, которые нереально выполнить с помощью привлечения ручного труда.

В этой статье мы емко описали техническую реализацию задачи классификации типов аккаунтов в русскоязычном Инстаграме. Индустрия получила важный инсайт — более 30% подписчиков блогеров не являются их целевой аудиторией с точки зрения классической рекламной кампании. Все эти годы мы гонялись за идентификацией фрода, ботов, но часто забывали про то, что в Инстаграме миллионы пабликов и коммерческих аккаунтов, которые не являются ни масс-фолловерами, ни ботами, и которые точно не купят у вас товар.

01.07.2021

0 просмотра(ов) статьи

Попробуй Yoloco прямо сейчас

Получи первый бесплатный отчёт за регистрацию

Узнайте о блогерах больше!

Попробуйте бесплатный демо-доступ для знакомства с возможностями нашей платформы