Метрики в задачах машинного обучения

Доля неподтвержденных (отклоненных) дефектов

Назначение метрики: показать сколько дефектов были заведены «вхолостую».

Если доля дефектов, которые были отклонены превышает 20%, то в команде может наблюдаться рассинхронизация в понимании, что является дефектом, а что нет

Группа 5 — Обратная связь и удовлетворенность пользователей

И в заключение, группа метрик, показывающая, как продукт был принят конечными пользователями, насколько он соответствовал их ожиданиям. Но важна не только обратная связь о ПО: еще одна важная задача этой группы метрик — показать, удовлетворены ли пользователи процессом взаимодействия с командой ИТ в целом и QA в частности.

Свойства

  • Метрическое пространство компактно тогда и только тогда, когда из любой последовательности точек можно выбрать сходящуюся подпоследовательность (секвенциальная компактность).
  • Метрическое пространство может не иметь счётной базы, но всегда удовлетворяет первой аксиоме счётности — имеет счётную базу в каждой точке.
    • Более того, каждый компакт в метрическом пространстве имеет счётную базу окрестностей.
    • Сверх того, в каждом метрическом пространстве существует такая база, что каждая точка пространства принадлежит лишь счётному множеству её элементов — точечно-счётная база (но это свойство слабее метризуемости даже в присутствии паракомпактности и хаусдорфовости).

Коэффициент ошибок, пропущенных на продуктив

Кол-во ошибок обнаруженных после выпуска релиза \ общее кол-во ошибок в ПО обнаруженных в процессе тестирования и после выпуска

Назначение метрики: продемонстрировать качество тестирования и эффективность обнаружения ошибок — какая доля дефектов была отфильтрована, а какая прошла на продуктив.

Допустимый процент ошибок, которые были пропущены на продуктив, конечно же будет зависеть от многих факторов. Однако, если коэффициент получился >0,1 – это плохо. Это значит, что каждый десятый дефект не был обнаружен во время тестирования и привел к проблемам в ПО, уже переданном пользователям.

Монетизационные метрики

Большинство аналитиков оценивает текущую или будущую прибыльность продукта при помощи нескольких метрик. Они очень важны, потому что показывают, останется ли продукт на плаву в ближайшей и отдалённой перспективе.

Gross — это метрика, оценивающая общий доход, полученный от пользователей за определённый период времени.

Revenue — оценивает долю прибыли, которую получит создатель проекта (т.е. Gross минус сборы сторов).

Скриншот из демо devtodev

Transactions или Транзакции — эта метрика лежит в основе любого анализа прибыли. Она отвечает на самый важный вопрос бизнеса — сколько мы продали за выбранный период времени?

Transactions per user или Транзакции на пользователя — среднее количество транзакций на пользователя. 

Transactions per User = Total Number of Transactions / Total Number of Users

Чтобы ваши доходы росли, вам нужно стремиться к тому, чтобы количество транзакций и транзакций на пользователя ежедневно росло.

Average Check или Средний чек — это ещё одна очень важная метрика, которая, по сути, является средним размером транзакции.

Average Check = Gross Profit / Transactions

Чтобы узнать про взаимосвязи метрик, изучайте нашу наглядную карту метрик.

Paying users или Платящие пользователи — среднее количество уникальных пользователей, которые что-то оплатили за выбранный промежуток времени (платёж может быть один и больше). Вам нужно следить за этой метрикой, потому что она отражает количество людей, которые непосредственно приносят вам прибыль.

Paying Conversion или Конверсия в Платёж — измеряет процент людей, пользующихся вашей игрой или приложением, и при этом сконвертировавшихся в платёж в течение выбранного периода времени. Чем она выше, тем лучше.

Paying Conversion = Paying Users / Active Users

ARPU (Average Revenue Per User) или Средний Доход с Пользователя, который обычно считается по месяцам. Эта метрика, наряду с ARPPU, является самой признанной и широко используемой для подсчёта дохода игры или приложения.

ARPU = общий доход, полученный за заданное время  / количество уникальных пользователей за это же время

ARPPU (ARPMU) — Average Revenue Per Paying User (Средний Доход с Платящего Пользователя) или Average Revenue Per Monetized User (Средний Доход с Монетизированного Пользователя). Эта метрика также обычно рассчитывается по месяцам.

Скриншот из демо devtodev

Lifetime value (LTV)  — средний доход с пользователя за всё время его жизни в проекте. В целом, эту метрику можно применять для примерного расчёта “ценности” среднего пользователя. Это очень сложный показатель, по которому у нас написана отдельная статья. 

Пирамида метрик

Иерархия метрик не всегда даёт однозначное понимание, какие из них являются более значимыми, какие — составными, а какие — промежуточными. Особенно сложно сориентироваться в самом начале. Чтобы избежать возможных ошибок, обратимся к пирамиде метрик.

Пирамида имеет пять уровней, расположенных по порядку от макроструктуры к микропроцессам. 

  1. В основе находятся бизнес-метрики, которые показывают, зарабатываем ли мы и эффективна ли наша бизнес-модель (считаем общий профит).
  2. Дальше идут метрики маржинальности, баланс которых напрямую влияет на профит. Следим за прибылью с каждого пользователя и каждой сделки, работаем над формулой LTV > CAC.
  3. Ценность продукта. На этом этапе мы должны быть уверены, что продукт решает основную задачу пользователя, с которой он приходит к нам. Если она решается хорошо, это залог готовности платить больше и дольше, что напрямую влияет на второй этап. Здесь подойдут любые метрики лояльности. 
  4. Метрики качества. Готовы ли мы гарантировать удобство и отказоустойчивость нашего сервиса? Чтобы измерить это, отслеживаем операционные процессы: оптимальность, безотказность, отсутствие багов и критических сценариев.
  5. Маркетинговые метрики. Как работают отдельные каналы и сегменты, успешны ли наши рекламные коммуникации — всё это учитывается с помощью CTR, CPA и т. д. 

Кстати, достаточно сложная иерархия, представленная в виде древовидной структуры, является по сути пирамидой метрик.

Что такое Churn, и какой он бывает

Churn, или отток — тот процент пользователей, который вы теряете за определенный период (неделя, месяц, квартал). Это всегда часть от общего количества активных клиентов. Он будет всегда, и одна из задач маркетологов — за счет внешней рекламы «перебить» этот естественный отток. Или, если это возможно, снизить его.

Вычислить показатель Churn можно, поделив то число пользователей, которых вы недавно потеряли, на общее число клиентов в момент начала оттока. Также просто узнать Churn можно с помощью метрики Retention, показателя удержания аудитории:

Churn = 100% — Retention

Эти две метрики, по сути, одинаковы, но они позволяют посмотреть на ситуацию с разных сторон. 

Если команда сосредоточена на повышении Retention, они работают над удержанием аудитории (новыми фичами, уровнями, акциями). 

А если в приоритет ставится понижение Churn, главным становится устранение багов, снижение количества сбоев, «допиливание» интерфейса на тех экранах, где происходят отказы, и в целом работа над качеством поддержки пользователей.

Разновидности Churn

Существует несколько видов Churn. В зависимости от специфики бизнеса, можно выделить:

  • Отмену подписки.
  • Закрытие аккаунта.
  • Непродление договора.
  • Решение клиента покупать в другом магазине.
  • Удаление приложения.

Из методики расчета Churn видно, что отток аудитории не может быть отрицательным. В лучшем, идеальном случае он равен 0% — когда ваше приложение на протяжении выбранного периода вообще не теряло пользователей. 

А вот что может быть — так это отрицательный отток доходов. Это очень хорошее явление, на которое «молятся» все маркетологи (опять же, чем ниже отток — тем лучше!). Оно значит, что стоимость ваших услуг растет, но пользователей это пока не отталкивает.

Пример: вы продаете хлеб. И вы единственная хлебопекарня в своем городе. И каждые два дня к вам приходят клиенты, которые не могут представить себе жизнь без вашего хлеба. Если вы повысите цену на хлеб, а число клиентов при этом не упадет, вы получите отрицательный отток доходов.

Аналогично это работает в случае с SaaS-сервисами или мобильными приложениями. Мечта любого бизнеса — иметь настолько лояльных покупателей, чтобы они периодически переходили на более дорогой тариф, покупали всё больше услуг, расширений, модулей и так далее.

Эти же параметры, отток и удержание аудитории, использует Facebook для оценки стоимости социальных сетей, которые они покупают. Миллиардные сделки с WhatsApp и Instagram в свое время казались чересчур расточительными, но хороший Retention гарантировал, что эти сети в будущем окупят себя, нужно только накачать их достаточным количеством пользователей.

Показатели Churn по индустриям

Высокий процент оттока — ещё не обязательно приговор бизнесу. В разных отраслях естественный отток существенно отличается. В среднем за год Churn составляет:

  • у американских банков — 20-25%
  • у SaaS-сервисов — 5-6%
  • у крупнейших мобильных операторов Европы — 20-30%
  • у главных телекоммуникационных операторов США — 0,9%
  • у мобильных приложений — 70-85%.

Как видите, объективно низкого или высокого оттока не бывает — всё зависит от специфики вашего бизнеса. Даже внутри приложений разница огромна: например, фитнес-утилиты с подпиской и платные приложения сохраняют аудиторию намного лучше, чем бесплатные игры. В последние 75% пользователей не заходят уже через день после первого запуска. Churn здесь высокий (правда, и приток аудитории обычно соответствующий).

Удовлетворенность пользователей ИТ сервисом

Регулярный опрос удовлетворенности пользователей сервисом ИТ с выставлением баллов.

Назначение метрики: показать, доверяют ли пользователи команде ИТ, понимают ли, как и почему организована ее работа, насколько эта работа оправдывает ожидания.

  • Метрика может служить индикатором того, что необходимо сфокусироваться на оптимизации процесса или сделать его понятнее и прозрачнее для пользователей.
  • Расчет показателя удовлетворенности можно проводить на основе результатов опроса по итогам релиза. Собираем все оценки и считаем средний балл. Далее можно повторно рассчитать такой балл, после того как будут сделаны изменения в процессе.

Запомните

  • Разберитесь, какие показатели влияют на прибыль и кто в компании влияет на них.
  • Выберите ключевые показатели, сильнее других влияющие на прибыль, и назначьте ответственных за них. Установите по 2–3 чётких KPI для каждого подразделения.
  • Мотивируйте сотрудников по их ключевым показателям.
  • Следите, достигают ли сотрудники целевых показателей.
  • Когда показатели не достигнуты, разберитесь, в чём причина. Если сотруднику нужна помощь — помогите. Если дело в нём — замените другим.
  • Постоянно проводите ревизию системы KPI и мотивации. Вносите коррективы, когда поймёте, что система нуждается в них.

KPI (Key Performance Indicator)
— это показатель достижения успеха в определенной деятельности или в достижении определенных целей. Можно сказать, что KPI — это количественно измеримый индикатор фактически достигнутых результатов.

На русский язык термин наиболее часто переводится как «ключевой показатель эффективности»
, что является не вполне корректным: эффективность характеризует соотношение между достигнутым результатом и затраченными ресурсами, а с помощью KPI можно измерять и другие параметры. Более правильным является перевод «Ключевой показатель деятельности»
.

KPI и BSC

Бытует заблуждение о том, что KPI имеет прямое отношение к BSC (Balanced Scorecard, Сбалансированная система показателей). Однако разработчики BSC — Нортон и Каплан — не использовали термина KPI, а использовали термин measure — «мера», «измеритель».

Между KPI и BSC присутствует скорее косвенная связь: в BSC есть перспектива «бизнес-процессы» , на которой находятся цели, связанные с бизнес-процессами. Как измерители достижения этих целей часто используются показатели этих бизнес-процессов — KPI.

Наиболее актуально использование понятия KPI в. управлении бизнес-процессами: KPI являются измерителями результативности, эффективности, производительности бизнес-процессов.

Выделяются следующие виды ключевых показателей:

  1. KPI результата
    — сколько и какой результат произвели;
  2. KPI затрат
    — сколько ресурсов было затрачено;
  3. KPI функционирования
    — показатели выполнения бизнес-процессов (позволяет оценить соответствие процесса требуемому алгоритму его выполнения);
  4. KPI производительности
    — производные показатели, характеризующие соотношение между полученным результатом и временем, затраченным на его получение;
  5. KPI эффективности
    (показатели эффективности) — это производные показатели, характеризующие соотношение полученного результата к затратам ресурсов.

При разработке показателей процесса необходимо придерживаться следующих правил:

  1. Набор показателей должен содержать минимально необходимое их количество для обеспечения полноценного управления бизнес-процессом;
  2. Каждый показатель должен быть измерим;
  3. Стоимость измерения показателя не должна превышать управленческий эффект от использования данного показателя.

Алгоритм разработки показателей бизнес-процесса

Рассмотрим виды ключевых показателей деятельности на примере процесса « Материально-техническое обеспечение» Производственной компании (рис. 1)
Выделять показатели наиболее удобно применительно к Процессу, изображенному в нотации IDEF0, когда на рисунке представлены Входы, Выходы, Управление (правила выполнения процесса) и Механизмы (оборудование, персонал). Ключевые показатели эффективности и показатели производительности, являясь производными, при использовании такой схемы характеризуют процесс в целом.

Рисунок 1. Процесс « Материально-техническое обеспечение»

Идентифицировать процесс и его результат.

Например,

Процесс « Материально-техническое обеспечение» — результат «Годные товарно-материальные ценности».

Идентифицировать входы-ресурсы (ресурсы, перерабатываемые за один цикл процесса) и входы-механизмы (ресурсы, обеспечивающие многократное выполнение процесса — оборудование, персонал).

Например,

Входы-ресурсы Процесса « Материально-техническое обеспечение»:

  • Заявки на поставку Товарно-материальных ценностей;
  • Товарно-материальные ценности (ТМЦ) — сырье и материалы, которые необходимо предоставить согласно плану закупок или по заявкам на поставку;
  • Информация о наличии и стоимости ТМЦ на рынке.

Входы-механизмы рассматриваемого процесса:

  • Оборудование рабочих мест сотрудников отдела снабжения;
  • Сотрудники отдела снабжения.

Идентифицировать входы-управления (правила и требования к выполнению процесса)

Например, рассматриваемый процесс может регламентироваться:

  • «Инструкцией по приемке и хранению сырья, полуфабрикатов и материалов на складе»;
  • «Методикой отбора поставщиков»;
  • «Правилами заключения договора поставки сырья и материалов»;
  • «Планом закупок».

Понятие North Star Metric

Метрика «полярной звезды» (или «путеводная») представляет собой ключевой показатель ценности продукта для потребителя, на который стартап ориентируется в текущий момент и за счет которого получает основную прибыль. Концепция NSM задает верное направление для развития и помогает компании выйти за пределы кратковременного роста, обеспечив стабильное и устойчивое масштабирование в долгосрочной перспективе.

NSM обязательно отражает:

  1. Доходность стартапа.
  2. Ценность для целевого потребителя.

Кроме того, показатель должен быть измерим

Важно, чтобы оба элемента входили в путеводную метрику, иначе высока вероятность ошибки в продуктовой стратегии

Например, стартап, предлагающий потребителям платный веб-сервис, планирует установить ключевым показателем число зарегистрированных пользователей (метрику тщеславия). Доходность параметр отражает, при этом легко рассчитывается. Но в отношении ценности для потребителя показатель не работает: по нему невозможно понять, пользуется ли человек сервисом после регистрации и как часто, понравился ли он ему. То есть в качестве NSM такая метрика будет ошибочной, компании целесообразно выбрать другую, учитывающую интерес целевой аудитории, — например, число активных пользователей в месяц.

Метрика «полярной звезды» обычно не является самым ярким параметром работы стартапа — это не показатель тщеславия

Важно искать метрику, исходя из объективной ценности продукта для потребителя, которой обусловлен доход компании. В дальнейшем оптимизация деятельности стартапа, направленная на увеличение NSM, обеспечит бизнесу устойчивый рост

5- F1 Счет

В зависимости от приложения вы можете придать более высокий приоритет отзыву или точности. Но есть много применений, в которых важны как отзыв, так и точность. Поэтому естественно придумать способ объединить эти два в одну метрику.Один популярный показатель, который сочетает в себе точность и отзыв, называется F1-счет, что является гармоническим средним значением точности и отзыва, определяемым как:

F1-оценка = 2 * Точность * Вспомнить / (Точность + Вспомнить)

Таким образом, для нашего примера классификации с матрицей путаницы на рисунке 1, F1-показатель может быть рассчитан как:

F1_cat = 2 * 0,6 * 0,9 / (0,6 + 0,9) = 72%

Обобщенная версия F-счета определяется следующим образом. Как мы видим, F1-счет является частным случаем F_ℬ, когда ℬ = 1.

Хорошо отметить, что всегда есть компромисс между точностью и отзывом модели, если вы хотите сделать точность слишком высокой, вы в конечном итоге увидите снижение скорости повторного вызова, и наоборот.

Основные отчеты Метрики

Рассмотрим наиболее полезные отчеты, представленные в Метрике:

  • По ключевым словам. Поможет выявить «работающие» слова, благодаря которым на ресурс приходят пользователи.
  • По площадкам. Показывает РСЯ площадки, на которых отображаются ваши объявления.
  • Показатели по источникам трафика. Отображает данные по каналам трафика, благодаря чему владелец сайта сможет определить, какой из них приносит большую прибыль.
  • По устройствам. Показывает число пользователей, посетивших ресурс через ПК, мобильный телефон, планшет. Здесь же можно увидеть модели устройств, которыми пользуется большая часть ваших юзеров. Полезный отчет для оптимизации ресурса.
  • Половозрастной показатель. Отчет позволяет увидеть, кто чаще (мужчины или женщины) пользуется сайтом и совершает на нем покупки, и каков средний возраст аудитории.
  • Время и часы. Помогает увидеть активность пользователей в течение дня или недели.
  • География. Отчет для определения региона использования. Помогает определить, где продажи идут лучше.
  • Вебизор. Отчет для оценки ресурса помогает выявить его сильные и слабые стороны.

Это далеко не все отчеты, которые вы сможете получить при использовании Яндекс.Метрики. Есть еще огромное количество полезных инструментов, которые помогут вам проанализировать ресурс с разных сторон.

Этап 2. Начало роста

Итак, ваш продукт идеально вписывается на рынок. У вас есть доход и растущая клиентская база. Теперь пора двигаться с вашим бизнесом вперед.

До сего момента вам ничего особо и не нужно было отслеживать. Регистрации юзеров и доход, нечего там искать. Теперь вам потребуется две новые метрики, которые помогут вашему бизнесу двигаться в нужном направлении.

Вы на данном этапе, если:

  • У вас как минимум один постоянный канал привлечения клиентов;
  • Многие ваши пользователи подписываются на рассылку новостей и платят вам;
  • Месячный доход начинает расти;

Приоритетные цели:

  • Постоянный рост MRR (регулярный месячный доход), с контролем Churn Rate (отток клиентов).
  • Зафиксировать месячный отток клиентов на уровне 1-2%. Если отток больше и достигает 5%, то постарайтесь любыми способами его снизить.

Метрика #1: Постоянный рост MRR (регулярный месячный доход).

В SaaS-бизнесе MRR гораздо более ценная метрика, чем стандартный доход. Это общий доход, который вы получили в течение месяца от месячной подписки на ваш продукт. SaaS-бизнес в принципе сильно привязан к ежемесячным платежам. Могут потребоваться месяцы, чтобы отбить стоимость клиента, и реальная прибыль повышается при увеличении количества подписок на продукт. Случайные деньги не для нас. Отслеживая MRR, мы оцениваем прогресс нашего бизнеса от месяца к месяцу.

К сожалению, отслеживание MRR может ввести вас в заблуждение. Есть несколько случаев, когда системе приходится работать с другими вариантами:

  • Составляя годовые планы, не переусердствуйте, и постарайтесь не пренебрегать планами на месяц. Годовой доход должен равномерно распределяться по всем месяцам подписки, а не быть спутанным в те месяцы, когда клиент оплачивал подписку (например, оплата подписки сразу за 6 месяцев);
  • Смены тарифов трудно отследить и скомпоновать. Не забудьте добавить пару долларов к MRR, если клиент перешел с десятидолларовой подписки на двадцатидолларовую;
  • Не забывайте отражать отток в MRR.

Кстати об оттоке…

Метрика #2: Отток клиентов

Повышение MRR – всего одна сторона медали. Другая сторона – отток клиентов. Если вы не можете удержать пользователей на подписке, тот момент, когда MRR не будет пополняться и ваш бизнес заглохнет, не заставит себя долго ждать. Отток вообще штука сложная. В самом начале вашего бизнеса отток в 10% не кажется таким уж плохим. 100 клиентов, за месяц из них отвалилось 10. Подумаешь! Можно найти еще 10. А если у вас 10000 клиентов и отвалилась за месяц 1000? Даже для лучших маркетологов это будет испытанием.

Показатель оттока в самом начале совершенно не пугает вас. Но он может быстро выйти из-под контроля, если не обращать на него внимания. Чтобы выстроить мощную компанию с серьезным подходом, вам просто НЕОБХОДИМО заняться работой с вашим оттоком и контролировать его.

Показатель оттока клиентов, который нам нравится

В разных сферах по-разному, но универсальное требование: не больше 5%, а лучше в районе 1-2%. А лучше достичь отрицательного оттока клиентов — это когда потери с ушедших клиентов покрываются тем, что существующие клиенты стали платить больше (например, увеличили тариф).

Оповещения

Performance.
Автотесты. Например, если слишком повышается процент пропущенных багов или если слишком много новой функциональности не покрыто тестами.
Входящие баги. У нас в компании любой человек может завести баг в тикет-системе. Раньше это сопровождалось сообщением в личку, а теперь есть канал оповещений о новых багах, мало того, баги автоматически назначаются на исполнителя по очереди. Назначенный человек должен разобрать баг, иначе бот будет каждые 15 минут ему напоминать.
Скорость тестирования/ожидания тестирования

Если видно, что человек закопался в задачу — неважно, он ее кодировал, делал ревью, тестировал — должно прилететь оповещение: «Ты уже три занимаешься одной задачей, возможно, ты закопался, попроси помощи».
Дефекты на задачу/команду.
Ревью тест-кейсов. Это просто автоматизация процесса, чтобы не делать это руками.

Сколько нужно оповещений и как часто?

Слишком много оповещений — перестаем реагировать.Слишком мало — не видим проблем. Нет проблем — сводка по фактам. метод светофора

  • Зеленый сигнал — релиз проходит, оповещение не нужно.
  • Желтый сигнал — прилетит алерт, но смотреть его не нужно, если он разовый. Если повторяется, вы в жёлтой зоне и пора посмотреть, что же происходит. При этом релиз желтой зоны все равно проходит.
  • Красный сигнал — все должно само останавливаться с обязательным разбором, почему так случилось, в том числе, почему дело дошло до красной зоны, и проблема не была выявлена раньше.

уровни оповещений:

  • Исполнитель — первый, кого будет бить бот, если задача горит.
  • Команда / общий чат. Если исполнитель не реагирует, подключается команда или чат, в котором собраны люди по релизам или по перформансу.
  • Лид. Если исполнитель или команда не реагируют, сообщение получит лид.
  • Руководитель. Если и лид не среагировал, сообщение прилетит уже к руководителю. Плюс, обычно мы отправляем руководителю ставим сводку. Он не видит обычных оповещений, но получает результат, как идут дела.