Сервисы для a/b тестирования

Содержание

Как определить, сколько времени займет А/Б тест

Оценивать А/Б тесты можно с помощью калькулятора Эвана Миллера. Чтобы понять, сколько времени займет А/Б тест и стоит ли его проводить, вам понадобится информация о:

  • трафике на сайте, 
  • текущей конверсии,
  • предполагаемом приросте конверсии.

С помощью калькулятора Эвана Миллера вы сможете рассчитать количество показов, необходимое для получения статистически значимого результата. Если соотнести количество показов с примерным трафиком на сайте, можно определить, сколько времени займет А/Б тест и стоит ли его проводить. 

Если А/Б тест потребует слишком много времени, лучше его не запускать: ваше предложение может измениться, а время и силы будут потрачены впустую. Поменять цвет кнопки, ждать 6 месяцев и получить разницу в конверсии в 0,5% — очень сомнительное удовольствие и не позволит проекту кратно расти.

Бывают А/Б тесты, которые проводят от нескольких месяцев до полугода, и они тоже могут окупиться, если компания продает товары с высоким ценником. Например, покупка одного автомобиля или загородного дома часто окупает полугодовые или годовые затраты на автоматизацию маркетинга.

Андрей Анкин
менеджер-аналитик проектов полного погружения Carrot quest

Предположим, что трафик на сайте — 50 тысяч пользователей в месяц. Вы тестируете два варианта поп-апа со сбором емейлов. 

  • предполагаемая конверсия поп-апа — 2%;
  • ожидаемый прирост конверсии — 20%; 
  • То есть конверсия поп-апа в одном из вариантов может увеличиться до 2,4%. 

Вносим данные в калькулятор. Он рассчитал, что на каждый из вариантов нужно 19 784 показов:

Калькулятор рассчитывает количество показов, которое необходимо для получения статистически значимого результата

Вычитаем часть аудитории сайта, которой не хотим показывать сообщение. Например, текущие клиенты — у них мы уже знаем емейл. 

Остаётся 45 тысяч пользователей.

Нужно 19 784*2 показов.

Получается, что на этот тест понадобится месяц. 

Пример А/Б теста, на проведение которого понадобится 21 год:

Вариант А: Дарим 5000 рублей на ваш заказ!

Вариант Б: Дарим 5000 рублей на ваш заказ!

По результатам теста вы видите:

Open rate варианта А — 40%

Open rate варианта Б — 41%

Получается, что эмодзи незначительно влияют на конверсию. 

Вводим эти данные в калькулятор:

Калькулятор Эвана Миллера

Нам нужно будет отправить 37 719 писем на каждый из вариантов, чтобы понять, действительно ли эмодзи влияют на конверсию. Это 75 438 писем. 

  • При конверсии в емейл 3% и трафике в 10 тысяч человек вы сможете отправлять 300 писем в месяц. 
  • Получается, что на принятие решения по этому А/Б тесту вам понадобится 21 год.

Обработка результатов

Когда все инструменты выбраны, показатели рассчитаны, а тестирование запущено, закономерно возникает вопрос обработки полученных данных. Главное не делать поспешных выводов, воодушевившись первым успехом.
Необходимо помнить, что показатели могу меняться постоянно, причем они могут делать это неравномерно и в течение продолжительного времени. Для достижения более объективного результат следует оценивать средние значения, а для этого придется сначала накопить более продолжительную историю.

Успешность внедрение изменений определяется за счет разности между средними показателями обоих сегментов. Но одной этой разности также недостаточно. Необходима уверенность в ее достоверности, в том, что результат может быть достигнут вновь и останется неизменным.

В качестве дополнительно аналитического инструмента скрипт АБ тестирования может использовать площадь пересечения распределений. Чем это пересечение меньше, тем более значимым считается результат.
Для принятия окончательного положительного решения уровень значимости обычно должен превышать девяносто процентов, при пересечении, соответственно, ниже десяти процентов. В другом случае высока опасность сделать ошибочные выводы и получить обратную отдачу.

Необходимо обратить внимание еще и на то, что с возрастанием объема трафика в сегментах снижается разброс значений за сутки. Небольшой трафик дает обратный результат, так что требует больше времени для объективности эксперимента

Чтобы сравнить полученные величины, применяется проверка статистических гипотез или другие методики. Например, принимаются две гипотезы: нулевая и альтернативная.
Первая предполагает, что разница средних значений будет минимальна, когда вторая предполагает обратный результат. Чтобы проверить обе гипотезы используются статистические тесты, выбор которых зависит от обрабатываемого показателя.
При подсчете среднесуточных значений можно воспользоваться известным тестом Стьюдента, который хорошо подходит для оценки значимости при небольших объемах данных. Это универсальная методика, которая подходит как для общих, так и для частных измерений.

Кроме того, севрис АБ тестирования может предлагать другие утилиты, всевозможные калькуляторы и прочие программы или приложения, отличающиеся возможностями и дополнительными особенностями.

Итоги

АБ тестирование – важнейшая часть любой маркетинговой кампании. Можно выделить несколько основных рекомендаций по использованию этого инструмента.

Важно прислушиваться к результатам тестирования, даже если собственные ощущения и предпочтения утверждают обратное. В отличие от частного мнения, статистика – источник объективной информации

К тому же, при наличии сомнений всегда можно провести повторную проверку.
Желательно проводить тестирование регулярно и заранее. Не стоит пренебрегать таким полезным инструментом, как объявления в ротации Яндекс Директ тест, внедряя любые изменения, будь то незначительная модернизация сайта или глобальная смена рекламной кампании. Отсутствие своевременной и достоверной информации нередко становится причиной потери аудитории и появлению нежелательных убытков.
При разделении сегментов лучше оценивать обновления по реакции новых пользователей, ведь существующие клиенты обычно предвзяты за счет сложившихся предпочтений и привычек.
Оба сегмента обязательно должны оцениваться в одно время, чтобы избежать риска искажения результата в зависимости от сроков.
Тестирование должно занимать достаточное количество времени, ведь его преждевременное прекращение нередко приводит к ошибкам в результатах. Однако, аналогичная угроза существует и при слишком затянутой проверке. Таким образом, хотя срок может ощутимо варьироваться, он должен быть грамотно рассчитан, чтобы соответствовать конкретной задаче.
Вернувшиеся пользователи должны видеть вариант, с которым они уже сталкивались. Нежелательно показывать посетителям, видевшим один вариант сайта, принципиально другую версию, ведь это может отталкивать аудиторию. Лучше заранее обеспечить возможность показывать каждому одну и ту же страницу до конца теста.
В некоторых случаях нужно проводить тестирование на всем сайте. Например, при смене заголовка или призыва к действию, которые применяются на нескольких страницах. На каждой из них они должны тестироваться отдельно.

Залогом успеха при проведении АБ тестирования является тщательный контроль и последовательность действий. Все полученные данные должны быть максимально точными, чтобы на их основе можно были принять грамотное, взвешенное решение.

Можно ли полагаться на результаты чужих A/B экспериментов?

Чужие кейсы можно и нужно анализировать. Особенно, если это кейсы ваших конкурентов или компаний, которые работают в смежной отрасли или имеют одинаковую целевую аудиторию. Но полагаться полностью на чужие кейсы, как и на подборки идей, — это плохая практика.

Что работает на одном сайте, необязательно будет работать на другом. Каждый сайт индивидуален. Целевая аудитория разная. Взаимодействие с ней – разное. Реализация чужого успешного кейса может даже негативно повлиять на эффективность сайта. Поэтому никогда не полагайтесь на 100 % на результаты чужих тестов.

Тестируйте всё сами и только на основе этого делайте вывод об эффективности изменений.

Что такое А/Б тесты и зачем они нужны

А/Б тест — это эксперимент для оценки эффективности отправляемого сообщения. В ходе А/Б теста сравнивают эффективность разных сообщений, каналов коммуникации или элементов сайта, чтобы выяснить, какие изменения улучшают целевой показатель.

Зачем делать А/Б тесты:

1. Быстрее проверять гипотезы. 

Вас не устраивает конверсия в заявку на лендинге. Предположим, что его полная переделка займет месяц, потребует участия целой команды и не гарантирует изменений в конверсии. А если вы проведете А/Б тест отдельных элементов, то увидите изменения уже через одну-две недели, и этот процесс потребует значительно меньше ресурсов.

2. Принимать решения на основе данных.

Вносите изменения, которые подсказывают подтвержденные данные, а не интуиция. Вы можете проверять любые элементы страницы и видеть по результатам А/Б теста, какой вариант лучше остальных на основе статистики.

3. Получать полезные инсайты.

А/Б тесты помогут понять целевую аудиторию и узнать, как с ней лучше работать. Те каналы коммуникации и ценности, на которые вы рассчитывали больше всего, могут попросту не сработать. 

Например, на сайте онлайн-сервиса по созданию фотобуков Mofy.life протестировали два варианта писем: 

лаконичный, с минимальным количеством информации и без демонстрации продукта:

Вариант А

яркий, с анимацией и пошаговой инструкцией по оформлению заказа:

Вариант Б

Удивительно, но CTR обычного письма оказался выше: 13,63% против 9,92%. 

Почему нельзя отправить всем сначала одно письмо, а через неделю другое, и сравнить результат

А/Б тесты помогают исключить влияние внешних факторов вроде сезонности, рекламных кампаний и дней недели.

Например, вы провели успешную рекламную кампанию и привели на сайт заинтересованных в продукте лидов. Будет некорректно сравнивать эффективность сообщения, которое отправили этой группе, с эффективностью сообщения, которое отправили в другое время для нецелевого или совсем холодного трафика. Точный результат можно получить, если учесть и минимизировать влияние подобных внешних факторов.

Сообщения показываются в один и тот же период времени, а люди в каждую из групп (А или Б) выбираются случайным образом.

Инструменты для настройки тестов

Рассмотрим инструменты для A/Б-тестирования:

Калькулятор A/Б-тестирований

Бесплатный сервис «Калькулятор достоверности A/Б-тестирований» помогает высчитать нужный размер выборки для статистически достоверного эксперимента и подвести итоги. Введите цифры своего эксперимента — и увидите результат.

Скриншот калькулятора

Google Optimize

Google Optimize — бесплатный инструмент Google для тестирования сайтов. Настраиваете несколько вариантов сайта и запускаете тестирование. Инструмент используется в связке с Google Analytics: оттуда Optimize берет информацию по показателям, таким как доход, количество транзакций и так далее.

Как провести А/Б тест

  1. Определите метрику, на которую вы будете ориентироваться. Это может быть коэффициент конверсии, показатель кликабельности (CTR), количество регистраций. 
  2. Разработайте гипотезу о том, что именно поменяется, и каких результатов вы ожидаете.  
  3. Подготовьте эксперимент: 
    • Создайте две версии сообщения/поп-апа/письма;
    • Решите, на каких пользователях вы будете проводить эксперимент, а какие будут в контрольной группе — части аудитории, которая не увидит ни один из вариантов. Это поможет определить, что происходит с конверсией без вашего сообщения;
    • Посчитайте минимальный размер выборки с помощью калькулятора;
    • Определите продолжительность А/Б тестирования.
  4. Проведите эксперимент. 
  5. Проанализируйте результаты. 

    Проверьте статистическую значимость с помощью калькулятора, чтобы не делать ошибочных выводов. Чем она ниже, тем больше вероятность, что полученные вами результаты — случайность.

Как запустить А/Б тест в Carrot quest

Зайдите в раздел «Триггерные сообщения», нажмите на кнопку «Создать сообщение» и выберите нужный тип. Создайте первый вариант сообщения нажмите на кнопку «Добавить А/Б тест»:

Раздел «Триггерные сообщения»

Ещё один вариант: вы можете выбрать уже существующее триггерное сообщение и создать для него А/Б тест.

После этого откроется раздел, в котором вы сможете сделать второй вариант. Carrot quest сам разделит аудиторию сообщения на две равные группы и покажет каждой свой вариант. Дальше вы ждете, когда в статистике сообщения наберется достаточно данных. В зависимости от трафика, на это может потребоваться от нескольких дней до нескольких месяцев.

В разделе «Условия отправки» вы можете включить контрольную группу. По умолчанию она составляет 10% — это значит, что 10% посетителей сайта не увидят ни варианта А, ни варианта B. Вы можете задать своё значение. Но помните, чем меньше процент контрольной группы, тем дольше вы будете ждать, пока соберется статистика.

Раздел «Условия отправки»

Чтобы узнать, какой вариант сработал лучше, кликните на иконку «Статистика» и перейдите в раздел «А/B тест»:

Иконка «Статистика»

Вы можете посмотреть:

Данные выводятся рядом, чтобы вы могли сравнить цифры, а также в виде графиков:

Статистика по А/Б тесту

Вы можете посмотреть, сколько денег принёс вам каждый из вариантов. Для этого при настройке автосообщения задайте цель (следующий шаг после Вид и Содержание). Это событие, которое должен выполнить пользователь после прочтения автосообщения (например, купить). В статистике вы сможете увидеть конверсию достижения цели и полученный доход.

Как только вы набрали достаточно статистических данных и выбрали сообщение-победителя, завершите А/Б-тест. Для этого нажмите кнопку «Завершить тест» и выберите вариант сообщения, который хотите отключить:

Как завершить А/Б тест

Как только вы снова решите сравнить сообщение А с каким-либо другим, создайте новый А/Б тест на основе этого же сообщения. У одного сообщения может быть неограниченное количество А/Б-тестов. Историю всех закрытых А/Б-тестов можно посмотреть в архиве.

Посмотрите нашу видеоинструкцию о том, как запустить A/Б тест в Carrot quest:

Перед тестированием

1. Выберите одну переменную для проверки.

При оптимизации посадочных страниц или объявлений вы можете обнаружить, что есть несколько переменных, которые вы хотите протестировать. Но чтобы оценить, насколько эффективны те или иные изменения, нужно работать с одной «переменную» и измерить ее эффективность. При тестировании сразу двух элементов, например заголовка и изображения, вы не сможете достоверно определить, какой из них привел к изменению эффективности.

2. Определите цель.

Несмотря на то что нужно отслеживать ряд метрик для каждого теста, выберите основной показатель, на котором нужно сосредоточиться. Сделать это нужно до запуска теста. Фактически лучше определить главную метрику до настройки второго варианта. Можно описать гипотезу, указать, что, по вашему мнению, должно произойти после изменения посадочной страницы или объявления и после теста проанализировать результаты с точки зрения этой гипотезы.

Этот подход поможет настроить тест должным образом и получить репрезентативные результаты.

3. Определите контрольный вариант и претендента.

В тесте всегда есть несколько элементов:

  • независимая переменная, она же контрольный вариант;
  • зависимая переменная, или претендент.

В качестве первой, как правило, выступает рабочий вариант. Например, если вам интересно, повлияет ли добавление отзывов на целевой странице, то контрольным вариантом будет лендинг без отзывов. А претендентом будет вариант с отзывами.

5. Определите размер выборки (если применимо).

Как вы определите размер выборки, также будет зависеть от инструмента. Если вы тестируете электронные письма, имеет смысл отправить варианты на небольшую часть базы, чтобы после определения победителя отправить его на остальную часть подписчиков.

Если вы тестируете то, что не имеет конечной аудитории, например элементы на страницах сайта, то на размер выборки будет влиять длительность теста. Нужно будет позволить тесту поработать столько времени, сколько понадобиться, чтобы получить достаточно просмотров. В противном случае будет трудно достоверно определить, было ли статистически значимое различие между вариантами.

6. Определите, насколько достоверными должны быть результаты.

Когда вы выбрали целевую метрику, подумайте, насколько достоверными должны быть результаты, чтобы подтвердить победу одного варианта над другим

Статистическая значимость является важной частью сплит-тестирования

Чем выше процент статистической достоверности, тем увереннее вы можете быть в результатах. В большинстве случаев будет достаточно 95-98%.

7. Запускайте одновременно один тест.

Проведение сразу нескольких тестов будет искажать результаты. Если специалист тестирует автоматическую стратегию в рекламной кампании и CTA на посадочной странице, то ему будет сложно определить, что именно привело к увеличению конверсий.

Эффект в цифрах и без них

Прежде чем всем пользователям Lamoda станет доступен новый функционал, мы проводим A/B-тестирование. С этим менеджерам продукта помогает отдел дата-сайентистов и аналитиков. Они проверяют, влияет ли функционал на ключевые метрики, одна из которых — деньги.

Через тестирование проходит от 80 до 90% новых фич и продуктов платформы. Мы не тестируем те улучшения, результат внедрения которых нельзя измерить. Например, мы добавили на главную страницу приложения возможность переключаться сразу между несколькими разделами: подборка, каталог, избранное, профиль и корзина. Так как этот блок насквозь проходит все разделы платформы, ограничить аудиторию, которой он доступен, невозможно. 

Новые бизнесы не всегда можно A/B-тестировать. В новейших проектах без аналогов слишком много неизвестных, неясны метрики. Непонятно, например, как именно статьи из блога влияют на решение о покупке конкретного товара и в какой временной перспективе. Но мы понимаем, что заход на страницу с текстом и его прочтение приносят эффект. 

Классическая схема A/B-тестирования 

  1. Запуск эксперимента на определенный срок и процент пользователей, которые в нем участвуют. Клиенты получают дополнительную функциональность сервиса. 
  2. Сбор идентификаторов пользователей и данных об их поведении на сайте, покупках. 
  3. Итоги. Оценка целевых продуктовых и бизнес-метрик. 

Откуда брать идеи для A/B тестирования?

Идеи для A/B тестов нужно брать из веб-аналитики, анализа поведения юзеров, общения с ними

Это идеальный вариант.

Для генерации хороших идей придётся воспользоваться дополнительными сервисами типа Google Analytics, Яндекс.Метрика, сервисами опросов и т.п.

Типичный пример генерации идей для A/B тестирования:

У вас на сайте есть форма регистрации. Заходим в Яндекс.Метрику и использует «Аналитику форм». В ходе анализа вы понимаете, что при заполнении поля «Компания», большинство людей стопорится. 50 % из них закрывают сайт. 50 % тратят на заполнение в два раза больше времени, чем на остальные поля формы.

Какой из этого можно сделать вывод?

Этот вопрос ставит в ступор ваших потенциальных клиентов. Если эта информация не является ключевой, то в тестовом варианте можно убрать это поле и посмотреть, как изменится количество регистраций.

Это простой пример гипотезы для A/B тестирования, основанный на анализе сайта.

Но я советую вам не полагаться полностью на такие списки идей. Они могут направить ваши мысли в нужное русло, но просто взять оттуда идею и реализовать на своём сайте – это не самый лучший вариант.

Анализируйте свой сайт, анализируйте поведение пользователей на нём, общайтесь со своими потенциальными и текущими клиентами. И вы точно будете знать, что не так на сайте и что на нём можно изменить.

Этапы проведения эксперимента

Выделим этапы проведения A/Б-тестирования и подробно остановимся на каждом:

  1. Определение точки роста и выбор метрик.
  2. Составление гипотезы.
  3. Определение размера тестовой выборки.
  4. Проверка сбора данных по метрике.
  5. Запуск теста и снятие результатов.

Определение точки роста и выбор метрики

Для определения точки роста важно понять, что хочется улучшить и с помощью какой метрики измеряется улучшение

Например, вы обратили внимание, что транзакционное письмо об оформлении заказа редко открывают. Или хочется разобраться, приносит ли деньги виджет товарных рекомендаций в карточке товара

Варианты метрик для измерения улучшения:

  • Доход
  • Количество заказов
  • Средний чек
  • Процент открытия писем
  • Повторные покупки
  • Количество линий чека в заказе

Составление гипотезы

Определив точку роста, выберем, что улучшать. Без гипотезы тест бесполезен. В идеале гипотеза содержит ожидаемое увеличение. Тестировать можно дополнительные блоки, обращения, цвета, размеры текста, формы и дизайны. Ниже примеры гипотез наших клиентов.

Гипотеза Варианты Метрика
Эмодзи в теме письма увеличивают открытия на 2% С эмодзи и без эмодзи Открываемость
Блок сопутствующих товаров в карточке товара увеличит средний чек на ~10% С блоком сопутствующих товаров в карточке и без Выручка
Попап на сайте с бесплатной доставкой увеличит конверсию в заказ на 4% С попапом и без попапа Количество заказов и выручка

Определение размера тестовой выборки

Для каждого тестирования нужен определенный размер выборки, чтобы получить статистически значимый результат. Статистическая значимость — это оцененная мера уверенности в том, что полученный результат не случайность

Это важно, потому что без статистической значимости случайное совпадение можно ошибочно принять за успех варианта. Результат — неверное бизнес-решение

Например, доля открытых писем в рассылках составляет 20%. Если хотите увеличить показатель на 25% с помощью изменения, понадобится выборка минимум из 2000 человек. Необходимый размер выборки рассчитывается с помощью калькулятора A/Б-тестов. Подробнее — в блоке «Инструменты для тестов».

Проверка сбора данных по метрике

Перед запуском теста убедитесь, что нужная метрика собирается. Например, настроена цель в Google Analytics, или запущен эксперимент в Google Optimize, или собирается информация о выручке в сводном отчете по рассылкам Mindbox.

Если предполагаете, что возникла погрешность и результаты связаны не с тестируемыми вариантами, а с особенностями выборки, попробуйте А/А-тестирование.

А/А-тест как способ проверить правильность деления на группы

А/А-тест — это разновидность эксперимента, когда варианты одинаковы. Если, несмотря на идентичность, показатели вариантов отличаются, значит где-то ошибка.

Например, ошибка может быть в распределении участников эксперимента. В одной группе участники покупают товары чаще, чем в другой. Ошибка может быть в сборе данных: на каком-то этапе передачи информация теряется. Есть сомнения — используйте А/А-тестирование.

Снятие результатов

По окончанию тестирования снимите результаты и посчитайте статистическую значимость теста. Вариант, который статистически значим и отличается в лучшую сторону (например, заработал больше денег), считается победителем. Чтобы рассчитать результат, воспользуйтесь калькулятором A/Б-тестирований, о нем ниже.

Пример из Google Optimize: завершенное тестирование на сайте со статистически значимым результатом: выручка варианта-победителя оказалась на 50% больше

Примеры А/Б тестов

Здесь мы собрали примеры А/Б тестов, которые проводила команда внедрения Carrot quest для наших клиентов. 

Как думаете, соблазнились ли клиенты скидкой?

Конверсия первого поп-апа — 1,75%, конверсия второго меньше в 10 раз — 0,18%.

2. На сайте Театр-Театра протестировали два варианта поп-апа. 

В варианте А оффер показывает ценность, а в варианте Б — сразу подталкивает к действию:

Лидогенерация в мобильном приложении театра

Конверсия в емейл у первого поп-апа составила 1,16%, а у второго — 4%. Поп-ап с призывом к действию работает лучше, потому что пользователи сразу понимают, чего от них хотят, и легче оставляют емейл.

3. Поп-апы, которые собирают номера телефонов на сайте крупного интернет-провайдера

Как думаете, какой вариант собрал больше телефонов?

Поп-ап со счастливым семейством лучше привлекает внимание. Его конверсия в телефон составила 3,1% против 2,18% у небольшого поп-апа

4. Поп-апы на сайте клиники:

В какой из поп-апов на сайте клиники вы верите больше?

Конверсия в телефон у первого поп-апа — 0,44% против 0,25% у варианта Б. Чаще всего люди не читают мелкий текст, поэтому призыв к действию должен быть заметен.

Примеры

Рекламная рассылка

Компания с клиентской базой данных из 2000 человек решает создать кампанию по электронной почте с кодом скидки, чтобы увеличить продажи через свой веб-сайт. Он создает две версии электронного письма с разным призывом к действию (та часть текста, которая побуждает клиентов что-то сделать — в случае кампании продаж — совершить покупку) и идентифицирующим промокодом.

  • 1000 человек отправляет электронное письмо с призывом к действию: «Предложение заканчивается в эту субботу! Используйте код A1»,
  • и еще 1000 человек он отправляет электронное письмо с призывом к действию, в котором говорится: «Предложение скоро заканчивается! Используйте код B1».

Все остальные элементы копии и макета писем идентичны. Затем компания отслеживает, какая кампания имеет более высокий уровень успеха, анализируя использование промокодов. Электронная почта с использованием коды A1 имеет 5% скорость реакции (50 из 1000 людей отправляет письма использовали код , чтобы купить продукт), а также адрес электронной почты с использованием коды B1 имеет скорость отклика 3% (30 из получателей использовали код купить товар). Поэтому компания определяет, что в этом случае первый призыв к действию более эффективен, и будет использовать его в будущих продажах. Более тонкий подход будет включать применение статистического тестирования, чтобы определить, были ли различия в уровне ответов между A1 и B1 статистически значимыми (то есть с большой вероятностью, что различия являются реальными, повторяемыми, а не случайными).

В приведенном выше примере цель теста — определить, какой способ побудить клиентов совершить покупку является более эффективным. Если, однако, цель теста заключалась в том, чтобы увидеть, какое электронное письмо вызовет более высокий рейтинг кликов,  то есть количество людей, которые фактически переходят на веб-сайт после получения электронного письма, тогда результаты могли бы быть другими.

Например, даже если на веб-сайт обратилось больше клиентов, получивших код B1, поскольку в Призыве к действию не указана дата окончания акции, многие из них могут не чувствовать необходимости совершать немедленную покупку. Следовательно, если бы целью теста было просто увидеть, какое электронное письмо принесет больше трафика на веб-сайт, то электронное письмо, содержащее код B1, могло бы быть более успешным. A / B-тест должен иметь определенный результат, который можно измерить, например, количество произведенных продаж, конверсию по рейтингу кликов или количество людей, которые подписываются / регистрируются.

A / B-тестирование цен на продукты

Для определения подходящей цены на продукт можно использовать A / B-тестирование, поскольку это, пожалуй, одна из самых сложных задач при запуске нового продукта или услуги.

A / B-тестирование (особенно актуально для цифровых товаров) — отличный способ выяснить, какая цена и какое предложение максимизируют общий доход.

Политическое A / B-тестирование

A / B-тесты используются не только для корпораций, но также являются движущей силой политических кампаний

В 2007 году президентская кампания Барака Обамы использовала A / B-тестирование как способ привлечь внимание в Интернете и понять, что избиратели хотели видеть от кандидата в президенты. Например, команда Обамы протестировала четыре отдельные кнопки на своем веб-сайте, которые побуждали пользователей подписываться на информационные бюллетени

Кроме того, команда использовала шесть различных сопроводительных изображений, чтобы привлечь внимание пользователей. С помощью A / B-тестирования сотрудники смогли определить, как эффективно привлечь избирателей и вызвать дополнительный интерес.

HTTP-маршрутизация и тестирование функций API

HTTP-маршрутизатор с A / B-тестированием

A / B-тестирование очень распространено при развертывании более новой версии API. Для тестирования взаимодействия с пользователем в режиме реального времени обратный прокси-сервер HTTP настроен таким образом, что N % HTTP- трафика поступает в более новую версию внутреннего экземпляра, а оставшиеся 100-N % HTTP-трафика попадают в (стабильная) более старая версия серверной службы HTTP-приложений. Обычно это делается для того, чтобы ограничить доступ клиентов к новому экземпляру серверной части, так что, если есть ошибка в более новой версии, только N % от общего числа пользовательских агентов или клиентов будут затронуты, в то время как другие будут перенаправлены на стабильную серверную часть, которая это обычный механизм контроля проникновения.

С чего лучше всего начать A/B тестирование?

В первую очередь нужно тестировать те элементы, которые напрямую влияют на конверсию. Это СТА-кнопки, формы на сайте, текстовые элементы на посадочной странице, изображения, видеоролики

Каждый перечисленный элемент играет важное значение в воронке продаж

Попадая на страницу, посетитель чаще всего сталкивается с текстами (заголовки, подзаголовки, описания), изображениями, видеороликами продукта. С этого начинается знакомство с продуктом. Соответственно, изменяя эти элементы, можно влиять на его восприятие, первое впечатление.

После заполнения формы посетителю в любом случае необходимо отправить её и здесь уже происходит взаимодействие с СТА-кнопками (кнопками призыва к действию). Кликабельность кнопки может зависеть от текста, цвета, расположения, размера кнопки и т.п.

Таким образом, все эти элементы играют важную роль в процессе взаимодействия посетителя с сайтом. Поэтому начинать тестирование лучше с них. Запускать такие эксперименты относительно просто. И вероятность получения положительного/отрицательного результата гораздо выше.

Анализируйте результаты. Наконец-то самое интересное

Вам нужно получить данные и рассчитать значения выбранной ранее метрики успеха для обеих версий (A и B) и разницу между этими значениями. Если не было никакой разницы в целом, вы также можете сегментировать выборку по платформам, типам источников, географическим параметрам и т. п., если это применимо. Вы можете обнаружить, что версия B работает лучше или хуже для определенных сегментов.

Проверьте статистическую значимость. Статистическая теория, лежащая в основе этого подхода, объясняется здесь, но основная идея в том, чтобы выяснить, была ли разница в результатах между A и B связана с изменениями или это результат случайности или естественных изменений. Это определяется путем сравнения тестовых статистических данных (и полученного p-значения) с вашим уровнем значимости.

Если p-значение меньше уровня значимости, то можно отвергнуть нулевую гипотезу, имея доказательства для альтернативы.

Если p-значение больше или равно уровню значимости, мы не можем отвергнуть нулевую гипотезу о том, что A и B не отличаются друг от друга.

A/B-тестирование может дать следующие результаты:

  • Контрольная версия, А выигрывает или между версиями нет разницы. Если исключить причины, которые могут привести к недействительному тестированию, то проигрыш новой версии может быть вызван, например, плохим сообщением и брендингом конкурентного предложения или плохим клиентским опытом.В этом сценарии вы можете углубиться в данные или провести исследование пользователей, чтобы понять, почему новая версия не работает так, как ожидалось. Это, в свою очередь, поможет собрать информацию для следующих тестов.
  • Версия B выигрывает. A/B-тест подтвердил вашу гипотезу о лучшей производительности версии B по сравнению с версией A. Отлично! Опубликовав результаты, вы можете провести эксперимент на всей аудитории и получить новые результаты.

История

Как и в большинстве полей, установить дату появления нового метода сложно. Первое рандомизированное двойное слепое испытание для оценки эффективности гомеопатического препарата произошло в 1835 году. Эксперименты с рекламными кампаниями, которые сравнивали с современным A / B-тестированием, начались в начале двадцатого века. Пионер рекламы Клод Хопкинс использовал рекламные купоны для проверки эффективности своих кампаний. Однако этот процесс, который Хопкинс описал в своей « Научной рекламе» , не включал таких понятий, как статистическая значимость и нулевая гипотеза , которые используются при проверке статистических гипотез . Современные статистические методы оценки значимости выборочных данных были разработаны отдельно в тот же период. Эта работа была проделана в 1908 году Уильямом Сили Госсетом, когда он изменил Z-критерий для создания t-критерия Стьюдента .

С развитием Интернета стали доступны новые способы выборки населения. Инженеры Google провели свой первый A / B-тест в 2000 году, пытаясь определить, какое оптимальное количество результатов будет отображаться на странице результатов поисковой системы. Первый тест был неудачным из-за сбоев, вызванных медленной загрузкой. Дальнейшие исследования A / B-тестирования будут более продвинутыми, но основа и основные принципы в целом останутся прежними, и в 2011 году, через 11 лет после первого теста Google, Google провел более 7000 различных A / B-тестов.

В 2012 году сотрудник Microsoft, работавший над поисковой системой Microsoft Bing, провел эксперимент по тестированию различных способов отображения рекламных заголовков. В течение нескольких часов альтернативный формат привел к увеличению доходов на 12% без влияния на показатели пользовательского опыта. Сегодня такие компании, как Microsoft и Google, ежегодно проводят более 10 000 A / B-тестов.

Многие компании сейчас используют подход «спланированного эксперимента» для принятия маркетинговых решений, ожидая, что соответствующие результаты выборки могут улучшить положительные результаты конверсии. Это становится все более распространенной практикой, поскольку инструменты и опыт в этой области растут.