Обзор исследования NCSOFT и Корейского университета (IEEE Transactions on Games, 2020)
Одна из самых устойчивых иллюзий в игровой аналитике — что хороший прогноз оттока должен быть точным. Но что, если точность — не цель, а ловушка? Именно об этом — новаторская работа исследователей NCSOFT и Корейского университета, опубликованная в марте 2020 года в авторитетном журнале IEEE Transactions on Games.
Авторы предлагают сместить фокус с метрик классификации на ожидаемую прибыль: не «кто уйдёт», а «кого выгодно удержать». И на данных легендарной MMORPG Aion, работающей с 2008 года, они не просто доказывают свою гипотезу — они показывают, как стандартные подходы могут вести к прямым убыткам.
Почему «отток всех» — путь в никуда
В отличие от телекома или банков, в онлайн-играх нет формального ухода. В Aion лишь 0,8% пользователей, не заходивших в игру больше года, удалили аккаунт. Остальные просто «замирают» — и около половины возвращаются уже после месячного перерыва.
Поэтому авторы определяют отток как отсутствие активности более 13 недель — компромисс между надёжностью (75% таких игроков действительно не вернутся) и возможностью вмешаться вовремя.
Но даже с правильным определением оттока возникает следующая проблема: не все игроки одинаково ценны.
В Aion:
- Долгосрочные лояльные клиенты составляют всего 2,4% от общей аудитории;
- Их CLV (Customer Lifetime Value) в 300 раз выше, чем у остальных;
- Среди всех ушедших — они всего 0,37%, но общая прибыль от их удержания выше, чем от всех остальных ушедших вместе.
Это значит: если ваша модель пытается «поймать» всех уходящих, она будет тратить бюджет на пользователей с нулевой или отрицательной ценностью — например, ботов или «фермеров золота». А в лучшем случае — на тех, кого всё равно нельзя удержать.
Как отфильтровать настоящих «золотых» клиентов
Авторы разработали двухэтапную систему отбора:
-
Кластеризация по поведению и платежам
На основе 9 игровых активностей (время в игре, PVE/PVP, сбор ресурсов, траты и др.) пользователи были разбиты на 9 кластеров. Три из них (с высоким временем, но нулевыми платежами и признаками ботов) были распознаны как токсичные — GFG (группы фермеров золота) и боты. Они даже вносят негативный вклад в экосистему игры. -
Градации лояльности и анализ последовательностей
Все кластеры были перегруппированы в 6 градаций лояльности (от самых платящих до вредоносных). Затем отслеживалась 30-недельная последовательность перехода пользователя по этим градациям. Только те, кто:
- никогда не опускался ниже 4-й градации,
- основное время проводил в топ-3 градациях,
- играл не менее 10 недель из 13 анализируемых,
— попадали в целевую группу: долгосрочные лояльные клиенты.
Что на самом деле предвещает уход?
Эксплораторный анализ выявил яркие паттерны, подтверждённые данными:
- Снижение активности начинается за 10 недель до ухода — и это не резкий обрыв, а постепенное «остывание».
- Игровое время становится нерегулярным: игрок заходит спорадически, а не по устоявшемуся графику.
- Социальные связи слабеют:
- У остающихся — плотные «кликa» в пати (коэффициент кластеризации близок к 1);
- У уходящих — случайные партнёры, не связанные между собой (коэффициент кластеризации стремится к 0).
- Легионы (гильдии):
- Уходящие реже вступают в легионы;
- Их легионы менее активны;
- Они чаще меняют легион, что указывает на отсутствие чувства принадлежности.
Эти признаки легли в основу фичей модели — не «сколько платит», а «как играет».
Максимизация прибыли вместо максимизации accuracy
Авторы предложили формулу ожидаемой прибыли:
$$
[
\text{Profit}(t) = \text{CLV} \cdot \gamma \cdot \text{TP}(t) - C \cdot (\text{TP}(t) + \text{FP}(t))
]
$$
где:
- CLV — индивидуальная ценность клиента (по его реальным платежам за 13 недель),
- γ — доля пользователей, которых реально удалось удержать,
- C — затраты на одного пользователя в кампании,
- TP/FP — доля верно/неверно предсказанных оттоков как функция порога t.
Важнейший вывод: оптимальный порог почти всегда ниже 0.5. Лучше «перестраховаться» и включить в кампанию чуть больше пользователей, потому что цена упущенного лояльного клиента слишком высока.
Такой подход даёт дополнительный прирост прибыли на 10–30% по сравнению с моделью, оптимизированной под точность.
Что происходит, если прогнозировать отток для всех?
В экспериментах авторов:
- Модель, обученная на всех пользователях, почти не находила лояльных ушедших — их доля слишком мала (0,3% от всех), и алгоритмы считали их выбросами.
- Большинство «спасаемых» — пользователи с CLV ≈ 0.
- При реалистичных затратах на кампанию (C > 0) такая модель приносила убыток.
Модель, обученная только на лояльных клиентах, даже при более низкой точности генерировала значительную прибыль — потому что каждое верное предсказание «весит» в сотни раз больше.
Ограничения и что делать дальше
Авторы честно признают: бинарная классификация (остаётся/уходит) — не идеальный инструмент. Многие «ложно положительные» пользователи всё равно снижали активность в ближайшие недели. Более гибкий подход — анализ выживаемости (survival analysis), где модель предсказывает время до оттока, а не факт.
Также предложена идея динамической стоимости удержания: коэффициент удержания γ зависит от размера бонуса. Эту зависимость можно моделировать логистической функцией и оптимизировать не только кого удерживать, но и сколько на это тратить.
Почему это важно для геймдева
Это исследование — редкий пример, когда научная строгость встречается с операционной практичностью. Оно даёт четкий ответ на вопрос, который часто обходят: «Зачем нам вообще прогнозировать отток?»
Ответ: не для того, чтобы похвастаться AUC = 0.92, а чтобы не тратить деньги впустую и максимально эффективно использовать бюджет удержания.
Для зрелых игр (а особенно для MMORPG и GaaS-проектов) это особенно актуально: здесь рост уже не за счёт новых пользователей, а за счёт глубокой работы с текущей аудиторией. И как показывает Aion — всё решают 2%.
P.S. Методология из этой статьи была частично применена на соревновании по анализу игровых данных CIG 2017 — что подтверждает её реальную применимость. Возможно, пришло время пересмотреть и ваши собственные модели оттока?