Обзор исследования NCSOFT и Корейского университета (IEEE Transactions on Games, 2020)

Одна из самых устойчивых иллюзий в игровой аналитике — что хороший прогноз оттока должен быть точным. Но что, если точность — не цель, а ловушка? Именно об этом — новаторская работа исследователей NCSOFT и Корейского университета, опубликованная в марте 2020 года в авторитетном журнале IEEE Transactions on Games.

Авторы предлагают сместить фокус с метрик классификации на ожидаемую прибыль: не «кто уйдёт», а «кого выгодно удержать». И на данных легендарной MMORPG Aion, работающей с 2008 года, они не просто доказывают свою гипотезу — они показывают, как стандартные подходы могут вести к прямым убыткам.


Почему «отток всех» — путь в никуда

В отличие от телекома или банков, в онлайн-играх нет формального ухода. В Aion лишь 0,8% пользователей, не заходивших в игру больше года, удалили аккаунт. Остальные просто «замирают» — и около половины возвращаются уже после месячного перерыва.

Поэтому авторы определяют отток как отсутствие активности более 13 недель — компромисс между надёжностью (75% таких игроков действительно не вернутся) и возможностью вмешаться вовремя.

Но даже с правильным определением оттока возникает следующая проблема: не все игроки одинаково ценны.

В Aion:
- Долгосрочные лояльные клиенты составляют всего 2,4% от общей аудитории;
- Их CLV (Customer Lifetime Value) в 300 раз выше, чем у остальных;
- Среди всех ушедших — они всего 0,37%, но общая прибыль от их удержания выше, чем от всех остальных ушедших вместе.

Это значит: если ваша модель пытается «поймать» всех уходящих, она будет тратить бюджет на пользователей с нулевой или отрицательной ценностью — например, ботов или «фермеров золота». А в лучшем случае — на тех, кого всё равно нельзя удержать.


Как отфильтровать настоящих «золотых» клиентов

Авторы разработали двухэтапную систему отбора:

  1. Кластеризация по поведению и платежам
    На основе 9 игровых активностей (время в игре, PVE/PVP, сбор ресурсов, траты и др.) пользователи были разбиты на 9 кластеров. Три из них (с высоким временем, но нулевыми платежами и признаками ботов) были распознаны как токсичные — GFG (группы фермеров золота) и боты. Они даже вносят негативный вклад в экосистему игры.

  2. Градации лояльности и анализ последовательностей
    Все кластеры были перегруппированы в 6 градаций лояльности (от самых платящих до вредоносных). Затем отслеживалась 30-недельная последовательность перехода пользователя по этим градациям. Только те, кто:
    - никогда не опускался ниже 4-й градации,
    - основное время проводил в топ-3 градациях,
    - играл не менее 10 недель из 13 анализируемых,

— попадали в целевую группу: долгосрочные лояльные клиенты.


Что на самом деле предвещает уход?

Эксплораторный анализ выявил яркие паттерны, подтверждённые данными:

  • Снижение активности начинается за 10 недель до ухода — и это не резкий обрыв, а постепенное «остывание».
  • Игровое время становится нерегулярным: игрок заходит спорадически, а не по устоявшемуся графику.
  • Социальные связи слабеют:
  • У остающихся — плотные «кликa» в пати (коэффициент кластеризации близок к 1);
  • У уходящих — случайные партнёры, не связанные между собой (коэффициент кластеризации стремится к 0).
  • Легионы (гильдии):
  • Уходящие реже вступают в легионы;
  • Их легионы менее активны;
  • Они чаще меняют легион, что указывает на отсутствие чувства принадлежности.

Эти признаки легли в основу фичей модели — не «сколько платит», а «как играет».


Максимизация прибыли вместо максимизации accuracy

Авторы предложили формулу ожидаемой прибыли:

$$
[
\text{Profit}(t) = \text{CLV} \cdot \gamma \cdot \text{TP}(t) - C \cdot (\text{TP}(t) + \text{FP}(t))
]
$$

где:
- CLV — индивидуальная ценность клиента (по его реальным платежам за 13 недель),
- γ — доля пользователей, которых реально удалось удержать,
- C — затраты на одного пользователя в кампании,
- TP/FP — доля верно/неверно предсказанных оттоков как функция порога t.

Важнейший вывод: оптимальный порог почти всегда ниже 0.5. Лучше «перестраховаться» и включить в кампанию чуть больше пользователей, потому что цена упущенного лояльного клиента слишком высока.

Такой подход даёт дополнительный прирост прибыли на 10–30% по сравнению с моделью, оптимизированной под точность.


Что происходит, если прогнозировать отток для всех?

В экспериментах авторов:
- Модель, обученная на всех пользователях, почти не находила лояльных ушедших — их доля слишком мала (0,3% от всех), и алгоритмы считали их выбросами.
- Большинство «спасаемых» — пользователи с CLV ≈ 0.
- При реалистичных затратах на кампанию (C > 0) такая модель приносила убыток.

Модель, обученная только на лояльных клиентах, даже при более низкой точности генерировала значительную прибыль — потому что каждое верное предсказание «весит» в сотни раз больше.


Ограничения и что делать дальше

Авторы честно признают: бинарная классификация (остаётся/уходит) — не идеальный инструмент. Многие «ложно положительные» пользователи всё равно снижали активность в ближайшие недели. Более гибкий подход — анализ выживаемости (survival analysis), где модель предсказывает время до оттока, а не факт.

Также предложена идея динамической стоимости удержания: коэффициент удержания γ зависит от размера бонуса. Эту зависимость можно моделировать логистической функцией и оптимизировать не только кого удерживать, но и сколько на это тратить.


Почему это важно для геймдева

Это исследование — редкий пример, когда научная строгость встречается с операционной практичностью. Оно даёт четкий ответ на вопрос, который часто обходят: «Зачем нам вообще прогнозировать отток?»

Ответ: не для того, чтобы похвастаться AUC = 0.92, а чтобы не тратить деньги впустую и максимально эффективно использовать бюджет удержания.

Для зрелых игр (а особенно для MMORPG и GaaS-проектов) это особенно актуально: здесь рост уже не за счёт новых пользователей, а за счёт глубокой работы с текущей аудиторией. И как показывает Aion — всё решают 2%.


P.S. Методология из этой статьи была частично применена на соревновании по анализу игровых данных CIG 2017 — что подтверждает её реальную применимость. Возможно, пришло время пересмотреть и ваши собственные модели оттока?