Внедрение системы кредитного скоринга в банке

В предыдущей публикации были рассмотрены общие методологические вопросы кредитного скоринга. В продолжение этой темы в настоящей статье рассматриваются вопросы практического построения алгоритмов скоринга.

При наличии в банке достаточной информационной базы по выданным кредитам можно приступать к реализации проекта по внедрению информационной технологии кредитного скоринга. Основными элементами этой технологии являются:

  • процедуры расчета скоринговых карт и других алгоритмов кредитного скоринга;
  • процедуры проверки применимости этих алгоритмов в новых складывающихся условиях;
  • фронтальные приложения, обеспечивающие оперативную поддержку принятия кредитным работником решений о выдаче кредита.

Статистические методы анализа, использумые в кредитном скоринге, опираются на вероятностные модели возможных исходов кредитной сделки. Перечислим основные условия, при которых использование вероятностного моделирования является корректным.

  • Случайный характер исхода кредитной сделки. В соответствии с этим предположением исход любой кредитной сделки есть случайное событие, наступление которого осуществляется с некоторой вероятностью.
  • Факторная зависимость вероятности исхода. Величина вероятности исхода кредитной сделки зависит от некоторых факторов: дохода заемщика, его социального статуса, прошлой кредитной истории и др. К числу значимых факторов могут относиться и макроэкономические показатели на периоде действия кредитного договора (курс рубля к другим валютам, уровень инфляции и т.п. ).
  • Неизменность силы влияния значимых факторов. Предполагается, что характер влияния каждого значимого фактора на вероятность исхода кредитных сделок постоянен на некотором временноўм интервале, охватывающем как прошлый период, так и частично будущий. Это важное условие, поскольку именно оно позволяет оценивать кредитоспособность новых апликантов на основе исходов кредитных договоров с другими лицами в прошлом.
  • Независимость исходов. Предполагается, что исходы кредитных сделок независимы друг от друга.

Пределы точности скоринговых расчетов

Как правило, состав и характер влияния существенных факторов не остается постоянным, а изменяется с течением времени. Длительность периода актуальности алгоритмов скоринга зависит от характера и масштаба изменений, происходящих в экономике. На практике этот период может варьироваться от нескольких месяцев до нескольких лет.

Для того чтобы кредитный скоринг мог продолжать выполнять свои функции, вероятностные модели исходов кредитных сделок необходимо периодически корректировать. Проблема здесь кроется в том, что, для того чтобы «ухватить» новую тенденцию статистическими методами, необходимо иметь выборку данных, которые уже реализуют эту тенденцию, и если период смены тенденций сопоставим с периодом накопления данных для статистического анализа, то скоринговая карта может стать устаревшей уже к моменту ее расчета.

Подготовка исходных данных для расчетов

Для разработки алгоритмов кредитного скоринга необходима историческая выборка данных — так называемая обучающая выборка. От качества этой выборки (на языке статистики — репрезентативности) зависит точность оценок параметров модели скоринга и соответственно эффективность (предиктивная мощность) скорингового алгоритма.

Репрезентативность выборки определяется тем, насколько полно в ней присутствуют положительные и отрицательные прецеденты. Один и тот же элемент исторической выборки может быть признан и положительным, и отрицательным для разных постановок задач. А может и вообще не подходить для включения в обучающую выборку.

Например, в случае анализа кредитоспособности апликанта (application-скоринг) положительными прецедентами можно считать случаи возврата кредита без опоздания, а отрицательными — все остальные случаи.

Если же рассматривается задача оценки возвратности хотя бы части просроченного кредита (вариант collection-скоринга), то в качестве положительных прецедентов следует рассматривать все случаи возврата просроченных кредитов в сумме не менее этой части, а отрицательных — все остальные. Случаи же погашения кредита точно в срок вообще исключить из выборки, как не относящиеся к задаче.

От постановки задачи скоринга зависит не только способ разбивки обучающей выборки на положительные и отрицательные прецеденты, но и множество значимых факторов. Действительно, когда кредит выдан — апликант становится заемщиком, а банку доступна дополнительная информация, например о точности выполнения заемщиком текущих обязательств по уплате процентов за кредит. Кроме того, некоторые из существенных характеристик заемщика просто могут измениться за кредитный период (например, доход или семейное положение).

Информация по отклоненным заявкам на кредит

Информация по несостоявшимся кредитам (апликантам, которым было отказано в выдаче кредита) не может быть использована в качестве обучающей выборки, поскольку она не содержит нужных сведений. И это создает некоторую методическую проблему.

Допустим, при принятии решения о выдаче кредита к соискателям кредита применялись очень строгие критерии. Это означает, что некоторые из несостоявшихся кредитов могли бы пополнить подвыборку положительных прецедентов в обучающей выборке, если бы кредиты на самом деле были выданы. И скоринговые расчеты были бы тогда несколько другими. Но даже если бы все из отклоненных соискателей на самом деле пополнили подвыборку только отрицательных прецедентов, то и в этом случае с ненулевой вероятностью скоринговые расчеты отличались бы от тех, что получены по фактическим данным.

Таким образом, если в скоринговых расчетах опираться только на фактические данные по выданным кредитам (т.е. по состоявшимся заемщикам), то предиктивные оценки кредитоспособности новых соискателей будут содержать некоторую систематическую ошибку.

Смещение результатов скоринга происходит из-за того, что апликант — это еще не заемщик, и, оставляя в обучающей выборке только состоявшихся заемщиков, мы изначально ее цензурируем (т.е. искажаем). На языке статистики это означает, что новые соискатели кредита принадлежат к другой генеральной совокупности, чем та, из которой была взята обучающая выборка.

Степень этой ошибки можно оценить и частично ее снизить, если подвергнуть скорингу данные по отклоненным кредитным заявкам и включить их в повторный расчет скоринговой модели, разметив предварительно данные по отклоненным кредитам на положительные и отрицательные прецеденты, как если бы они были таковыми на самом деле.

Выбор алгоритма кредитного скоринга

Наиболее популярными сегодня являются три основных метода построения скоринговых алгоритмов:

  • на основе логистической регрессии;
  • на основе дерева классификации;
  • на основе нейронной сети.

Основное различие между этими тремя методами заключается в подходах к способам сегментации прецедентов обучающей выборки.

Сама сегментация имеет цель определить значимые факторы, влияющие на вероятности возможных исходов кредитных сделок, что возможно, если между сконструированными сегментами можно выявить статистически значимое различие в соотношении положительных и отрицательных прецедентов.

В методе логистической регрессии сегментация прецедентов осуществляется на основе разбиения факторного пространства n-мерной сеткой, где n — количество значимых факторов (рис.1).

В качестве исходного предположения принимается, что каждая ячейка сетки (n-мерный прямоугольник) объединяет прецеденты из обучающей выборки, характеризующиеся одинаковой вероятностью исхода.

Координаты узлов этой сетки рассчитываются на основании статистических критериев, исходя из принципа максимальности различия между вероятностями исходов кредитных сделок для смежных сегментов прецедентов.

Соотношение положительных и отрицательных прецедентов в каждом сегменте используется для расчета скоринг-баллов в скоринговой карте, а координаты узлов сетки в факторном пространстве как раз и задают интервалы значений признаков в скоринговой карте.

Логистическая регрессия является, таким образом, адекватным математическим инструментом для расчета скоринговых карт.

Дерево классификаций (дерево решений) является более общим алгоритмом сегментации обучающей выборки прецедентов, чем логистическая регрессия.

В отличие от метода логистической регрессии в методе дерева классификации сегментация прецедентов задается не с помощью n-мерной сетки, а путем последовательного дробления факторного пространства на вложенные прямоугольные области (рис. 2).

При этом соблюдается следующая последовательность шагов (рис. 3).

РЕКЛАМНЫЙ БЛОК

[ Хотите знать больше о частной разведке? Регистрируйтесь и общайтесь на интернет-форуме it2b-forum.ru ]

На первом шаге разделение выборки прецедентов на сегменты производится по самому значимому фактору. На втором и последующих шагах в отношении каждого из полученных ранее сегментов процедура повторяется до тех пор, пока никакой вариант последующего дробления не приводит к существенному различию между соотношением положительных и отрицательных прецедентов в новых сегментах. Количество ветвлений (сегментов) на каждом шаге процедуры построения дерева решений выбирается автоматически.

Нейронная сеть позволяет обрабатывать прецеденты обучающей выборки с более сложным (чем прямоугольники) видом сегментов (рис. 4). Геометрическая форма сегментов будет существенно зависеть от внутренней структуры нейронной сети, которая может быть настроена с учетом характера взаимосвязей между учитываемыми факторами.

Хотя ни дерево решений, ни нейронная сеть не приводят к построению скоринговой карты в ее классическом табличном виде, аналог скоринг-баллов легко может быть получен и для этих методов.

В качестве скоринг-балла может выступать, например, эмпирически рассчитанная доля положительных прецедентов в сегменте. И тогда задача расчета скоринг-балла апликанта равносильна задаче отнесения апликанта к одному из построенных сегментов, что и делается в результате применения построенных скоринговых алгоритмов к новому апликанту.

Сравнение алгоритмов скоринга

Из практики предиктивного моделирования известно, что ни один из описанных методов не может быть признан «самым лучшим» во всех случаях. И только сопоставление предикции и факта может дать оценку эффективности скоринговых моделей. Для сопоставления можно взять всю или часть имеющейся эмпирической прецедентной выборки.

Само сравнение алгоритмов скоринга может осуществляться по разным критериям. Один из применяемых на практике критериев сравнения состоит в следующем.

Упорядочим выборку прецедентов по возрастанию оценок вероятности положительного исхода, которые получены на основании алгоритма скоринга.

Построим следующий график: на оси Х будем откладывать значения долей этой упорядоченной выборки (слева направо по возрастанию вероятности положительного и схода), а на оси Y — долю фактически отрицательных прецедентов в подвыборке, отвечающей координате X. Построенный график будет показывать, какой процент Y действительных отрицательных прецедентов содержится в первых X процентах упорядоченной выборки. А это означает, что чем выше линия графика поднята на осью X, тем более точно алгоритм скоринга решает поставленную задачу.

Теперь для сравнения алгоритмов скоринга по предиктивной мощности достаточно сравнить соответствующие им построенные графики. Если график какого-либо метода «возвышается» над графиками остальных методов, то этот алгоритм и является самым информативным.

Но может оказаться и так, что абсолютного преобладания ни у одного алгоритма нет. Рассмотрим пример такого расположения графиков на рис. 5. Алгоритм 1 уступает по предиктивной мощности алгоритмам 2 и 3 для малых значений X, но превосходит их на больших. В свою очередь алгоритм 2 более эффективен для средних значений X, а алгоритм 3 — для малых.

Это может означать, что для реализации более консервативной кредитной политики более адекватным для задачи кредитного скоринга является алгоритм 3, а для реализации политики широкого, но более рискованного кредитования — алгоритм 1.

Сценарные расчеты

Вопрос о том, какой политики банк должен придерживаться, требует дополнительного экономического анализа. Определенную помощь при проведении такого анализа могут оказать сценарные расчеты.

Рассмотрим пример такого сценарного расчета. Предположим, что рассматривается единственный кредитный продукт (кредит с одинаковыми условиями для всех заемщиков). В качестве сценария будем рассматривать выдачу кредита апликантам, скоринг-балл которых не ниже некоторого значения (так называемого балла отсечения).

Для разных баллов отсечения состав кредитного портфеля банка будет различаться. Чем больше балл отсечения, тем меньше количество выданных кредитов, но тем более вероятен положительный исход кредитной сделки по каждому выданному кредиту. Это означает, что более высокий балл отсечения соответствует более консервативной кредитной политике, и наоборот. Понятно, что чем ниже балл отсечения, тем больше в кредитном портфеле будет находиться кредитов с более низкой вероятностью возврата.

Введем понятие средней доходности по кредитному портфелю, под которой будем понимать разницу между ожидаемыми процентными доходами и ожидаемыми расходами по портфелю, отнесенную на количество выданных кредитов. Расходы по портфелю состоят из сумм невозвратов, то есть прямых потерь банка по дефолтам. К расходам также следует отнести постоянные издержки по обслуживанию кредитного портфеля (зарплату персонала, арендную плату за офисные площади, накладные расходы и т.п. ).

Понятно, что ожидаемые суммы доходов и расходов напрямую связаны с количеством выданных кредитов, вероятностями положительного и отрицательного исходов кредитных сделок, которые зависят от кредитоспособности заемщиков, а следовательно, и от их скоринг-баллов.

Если построить график средней доходности по кредитному портфелю в зависимости от балла отсечения, то теоретически он будет иметь максимум в некоторой точке (рис. 6). Эта точка и определяет оптимальный балл отсечения, который может быть выбран банком для реализации своей стратегии кредитования.

Построение фронтального приложения

Рассмотренные выше вопросы разработки и выбора алгоритма кредитного скоринга решаются в рамках банковской бэк-офисной аналитической системы и относятся к области деятельности кредитного аналитика.

После того как алгоритм кредитного скоринга разработан, он должен быть встроен во фронтальную систему. Такая фронтальная система может использоваться для поддержки принятия решений кредитным офицером, когда он рассматривает заявки апликантов на получение кредита, или для самодиагностики апликантов c помощью web-сервиса, представленного на сайте банка в Интернете.

Во фронтальной системе решается достаточно простая задача — по информационным признакам апликанта определить его скоринг-балл и сравнить его с баллом отсечения.

Поскольку современные информационные технологии разработки скоринговых алгоритмов, как правило, предусматривают генерацию программного кода полученного скорингового алгоритма, практическая реализация создания фронтального приложения труда не представляет.

Организация мониторинга адекватности скорингового алгоритма

С течением времени предиктивная мощность скорингового алгоритма в силу объективных причин снижается. Наступает время для повторного расчета скоринговых алгоритмов и замены во фронтальных приложениях прежней процедуры скоринга новой. Выбор момента перерасчета скоринговой модели является самостоятельной задачей, которая может быть решена на основе соответствующих статистических критериев. Однако если в банке на участок скоринг-аналитики выделен специалист на постоянной основе, то перерасчет скоринговых алгоритмов (по крайней мере теоретически) может осуществляться с любой периодичностью по мере пополнения базы данных новыми кредитными историями.

Автор: А.А. Строев (компания SAS, консультант)

Источник: Методический журнал «Расчеты и операционная работа в коммерческом банке» № 6 (48), 2004

Оцените статью
Технологии разведки для бизнеса