Метод эмпирической скоринговой функции и его использование в кредитном процессе  
 
 

<< Список статей

Гараган Сергей Александрович,
начальник отдела ООО «КроСистем»,
доктор технических наук

Аннотация. В статье проведен анализ наиболее широко используемых методов кредитного скоринга, указаны основные источники погрешностей этих методов, показаны иные их недостатки и предложен альтернативный метод эмпирической скоринговой функции, свободный от этих недостатков. Его использование может, по мнению автора, обеспечить повышение эффективности кредитного процесса.

Одним из направлений оценки потенциального заемщика (физического либо юридического лица) перед принятием решения о предоставлении ему кредита наряду с проверкой благонадежности и оценкой финансового положения является скоринговая оценка.

Термин «скоринг» происходит от английского слова score, имеющего такие значения, как оценка, счѐт очков в игре, сумма долга, основание, причина. Это понятие трактуется в широком и узком смысле.

Под скорингом в широком смысле понимают методы получения оценки заемщика, чаще всего количественной. Различают кредитный (либо анкетный) скоринг (англоязычный эквивалент - application scoring), т. е. получение показателя кредитоспособности потенциального заемщика на основе некоторых его характеристик, прежде всего содержащихся в анкете заемщика; поведенческий скоринг (behaviour scoring) — динамическая оценка ожидаемого поведения клиента по погашению кредита, основанная на данных об истории трансакций по его счетам и используемая, в частности, для предупреждения возникновения задолженности. Кроме того, выделяют коллекторский скоринг (скоринг взыскания, collection scoring), предназначенный для выбора приоритетных «плохих» заемщиков, имеющих задолженность, и направлений работы по взысканию их долга, а также скоринг мошенничества (fraud scoring), направленный на выявление возможных мошенников среди лиц, претендующих на получение кредита. Последний вид скоринга в отечественной практике часто именуется проверкой благонадежности потенциального заемщика.

В узком смысле скорингом называют метод разграничения различных групп потенциальных клиентов в условиях, когда доступна информация не о параметрах, разделяющих эти группы, а только о некоторых характеризующих их переменных /1/. К таким переменным (признакам) могут относиться анкетные данные, информация из кредитной истории и другие имеющиеся в банке сведения о ранее кредитовавшихся заемщиках, а также результат кредитования, например, погашение кредита, дефолт, наличие просрочки с длительностью более заданной. В зависимости от результата кредиты разделяются на «хорошие» и «плохие» с учетом задачи, решаемой методом скоринга. К «плохим» могут относиться, например, кредиты, по которым произошел дефолт либо имеется задолженность, просрочка которой превышает заданное значение. Скоринговые методы наиболее актуальны при массовом кредитовании. Они были разработаны применительно к заемщикам - физическим лицам, однако все более широко используются и в сфере кредитования юридических лиц, в первую очередь малых и средних предприятий. Последнее весьма актуально для российских условий, где официальная отчетность предприятий малого бизнеса не всегда в полной мере отражает их действительное состояние, и тем более в кризисной и посткризисной ситуации, когда эффективность бизнеса снизилась и происходит ее постепенное восстановление.

В настоящей статье, если не оговорено иное, кредитный скоринг рассматривается в узком смысле. Скоринговые методы базируются на предположении о том, что поведение новых заемщиков будет аналогично поведению ранее кредитовавшихся клиентов, имеющих аналогичные признаки.

1. Краткий обзор методов скоринга

Впервые вышеописанный подход к классификации кредитов был предложен Д. Дюраном в 1941 г. /2/. Он выделил из обычно имеющихся у банка данных о заемщике факторы, позволяющие оценить степень кредитного риска, а также предложил методику оценки, состоящую в присвоении баллов за определенные значения этих факторов, суммировании баллов и сравнении полученной суммы с пороговым значением.

Предлагалось использовать следующие факторы и правила их учета.
- возраст - 0,1 балла за каждый год свыше 20 лет (максимум - 0,30);
- пол - женский (0,40), мужской (0);
- срок проживания - 0,042 за каждый год в данной местности (максимально - 0,42);
- профессия - 0,55 - за профессию с низким риском, 0 - за профессию с высоким риском, 0,16 - другие профессии;
- работа - 0,21 - предприятия в общественной отрасли, 0 – другие;
- занятость - 0,059 - за каждый год работы на данном предприятии;
- финансовые показатели - наличие банковского счета - 0,45, наличие недвижимости - 0,35, наличие полиса по страхованию - 0,19.

Если набранная сумма баллов не превышает 1,25, то заемщик считается неплатежеспособным, в противном случае - кредитоспособным.

В дальнейшем для решения задачи кредитного скоринга было предложено большое количество различных способов. Специалисты отмечают, что обилие совершенно разных методов для решения одной и той же задачи объясняется чисто прагматическим подходом: использовать то, что работает, а не пытаться объяснить причину дефолтов или зависимость от макроэкономических показателей /1/. К этому можно добавить, что указанное разнообразие применяемых методов говорит о том, что ни один из них не имеет решающего преимущества перед альтернативными.

Постановку задачи скоринга можно сформулировать следующим образом.

Кредитная заявка описывается N-мерным вектором признаков (факторов) Х, компонентами которого являются определенным образом формализованные и, возможно, преобразованные данные, содержащиеся в анкете заемщика, иные сведения о нем, имеющиеся в банке (например, полученные из кредитной истории), а также параметры запрашиваемого кредита.

Отметим, что при описании методов скоринга в качестве объекта, который характеризуется вектором Х, часто рассматривается заемщик. По нашему мнению, более корректно этим объектом считать кредитную заявку, поскольку нельзя исключать возможности того, что одно и то же лицо подало несколько заявок, например, на различные кредитные продукты. Кроме того, в число признаков могут включаться параметры кредита, в частности, сумма, срок погашения, процентная ставка либо полученные с их использованием показатели, не являющиеся характеристиками заемщика.

Признаки заявки могут быть как дискретными (пол заемщика, уровень образования и т. п.), так и непрерывными (возраст заемщика, стаж работы, доходы, расходы, сумма кредита и др.). Формализация признаков состоит в том, что дискретные величины кодируются по правилам, принятым в скоринговой системе. Непрерывные величины во многих случаях преобразуются в дискретные путем задания ряда диапазонов (например, возраст 18-25 лет и т. д.), после чего также производится их кодирование. На основе некоторых исходных признаков могут вычисляться комплексные показатели, например, по заданным доходам, расходам заемщика, сумме кредита, его сроку и ставке может рассчитываться ежемесячная доля платежей по кредиту от свободных средств клиента, 4 используемая как компонента вектора Х.

Задача скоринга является задачей классификации и состоит в том, чтобы по заданному вектору Х определить, относится ли данная заявка к классу «хороших» АG либо «плохих» АB . Целевых классов может быть не два, а больше, например, классы заявок с приемлемым, умеренным и неприемлемым риском, но для простоты изложения ограничимся двумя, поскольку количество классов не имеет принципиального значения.

Известные методы скоринга делятся на следующие группы:
– параметрические;
– непараметрические;
– комбинированные, в том числе полупараметрические.

Параметрические методы предполагают выбор класса, к которому относится рассматриваемая заявка, исходя из значения некоторого параметра (скоринговой функции) р = f (Х). В этом качестве может использоваться, например, доля имеющих вектор признаков Х «хороших» кредитов из числа ранее выданных. Если значение р (Х) превышает величину р0, называемую баллом (уровнем) отсечения, заявка считается «хорошей», в противном случае – «плохой».

В случае, когда все компоненты вектора Х являются дискретными, полный набор возможных значений этих компонент задает разбиение N-мерного пространства признаков заявки (скорингового гиперкуба) на кластеры, каждому из которых соответствует единственное значение функции р. При этом каждый возможный набор значений компонент вектора Х задает один из таких кластеров или одну из точек в N-мерном пространстве.

Таким образом, основным содержанием задачи в описанной постановке является построение скоринговой функции по данным о ранее выданных кредитах. Рассмотрим некоторые наиболее распространенные способы ее решения.

Чаще всего для этого используют линейную или логистическую регрессии /3/.

При использовании линейной регрессии скоринговая функция аппроксимируется линейной функцией относительно компонентов вектора Х, т. е.

где а0 – свободный член;
аi при i = 1,…, N – весовые коэффициенты признаков заявки;
хi – признаки заявки, т. е. компоненты вектора Х.

Коэффициенты аi определяются одним из методов статистического оценивания, например, методом максимального правдоподобия.

Если в качестве скоринговой функции р используется доля «хороших» либо «плохих» кредитов, то она должна находиться в пределах от 0 до 1, однако значение правой части соотношения (1) может выходить за эти пределы. Данный факт указывает на слабую адекватность рассматриваемой модели. Чтобы обойти эту трудность, в качестве скоринговой функции используют логарифм так называемого шанса «плохого» исхода кредитования

где q – вероятность «плохого» исхода кредитования.

Данный подход называют логистической регрессией. Функция р (рис. 1) в данном случае изменяется в пределах от - ∞ до + ∞.

Рис. 1. Скоринговая функция при использовании логистической регрессии.

В качестве оценок значений q(Х) используют частоты «плохого» исхода кредитования при каждой реализации вектора Х (признаков заявки), по которой в банке имеются данные о выданных кредитах. На основе этих данных оцениваются коэффициенты аi, с помощью которых вычисляют аппроксимированное значение скоринговой функции по формуле (1) для любой допустимой реализации вектора Х, т. е. получаемое значение функции зависит от компонент этого вектора линейно.

Для аппроксимации скоринговой функции может применяться аппарат нейронных сетей. Нейронная сеть является математической моделью, параметры которой для конкретной задачи формируются путем обучения модели на специальной (обучающей) выборке данных. Применительно к скорингу такой выборкой может быть совокупность данных о ранее выданных кредитах либо часть этой совокупности. В результате формируется кусочно-линейная аппроксимация функции р(Х), заданная алгоритмически, которая может быть рассчитана с помощью нейронной сети для любой допустимой реализации вектора Х.

К недостаткам данного метода относят затруднительность использования параметров обученной нейронной сети, которая воспринимается как «черный ящик», для понимания и объяснения влияния признаков заявки на скоринговую функцию и в конечном счете на решение о предоставлении кредита. Этот фактор имеет важное значение для американской кредитной практики, где «кредиторы должны предоставить претендентам, чья заявка была отклонена, либо точные причины отказа в кредите, либо право получить эту информацию. Кредиторы заинтересованы в том, чтобы причины отказа были понятны клиентам и не затрагивали их чувств. Согласно нормативным требованиям, причины для отказа должны быть точными, информативными и носить воспитательный характер» /3/. Российскими нормативными документами такие требования пока не предъявляются.

К параметрическим относятся также методы, основанные на байесовском подходе, дискриминантный анализ, математическое, чаще всего линейное, программирование, генетические алгоритмы, метод опорных векторов (SVM — support vector machines), логико-вероятностный подход и др.

Непараметрические методы не предусматривают в явном виде построение скоринговой функции р(Х). Этими методами устанавливается, к какому классу относятся те или иные реализации вектора Х.

При использовании метода деревьев решений (называемых также деревьями решающих правил, деревьями классификации и регрессии) для классификации кредитных заявок применяется набор правил, формируемый при построении дерева на основе обучающей выборки. Пример дерева показан на рис. 2. Дерево включает взаимосвязанные начальный (корневой), промежуточные и конечные узлы (конечные узлы называются листами дерева). Связи между узлами именуются ветвями. Каждому из узлов соответствует условие (правило) классификации объектов. В начальном и промежуточных узлах в соответствии с этим условием происходит ветвление дерева, а в листах определяется класс объектов, признаки которых соответствуют условиям, определяющим путь, приводящий к данному листу.

Рис. 2. Пример дерева решений для решения задачи кредитного скоринга.

В случае построения полного дерева оно точно описывает классификацию множества реализаций вектора Х, по которым было построено дерево, на подмножества кредитов, результаты которых считаются «хорошими» и «плохими». Однако в большинстве случаев строят усеченное дерево, действуя по аналогии с иными задачами классификации, где такой подход может быть оправдан различными факторами, например, наличием шумов в исходных данных. Результатом усечения в скоринговом приложении обычно является снижение точности классификации. Кроме того, за счет усечения в дерево могут включаться те реализации вектора Х, для которых нет данных о результатах кредитования. Это такие наборы признаков, заявки с которыми либо не поступали в банк, либо не были удовлетворены. На эти реализации деревом решений распространяются результаты, полученные для кредитов с частично совпадающими признаками, соответствующими неотсеченным узлам дерева.

Отметим также метод ближайших соседей (или К-ближайших соседей). Для поступившей реализации вектора Х отыскивается К «ближайших соседей», т. е. реализаций, признаки которых в наименьшей степени отличаются от признаков вновь поступившей заявки. Определяется класс, к которому принадлежит большинство из отобранных «соседей», и этот класс присваивается новой заявке.

Главной проблемой применения данного метода является выбор способа определения «расстояния» между реализациями (метрики в факторном пространстве). Для этого необходимо задать числовую меру различий между значениями каждого признака и между различными признаками заемщика (половой принадлежностью, возрастом, уровнем образования и т. д.). Очевидно, что объективного решения эта проблема не имеет и, следовательно, результаты применения указанного метода будут находиться под сильным субъективным влиянием разработчика.

Кроме того, использование данного метода требует больших объемов вычислений, необходимых для расчета «расстояний» между реализациями.
Комбинированные методы являются сочетаниями двух или более методов решения задачи скоринга. Если в такое сочетание включены как параметрические, так и непараметрические методы, полученную комбинацию относят к полупараметрическим методам.

2. Сравнение точности различных методов

Главным показателем качества методов решения скоринговой задачи является их точность. В работе /4/ дана сводная таблица результатов сравнения точности некоторых методов (табл. 1). В публикации отмечается, что представленные данные показывают только уровень ошибок, к ним следует относиться с осторожностью, поскольку исследователями использовались разные уровни отсечения, различные способы оценки значимости ошибок, не производилось взвешивание по стоимости ошибок классификации «хороших» и «плохих» кредитов, в связи с чем сравнение данных имеет смысл производить только в рамках каждого исследования (по строкам таблицы, но не между строками), ведь даже небольшое повышение точности классификации дает значительные приросты прибыли кредиторов, и это стимулирует продолжение работ по созданию более точных алгоритмов. Однако проф. Д. Хэнд в статье с характерным названием «Технология классификации и иллюзия прогресса» /5/ отмечает, что сравнения характеристик, подобные представленным в табл. 1, могут демонстрировать более значительные различия предиктивных возможностей методов, чем реализуемые на практике, на что имеется целый ряд причин.

В целом же приведенные данные говорят об отсутствии явно выраженных преимуществ в точности рассмотренных методов скоринга.

Представляет интерес исследование /16/, проведенное в интересах Управления контролера денежного обращения США (Office of the Comptroller of the Currency) – органа, осуществляющего функции регулятора банковской деятельности. В данной работе использовались данные о примерно 1 миллионе кредитных отчетов, закупленных управлением у крупнейших американских кредитных бюро. На основе этой выборки были разработаны 3 скоринговые модели с использованием параметрического метода (логистической регрессии), непараметрического (дерева решений) и полупараметрического (комбинации указанных методов). Анализ полученных результатов показал, что разница между методами есть, но она мала (small), а «параметрические и полупараметрические модели, кажется, работают немного лучше, чем метод дерева решений».

При этом следует отметить, что использованные в указанной работе данные не содержали характеристик заемщиков, а включали только параметры кредитных историй (истории платежей, продолжительности кредитных историй, характеристики используемых банковских продуктов и т. п.). Как и насколько эта специфика влияет на применимость полученных результатов в практике банковского скоринга, оценить трудно.

Применительно к российской действительности необходимо иметь в виду различия в характеристиках отечественных заемщиков и клиентов западных банков, по данным о которых были получены вышеописанные результаты. Например, сотрудница одного из российских банков пишет, что «накопив определенный практический опыт, мы уже знаем, что в задачах, связанных с кредитными картами, лучше работают нейронные сети, а при оценке запросов на кредитование покупки автомобиля – регрессия» /17/. Представляется, это надо понимать в том смысле, что в конкретном банке на конкретной выборке лучше работает конкретная реализация того или иного метода, а не как общее правило.

Таким образом, можно заключить, что до настоящего времени не получено сведений о значительных преимуществах какого-либо из традиционных методов скоринга в точности получаемых результатов, т. е. уровни погрешностей при использовании этих методов являются сопоставимыми.

3. Основные источники погрешностей в скоринговых оценках

Принципиально неустранимым источником погрешностей является базовое предположение скоринга об аналогичности поведения новых заемщиков поведению ранее кредитовавшихся клиентов, имеющих аналогичные признаки. Какой бы большой ни была положительная статистика результатов кредитования заемщиков с определенным набором признаков, это не является гарантией того, что обязательства по кредиту, выданному очередному заемщику с такими же признаками, будут им выполнены полностью и своевременно. При анализе результатов кредитования целесообразно выделять такие случаи. Если их число возрастает, это является сигналом о том, что применяемая скоринговая модель теряет актуальность и нуждается в обновлении либо замене.

Вторым источником являются методические погрешности используемых моделей. Для параметрических методов это погрешности аппроксимации скоринговой функции, причем они могут быть весьма значительны.

Для иллюстрации рассмотрим пример линейной регрессии, построенной по 4 точкам (рис. 3).

Рис. 3. Пример линейной регрессии.

Как видно из рисунка, при классификации результатов с использованием регрессии точка 1 должна быть отнесена к классу «плохих», т. к. соответствующее ей значение регрессии лежит ниже уровня отсечения, а точки 2, 3, 4 – к классу «хороших». Однако если оценивать эти точки исходя из фактических значений скоринговой функции, то к «хорошим» относятся точки 1 и 4, а к «плохим» - точки 2 и 3. Таким образом, аппроксимация скоринговой функции в условиях данного примера приводит к ошибочным выводам в 75% случаев.

Методическая погрешность метода деревьев решений обусловлена включением в классы, получаемые с помощью усеченного дерева, объектов, фактически относящихся к другим классам.

Третий источник погрешностей – это выдача скоринговыми моделями результатов классификации для тех наборов признаков заемщика, по которым в обучающей выборке нет исходных данных.

Данная ситуация возникает в случаях, когда обучающая выборка содержит данные не по всем возможным вариантам реализации вектора Х, т. е не по всем возможным наборам признаков заемщика. Отсутствие указанных данных говорит о том, что лица с такими наборами признаков просто не обращались в банк с кредитными заявками либо получили отказ в кредитовании, либо число кредитов было недостаточно для получения надежной классификации их результатов. Однако традиционные скоринговые методы обычно не имеют механизмов учета подобных случаев и формируют прогнозы по подобным заявкам так же, как и по остальным.

Иными словами, на практике принимается неявное предположение о возможности оценки будущего поведения заемщиков по данным о результатах кредитования клиентов с иными признаками. Именно на такие ситуации прямо ориентирован метод К-ближайших соседей, хотя, во-первых, «ближайшие» соседи могут отстоять достаточно далеко от оцениваемой точки в факторном пространстве, и, во-вторых, даже не слишком большое «расстояние» между ними, на наш взгляд, не дает оснований для механического распространения на оцениваемую точку результатов, имеющихся для иных точек.

Другие традиционные методы скоринга функционируют по существу аналогично, т. е. не различают наборы признаков заявки по тому, имеются ли для данного набора эмпирические результаты или нет. В итоге для вышеописанных точек формируются оценки, не имеющие под собой достаточных оснований.

В то же время специалисты отмечают, что «скоринговые модели не могут быть лучше сведений, на основе которых они создавались. Скоринговая модель не будет «знать» ничего нового про взаимосвязь исходных данных о выдаче кредита и его будущей эффективности, кроме информации, содержащейся в массиве данных, по которым она строилась» /3/.

4. Метод эмпирической скоринговой функции

Первый из вышеперечисленных источников погрешностей – базовое предположение скоринга об аналогичности поведения новых заемщиков поведению ранее кредитовавшихся клиентов, имеющих аналогичные признаки, как отмечалось ранее, является принципиально неустранимым.

Вторым источником являются методические погрешности используемых моделей.

Одним из необходимых условий практической применимости моделей является соответствие потребных для их реализации вычислительных и информационных ресурсов характеристикам средств автоматизации, которыми располагают банки. В начале развития скоринговых методов возможности автоматизированного хранения и обработки информации накладывали ограничения на сложность необходимых вычислений и объемы подлежащих хранению данных. Так, расчет значения линейной либо логистической регрессии может быть произведен на простейших вычислительных средствах, а при необходимости и вручную. По мере развития вычислительной техники и ее внедрения в деятельность банков сложность моделей и объемы используемой информации росли. Например, построить нейронную сеть вручную уже вряд ли удастся.

Как представляется, при современном уровне развития средств автоматизации хранения и обработки данных созрели условия для того, чтобы сделать последний шаг – перейти к непосредственному использованию в качестве скоринговой модели полного набора эмпирических значений скоринговой функции, полученных по результатам кредитования в конкретном банке, отказавшись от каких-либо аппроксимаций и сверток для ее описания. Тем самым исключается возможность появления методических погрешностей, свойственных таким описаниям.

В качестве скоринговой функции р(Х) естественно использовать долю «хороших» (либо «плохих») кредитов, выданных по заявкам, признаки которых описываются какой-либо реализацией вектора Х. Пронумеровав все возможные значения каждой из его компонент по отдельности, можно записать любую из возможных реализаций вектора в виде N-разрядного числа x1 x2 … хN (кода кластера в N-мерном пространстве, соответствующего данной реализации вектора Х). При этом предполагается, что количество возможных значений каждой из компонент не превышает 10, в противном случае разрядность числа увеличится, что не влияет на ход дальнейших рассуждений.

При этом скоринговая функция становится функцией скалярного аргумента, которая может быть задана аналогом скоринговой карты - двумерной таблицей оценки кредитного риска (факторной таблицей), состоящей не менее чем из двух столбцов, например, следующего вида, где J – количество кластеров, по которым имеются результаты кредитования; mj - количество реализаций вектора Х, относящихся к j- му кластеру (j = 1,…, J).

Столбцы, содержащие порядковый номер кластера и количество реализаций вектора Х, не являются обязательными и введены для удобства использования таблицы. Кроме того, для каждого из кредитов, по данным о которых построена таблица, целесообразно сохранить номер кластера, к которому относится этот кредит.

Легко убедиться в том, что хранение такой таблицы не представит каких-либо затруднений для банка, оснащенного современными средствами обработки данных. Количество строк таблицы, т. е. кластеров с номерами, определяющими признаки заявок, по которым были выданы кредиты, очевидно, не может превышать количество кредитов, по данным о которых строится таблица. А по каждому из кредитов в банке хранится достаточно большой объем информации, дополнение которого четырьмя-пятью числами не приведет к значительному росту суммарного объема данных. Тем более что фактическое количество кластеров, по которым придется хранить информацию, по предварительным оценкам, будет меньше числа кредитов как минимум на порядок.

Применение такой модели состоит в определении по признакам рассматриваемой заявки кода кластера, к которому она относится, извлечении из таблицы соответствующего значения скоринговой функции, сравнении его с баллом отсечения и формировании вывода по заявке (например: рекомендуется выдать кредит, отказать в выдаче, провести дополнительный анализ данных о клиенте).

Если же искомый кластер в факторной таблице отсутствует, это означает, что результатов кредитования клиентов, имеющих соответствующие признаки, банк не имеет либо количество таких результатов недостаточно для получения надежной оценки. В этом случае выборка скоринговой функции не производится, а выдается сообщение о том, что данные для получения такой оценки отсутствуют либо их недостаточно. Тем самым исключается третий из вышеперечисленных источников погрешностей - выдача результатов классификации для тех наборов признаков заявки, по которым в обучающей выборке нет исходных данных.

Казалось бы, такой подход снижает ценность предлагаемого метода, поскольку не позволяет получать результаты для любого допустимого варианта исходных данных. Однако, по мнению автора, лучше не иметь результата вообще, чем получить недостаточно обоснованный вывод. Известный ученый адмирал С. О. Макаров приводит основной принцип записи штурманских измерений: «Пишем, что наблюдаем, а чего не наблюдаем, того не пишем» /18/. Как представляется, этот принцип вполне применим, в частности, и в банковской сфере.

Действительно, на практике скоринг, как отмечалось выше, не является единственным способом оценки заемщика. Наряду со скорингом обычно проводятся проверка благонадежности и оценка финансового положения клиента. Вот для этих мероприятий сообщение о невозможности получить скоринговую оценку является ценным источником дополнительной информации.

Рассмотрим возможные ситуации, в которых могут отсутствовать сведения о результатах кредитования по заявкам, имеющим определенный набор признаков.

1. Заявки с такими признаками ранее в банк не поступали. Иначе говоря, с данной реализацией набора признаков заемщика и кредита, который он запрашивает, банк сталкивается впервые. Очевидно, что из этого должна вытекать необходимость принятия мер по особенно тщательной проверке как благонадежности заемщика, так и его финансового положения, в том числе контроль отсутствия ошибок в сведениях о клиенте. Кроме того, значительный поток подобных заявок указывает на изменение потенциальной клиентской базы, что заслуживает специального анализа и, возможно, уточнения кредитной политики банка.

2. По поступавшим ранее аналогичным заявкам банк принял решения об отказе в выдаче кредита на основании выводов о недостаточной благонадежности и/или о несоответствии финансового положения заемщика предъявляемым требованиям. Это также является индикатором необходимости полной и внимательной проверки, особенно тех факторов, которые стали причиной предыдущих отказов. При существенном возрастании числа подобных заявок полезно рассмотреть возможность и целесообразность внесения изменений в условия кредитования.

3. Возможен случай, когда кредиты по аналогичным заявкам уже были выданы, но информации о том, оказались они «хорошими» или «плохими», пока нет. Тогда проверки заемщика могут проводиться обычным порядком.

4. Наконец, может быть и так, что количество имеющихся результатов кредитования недостаточно для получения надежной оценки. При этом целесообразно представить сотрудникам, осуществляющим проверку благонадежности и оценку финансового положения, информацию об этих результатах для учета в своей работе.

Описанный подход будем называть методом эмпирической скоринговой функции. Как было показано выше, он свободен от основных источников погрешностей, свойственных традиционным методам скоринга. Этот метод можно считать отчасти подобным методу ближайших соседей, отличие от которого состоит в том, что соседями считаются только те реализации, признаки которых полностью совпадают с признаками рассматриваемой заявки. Такое отличие, во-первых, как было показано выше, исключает погрешности, которые в принципе могут быть исключены, и, во-вторых, обеспечивает минимизацию потребных вычислений.

В то же время метод эмпирической скоринговой функции следует рассматривать не изолированно, а как один из элементов системы мер по комплексной оценке потенциального заемщика. Включение в единую систему всех мероприятий по оценке заемщика – скоринга, проверки благонадежности и оценки финансового положения обеспечивается организационным и информационным взаимодействием между ними. Некоторые вопросы оптимальной организации процесса рассмотрения кредитных заявок анализировались с участием автора ранее /19/, однако при этом необходимость такого взаимодействия в полной мере не учитывалась.

Основой информационного взаимодействия должны быть факторные таблицы, формируемые и дополняемые при проведении каждого из видов оценки заемщика. Для скоринга примером такой таблицы служит табл. 2. Для других видов оценки каждая строка таблицы должна соответствовать кластеру в факторном пространстве скоринговой модели, но вместо значения скоринговой функции р(Х) в ней должно содержаться отношение количества заявок, по которым данным видом оценки сформировано положительное заключение, к общему количеству рассмотренных заявок, относящихся к данному кластеру. Возможно и объединение всех описанных данных в общую факторную таблицу.

Наряду с использованием указанных таблиц в процессе оценки заемщиков они могут быть весьма полезным инструментом динамического анализа клиентской базы банка. Так, с их помощью легко определить кластеры (и соответственно признаки заемщиков), в которых происходит наибольшее и наименьшее число обращений клиентов, кластеры с самыми высокими приростами и снижениями количества обращений, оценить доходность кредитных операций по кластерам и т. д. Полученные данные целесообразно использовать для уточнения параметров кредитных продуктов и принятия других решений по управлению кредитной деятельностью.

Наряду с вышеописанным возможны и иные способы применения эмпирической скоринговой функции.

1. Комбинация метода эмпирической скоринговой функции с иными скоринговыми моделями. Для точек, по которым имеются достаточно надежные эмпирические данные, используются эти данные. Для остальных точек формируются скоринговые оценки с помощью альтернативного метода. Такие оценки будут основываться на предположении о возможности прогноза поведения заемщиков по поведению клиентов с иными признаками.

2. Оценка надежности и обоснованности результатов применения традиционной скоринговой модели путем выдачи вместе с результатом традиционного скоринга сообщения об информативности рассматриваемой точки (количестве ранее выданных кредитов с такими же признаками), в т. ч. об отсутствии для нее исходных данных.

3. Валидация традиционной скоринговой модели. Для каждой информативной точки сравниваются значения эмпирической скоринговой функции и оценки по иной скоринговой модели, после чего рассчитываются доли количества точек, в которых использование традиционного скоринга ведет к ошибкам первого и второго рода. Ошибка первого рода – это отнесение «плохой» заявки в класс «хороших», а ошибка второго рода - отнесение «хорошей» заявки в класс «плохих». Необходимо учитывать неравнозначность последствий этих ошибок. В случае отказа в выдаче кредита по «хорошей» заявке (ошибка второго рода) банк упускает выгоду в виде платежей, которые он мог бы получить за этот кредит. Если же кредит выдан по «плохой» заявке (ошибка первого рода) и поведение заемщика соответствует этой оценке, то банк может потерять не только платежи клиента, но и сумму кредита полностью либо частично.

Скоринговые модели, реализующие большинство традиционных методов, чаще всего разрабатываются специализирующимися на этом компаниями. Стоимость такой разработки либо обновления модели для одного кредитного продукта может составлять от десятков /3/ до сотен /20/ тысяч долларов, а продолжительность – от 3 до 12 месяцев /3/. Такие затраты, которые банк вынужден нести регулярно, не способствуют снижению издержек кредитного процесса, необходимость которого стала одним из уроков кризиса.

Период между обновлениями модели обычно находится в пределах от полугода до 2 лет, причем в течение этого времени скоринговые карты остаются неизменными вне зависимости от того, какие изменения происходят на кредитном рынке. Отсюда вытекает низкая адаптивность указанных методов.

Метод эмпирической скоринговой функции позволяет включать в модель данные о результатах кредитования автоматически с любой желаемой периодичностью вплоть до реального масштаба времени, т. е. немедленно по их получении. Вычислительные затраты при этом чрезвычайно низки. Тем самым обеспечивается максимально возможная в условиях кредитного процесса адаптивность скоринга к рыночной ситуации. В современных условиях, характеризующихся значительными и быстрыми изменениями этой ситуации, данное свойство предлагаемого метода является весьма актуальным.

По мере устаревания данных может быть обеспечено автоматическое снижение их влияния на получаемые оценки путем задания функций затухания.

Важным свойством моделей является их объективность, т. е. однозначное соответствие реальным данным о результатах кредитования. Однако специалисты отмечают, что «действительно элегантные и точные скоринговые системы — это результат воспроизводи «математического искусства», а не следования готовым рецептам» /3/. В этой ситуации перед банком при выборе разработчика скоринговой системы возникает проблема оценки его «искусства», причем его предыдущие достижения не могут гарантировать, что и в очередной разработке будут достигнуты столь же высокие результаты.

Предлагаемый автором метод основан на предельно простых и прозрачных алгоритмах, не требующих каких-либо произвольных допущений и «подбора» параметров, что, по-видимому, и является основным содержанием «искусства» разработчика.

Тем самым обеспечивается и более высокая открытость данного метода по сравнению с альтернативными. Любая полученная с его помощью оценка легко объясняется следующим образом: по результатам погашения такого-то количества кредитов, признаки которых совпадают с рассматриваемым, доля «хороших» кредитов составила такую-то величину, которая превышает/не превышает балл отсечения. Исходя из этого, формируется рекомендация о выдаче кредита либо об отказе. Как представляется, такое объяснение является наиболее прозрачным и объективным.

Таким образом, предложенный метод свободен от недостатков, характерных для применяемых ныне скоринговых моделей и может, по мнению автора, обеспечить повышение эффективности кредитного процесса.

 

ЛИТЕРАТУРА

1. Модели кредитного и поведенческого скоринга. http://masters.donntu.edu.ua/2006/kita/shepeleva/library/metod%20scoring.pdf
2. Durand D. Risk elements in consumer installment financing. NY: National Bureau of Economic Research, 1941.
3. Руководство по кредитному скорингу / под ред. Элизабет Мэйз;— Минск: Гревцов Паблишер, 2008.
4. J. N. Crook, D. B. Edelman, L. C. Thomas. Recent developments in consumer
credit risk assessment. European Journal of Operational Research 183 (2007) 1447–1465.
5. Hand, D.J. Classifier technology and the illusion of progress. Statistical Science, 2006, 21, 1–14.
6. Srinivisan, V., Kim, Y.H., 1987. Credit granting a comparative analysis of classificatory procedures. Journal of Finance 42, 655–683.
7. Boyle, M., Crook, J.N., Hamilton, R., Thomas, L.C., 1992. Methods for credit scoring applied to slow payers. In: Thomas, L.C., Crook, J.N., Edelman, D.E. (Eds.), Credit Scoring and Credit Control. Oxford University Press, Oxford.
8. Henley, W.E., 1995. Statistical Aspects of Credit Scoring. Ph.D. thesis, Open University.
9. Desai, V.S., Conway, D.G., Crook, J.N., Overstreet, G.A., 1997. Credit scoring models in the credit union environment using neural networks and genetic algorithms. IMA Journal of Mathematics Applied in Business and Industry 8, 323–346.
10. Yobas, M.B., Crook, J.N., Ross, P., 2000. Credit scoring using neural and evolutionary techniques. IMA Journal of Mathematics Applied in Business and Industry 11, 111–125.
11. West, D., 2000. Neural network credit scoring models. Computers and Operational Research 27, 1131–1152.
12. Lee, T.S., Chiu, C.C., Lu, C.J., Chen, I.F., 2002. Credit scoring using the hybrid neural discriminant technique. Expert Systems with Applications 23, 245–254.
13. Malhotra, R., Malhotra, D.K., 2003. Evaluating consumer loans using neural networks. Omega 31, 83–96.
14. Baesens, B., 2003. Developing Intelligent Systems for Credit Scoring Using Machine Learning Techniques, Doctoral Thesis no 180 Faculteit Economische en Toegepaste Economische Wetebnschappen, Katholieke Universiteit, Leuven.
15. Ong, C.S., Huang, J.J., Tzeng, G.H., 2005. Building credit scoring systems using genetic programming. Expert Systems with Applications 29, 41–47.
16. D. Glennon, N. M. Kiefer, C. E. Larson, Hwan-sik Choi. Development and Validation of Credit-Scoring Models. CAE Working Paper #07-12, 2007.
17. Н. Катилова. Практика кредитного скоринга. PC Week/RE («Компьютерная неделя»), (554) 44`2006.
18. С.О. Макаров. "Витязь" и Тихий океан. СПб, Тип. Имп. Акад. наук, 1894.
19. С.А. Гараган, О.А. Павлов. Оптимальная организация процесса рассмотрения кредитных заявок. Банковское кредитование, №6(22)/2008.
20. О. Дяченко. Рост невозвратов требует доработки скоринга. "Банковское обозрение", №5, 2006.

<< Список статей