Здесь можно найти образцы любых учебных материалов, т.е. получить помощь в написании уникальных курсовых работ, дипломов, лабораторных работ, контрольных работ и рефератов. Так же вы мажете самостоятельно повысить уникальность своей работы для прохождения проверки на плагиат всего за несколько минут.

ЛИЧНЫЙ КАБИНЕТ 

 

Здравствуйте гость!

 

Логин:

Пароль:

 

Запомнить

 

 

Забыли пароль? Регистрация

Повышение уникальности

Предлагаем нашим посетителям воспользоваться бесплатным программным обеспечением «StudentHelp», которое позволит вам всего за несколько минут, выполнить повышение уникальности любого файла в формате MS Word. После такого повышения уникальности, ваша работа легко пройдете проверку в системах антиплагиат вуз, antiplagiat.ru, etxt.ru или advego.ru. Программа «StudentHelp» работает по уникальной технологии и при повышении уникальности не вставляет в текст скрытых символов, и даже если препод скопирует текст в блокнот – не увидит ни каких отличий от текста в Word файле.

Результат поиска


Наименование:


курсовая работа Статистический анализ банковской деятельности. Исследование моделей оценки кредитных рисков. Признаки устойчивости банков

Информация:

Тип работы: курсовая работа. Добавлен: 12.05.2012. Сдан: 2011. Страниц: 17. Уникальность по antiplagiat.ru: < 30%

Описание (план):


    Федеральное агентство по образованию
ГОУ ВПО  «СИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНОЛОГИЧЕСКИЙ  УНИВЕРСИТЕТ»
Факультет экономический 
 
 
 
 
 
 
 
 

Курсовая  работа
     Статистический  анализ банковской деятельности.
     Исследование  моделей оценки кредитных рисков.
     Признаки  устойчивости банков. 
 
 
 
 
 
 

                                                    
 
 
 
 
 

                                                       Руководитель:
    _____________Захарова  Л.Н.
                                                  (подпись)
                                                                               ________________________
                                                                         (дата, оценка)
                                                     Разработала:
                                                                      Студентка группы 82-5
                                                                                ______________Магола С.А.
                                                    (подпись)
                                                                               ________________________
                                                                             (дата) 
 
 
 
 

Содержание
Введение………………………………………………………………….3
1. Обзор моделей  оценки кредитного риска…………………………...6
   1.1 Подходы к оценке кредитного риска…………………………...6
   1.2 Понятие качества и прозрачности методик…………………….7
   1.3 Характеристики физического лица. Структура данных………10
2. Статистические  и экономические методы оценки  риска…………..11
   2.1 Скоринговые  методики………………………………………….11
   2.2 Кластерный  анализ………………………………………………12
   2.3 Дискриминантный  анализ……………………………………….15
   2.4 Дерево  классификаций…………………………………………..18
   2.5 Нейронные  сети…………………………………………………..19
   2.6 Технология  Data mining………………………………………….20
   2.7 Линейная  вероятностная регрессионная модель……………….20
   2.8 Логистическая  регрессия………………………………………...24
3. Признаки устойчивости  банка……………………………………….27
Заключение………………………………………………………………33
Список литературы……………………………………………………...36 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

    Введение
    Динамичное  развитие финансового рынка, появление новых инструментов и институтов способствуют возникновению явных и скрытых угроз стабильности. Предупреждение кризисов непосредственно связано с выявлением рисков и управлением ими. Примером по внедрению в международную практику методов оценки рисков является Базельское соглашение о норме собственного капитала, в котором достаточность капитала определяется при помощи коэффициентов, учитывающих кредитный, рыночный и операционный риски. За последнее десятилетие Базельский комитет банковского надзора опубликовал семь нормативов по управлению процентными, кредитными, операционными и связанными с производными финансовыми инструментами и электронным банкингом рисками. Сегодня существует множество различных методов их определения и управления.
    В 1988 г. было заключено Базельское соглашение о норме собственного капитала банков (Базель-1), которое с учетом накопленного опыта было улучшено. Новый вариант соглашения (Базель-2) опубликован в июне 2004 г. В него входят почти методы предупреждения кризисов, которые составляют три основания (части) соглашения. Как отмечено выше, установлены требования к достаточности капитала банков с учетом возможного покрытия рисков, методики оценки рисков и управления ими. Таким образом, установлены стандарты и нормы банковской практики, позволяющие учитывать риски, избегать их и предотвращать.
    Данное  соглашение направлено на усиление надзора  за достаточностью капитала, предполагающего  эффективный контроль за адекватностью  оценки принимаемых рисков и функционированием внутренних методик банка. Базель-2 делает акцент на необходимости укрепления рыночной дисциплины, требуя раскрытия банком полной информации о составе капитала и принятых рисках. Предлагаемый Базельским соглашением–2 механизм предупреждения банковских кризисов наиболее логичен и целостен. В различных документах по банковскому надзору рекомендуется использование стресс-тестирования и раннего предупреждения.
    Невозможно  гарантировать полное предупреждение всех кризисов, так как это форма  проявления противоречий процесса развития и следствие множества факторов, часто находящихся вне финансовых рынков. Поэтому механизмы предупреждения кризисов должны служить не только для информирования, надзора и применения надлежащей практики по укреплению стабильности и предупреждению кризисов, но и рассмотрению различных вариантов развития кризисных ситуаций. Делается это для оценки возможного ущерба и определения путей его уменьшения или предотвращения. Именно такие методы, основанные на стресс-тестировании и сценарном планировании, используются МВФ в рамках Программы оценки финансовой стабильности стран-членов и рекомендуются Базельским комитетом банковского надзора национальным надзорным органам для оценки устойчивости банков и банковской системы в целом.
    Актуальна задача построения стабильной и эффективной банковской системы, которую можно решить путем повышения уровня капитализации и внутреннего контроля банков.
    По  мере роста объемов кредитования растут риски, принимаемые на себя банковской системой. Для повышения эффективности банковского надзора и деятельности самих банков назрела необходимость в более точной оценке этих рисков. В международной практике для оценки достаточности капитала банковской системы используются нормативы, разрабатываемые Базельским комитетом по банковскому надзору, получившие название соглашений по капиталу. Эти соглашения, с одной стороны, дают ориентиры национальным надзорным органам по контролю за банковской системой страны, а с другой - представляют собой международные «правила игры», отказ от которых снижает доверие к банкам. 
    Группа  центральных банков 10 стран, являющихся членами Базельского комитета по банковскому надзору, после пяти лет обсуждений официально одобрила новое Базельское соглашение (Базель II). Новые правила, вступающие в силу в конце 2006 года, предусматривают более справедливую оценку банковских рисков и пересмотр стандартов достаточности банковского капитала и резервов для надежных и крупных банков. Новое Соглашение призвано содействовать развитию системы регулирования капитала банков и повышению чувствительности минимально допустимого размера капитала к оценке рисков. Глобальное регулирование капитала банков необходимо для надежной и здоровой международной банковской системы стран-участниц, применяющих данные соглашения.
    Соглашение  будет внедряться в странах-членах Банка международных расчетов, начиная с конца 2006 года и ориентировочно до 2008-2009 годов. Оно состоит из трех компонентов:
    Требования к минимальному размеру капитала с учетом реального риска экономических потерь каждого банка.
    Надзор за достаточностью капитала. Необходимость осуществления эффективного надзорного процесса за внутренними системами оценки рисков, принимаемых банками. Этот процесс направлен на подтверждение того факта, что руководством банка выносятся адекватные суждения об уровне рисков и, соответственно, величина капитала, создаваемого банками для их покрытия, достаточна.
    Публичное раскрытие информации - перечень информации, подлежащей публичному раскрытию, что позволяет более точно оценить адекватность капитализации банка.
    Соглашение  «Базель II» направлено на увязывание требований к капиталу с кредитоспособностью заемщиков. Оно предлагает три подхода к оценке кредитного риска. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

    Обзор моделей оценки кредитного риска
    Подходы к оценке кредитного риска
     Стандартный подход разработан для банков, осуществляющих менее сложные формы ссудных операций и кредитного андерайтинга, а также имеющих более простые структуры внутреннего контроля. Такие банки могут использовать внешние источники оценки кредитного риска для определения кредитного качества заемщиков в целях поддержания капитала на уровне, требуемом надзорными органами. Например, использовать рейтинги, присвоенные такими агентствами, как Moody's Investors Services u Standard & Poor's.
     Базовый подход на основе внутренних рейтингов. Банки сами производят расчет вероятности дефолта для своих заемщиков, а затем используют цифры, предоставляемые органами банковского надзора по убыткам в случае дефолта, риску потенциальных убытков в случае дефолта и сроку погашения для расчета требований по капиталу.
     Усовершенствованный подход на основе внутренних рейтингов. Банки используют свои собственные оценки по всем четырем переменным. Банкам необходимо собрать данные за несколько прошедших лет о состоянии своих заемщиков и показать надзорным органам надежность и стабильность своих рейтинговых оценок. Это требует крупных инвестиций по времени и финансам. Только относительно небольшое число крупных банков будет использовать усовершенствованный подход на основе внутреннего рейтинга.
     Базель  II нацеливает банки на совершенствование и использование более сложных и точных систем оценки рисков, а также на осуществление более эффективных процессов контроля за принимаемыми рисками. Эти побудительные мотивы реализуются в форме пониженных требований к капиталу.
     В целом новый механизм оценки рисков призван уменьшить сроки организации процесса кредитования, привести к снижению издержек и значительному удешевлению кредитов и инвестиций, более эффективно использовать ценные бумаги для привлечения ликвидности с внешних рынков капитала. В то же время он не лишен недостатков. 
 
 
 
 
 
 
 
 
 
 
 


Понятие качества и прозрачности методик
    Проблема  количественной оценки и анализа  кредитных рисков и рейтингов заемщиков и создания резервов на случай дефолта является актуальной как для западных, так и российских банков, занимающихся кредитованием физических и юридических лиц. В общем случае кредитный риск при предоставлении кредитов коммерческими банками физическим и юридическим лицам характеризуется следующими количественными параметрами: риск как вероятность неуспеха (невозврата) кредита;  допустимый риск; средний риск; возможные потери от дефолта кредита;  среднее значение потерь; максимально допустимые потери; число  кредитов в банке; возможное число разных кредитов; число опасных кредитов;   энтропия опасных кредитов.                                                                                                                                                                                                                                                                                                                                                                                                            
          Под кредитным риском понимают риск возникновения у кредитной организации убытков вследствие неисполнения, несвоевременного либо неполного исполнения должником финансовых обязательств перед кредитной организацией в соответствии с условиями договора. В балансе банка кредитный риск присутствует в составе активов по большинству позиций: ссуды, остатки на корреспондентских счетах, краткосрочные кредиты коммерческим банкам, ценные бумаги, приобретенные для перепродажи или инвестирования. Кредитный риск также возникает в связи с широким спектром банковской деятельности, включая выбор инвестиционных портфелей, контрагентов по сделкам с производными инструментами и иностранной валютой. Кредитный риск может появляться в связи с риском проведения операций в данной стране, а также при выполнении функций гаранта. Кредитный риск оказывает прямое воздействие на состояние банковского капитала. В результате высокий кредитный риск снижает рыночную стоимость акций банка и сужает возможности кредитной организации воспользоваться облигационными займами с целью привлечения средств.
          К методикам для  количественной оценки кредитных рисков предъявляется особое требование по прозрачности, включающей количественные оценки точности и робастности.
          Прозрачность  методики кредитного риска - это возможность видеть не только явление в целом, но и его детали. Прозрачность стала важнейшей характеристикой методик оценки кредитных рисков в силу необходимости наиболее полной идентификации как кредитного риска, так и самой модели кредитного риска. Под прозрачностью методики будем понимать строгость используемых математических методов, сглаживание субъективности экспертных оценок, наглядность результатов оценки и анализа риска, полное их понимание самими работниками банков, открытость методик для контролирующих органов и заемщиков. Прозрачность методики и результатов достигается вычислением вкладов инициирующих событий (критериев) в кредитный риск.
          Для анализа, прогнозирования  и управления кредитным риском каждому банку необходимо уметь количественно определять названные характеристики, анализировать риск и выполнять постоянный мониторинг компонент характеристик кредитного риска.
          От точности распознавания  зависит решение о выдаче или  отказе в кредите, цена (процент) за риск и уровень резервирования на случай дефолта кредита. Точность оценивается количеством относительных ошибок в распознавании «плохих» и «хороших» кредитов требование, чтобы «плохие» кредиты распознавались лучше. Отношение неправильно (клиентов) и их средним количеством. Обычно выдвигается распознанных «хороших» и «плохих» кредитов выбирают от 2 до 10. Аналогично формулируется задача точности, если кредиты классифицируются не на два, а несколько классов. Сравнение разных методик на одних и тех же данных показало, что разные методики оценки риска отличаются по точности почти в два раза.
          Робастность характеризует стабильность методик оценки кредитных рисков. Разные методики риска или одна методика при разных алгоритмах обучения по статистическим данным неодинаково классифицируют кредиты на «хорошие» и «плохие». Один и тот же кредит по одной методике может быть признан «плохим», а по другой методике «хорошим». Такая нестабильность в классификации достигает 20% от общего числа кредитов. Сравнение разных методик на одних и тех же данных показало, что разные методики риска могут отличаться по робастности в семь раз.
          Кредитование юридических  и физических лиц является одним  из основных видов деятельности коммерческих и государственных крупных, средних и мелких банков. Каждый банк индивидуален, так как работает по различным технологиям, обслуживает различные сегменты рынка банковских услуг, ориентируется на различные стратегические задачи. Индивидуальности банков способствует также конкуренция.
          Кредитный бизнес связан с риском. Условия кредитной деятельности изменяются, изменяется также допустимый уровень риска. Кредитная деятельность адаптируется к условиям развивающейся экономики страны и уровню жизни ее населения.
          Большое значение для  обеспечения устойчивого функционирования банка имеют методы количественной оценки и анализа кредитного риска. Цена за риск должна максимально точно учитывать величину риска каждого кредита. Кроме средней величины риска, определяемой по статистике предыдущей деятельности, банк должен знать количественную оценку и составляющие риска для каждого кредита.
          Каждый банк разрабатывает  свою модель риска для количественной оценки и анализа риска кредитов с учетом общих рекомендаций Базельского комитета по банковскому надзору. Чем выше точность оценки риска кредитов, тем меньше потери банка, меньше процент за кредит и выше конкурентоспособность банка. От повышения точности и прозрачности методик выигрывает все общество в целом. Создание эффективной модели риска и оптимальное управление кредитным риском возможны только на основе постоянного количественного анализа статистической информации об успехах кредитов.
          Существуют различные  подходы к определению кредитного риска частного заемщика, начиная с субъективных оценок специалистов банка и заканчивая автоматизированными системами оценки риска. Мировой опыт показывает, что основанные на математических моделях системы являются более действенными и надежными. В целях построения модели кредитного риска сначала производится выборка клиентов кредитной организации, о которых уже известно, хорошими заемщиками они себя зарекомендовали или нет. Такая выборка может варьироваться от нескольких тысяч до сотен тысяч, что не является проблемой на Западе, где кредитный портфель компаний может состоять из десятков миллионов клиентов. Выборка содержит информацию по двум группам кредитов, имевшим место в деятельности банка: «хорошим» и «плохим» (проблемным или невозвращенным).
          Ниже выполнен анализ прозрачности скоринговых методик  оценки кредитных рисков. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 


Характеристики физического лица
Кредиты физических лиц описываются 20 признаками, каждый их которых имеет градации (Таблица 1.)
Таблица1. Описание кредита физического лица
Номер признака Наименование  признака Обозначение Число градаций
0 Успешность  кредита  Y 2
1 Сумма счета  в банке Z1 4
2 Срок займа Z2 10
3 Кредитная история Z3 5
4 Назначение  займа  Z4 11
5 Сумма займа Z5 10
6 Счета по ценным бумагам  Z6 5
7 Продолжительность работы Z7 5
8 Взнос в частичное  погашение Z8 4
9 Семейное положение и пол Z9 4
10 Совместные  обязательства или поручитель Z10 3
11 Время проживания в данной местности Z11 4
12 Вид гарантии Z12 4
13 Возраст Z13 5
14 Наличие других займов Z14 3
15 Наличие жилой  площади Z15 3
16 Количество  займов с банком Z16 4
17 Профессия Z17 4
18 Число родственников  на иждивении Z18 2
19 Наличие телефона Z19 2
20 Иностранный или  местный житель Z20 2
 
 
 
 
 
 
 
 
 
    Статистические  и экономические  методы оценки риска
В банках используются, главным образом, следующие методики:
    Скоринговые методики;
    Кластерный анализ;
    Дискриминантный  анализ;
    Дерево классификаций;
    Нейронные сети;
    Технологии Data mining;
    Линейная вероятностная регрессионная модель;
    Logit-анализ;
Приступим к  описанию этих методик.

2.1 Скоринговые методики
    Скоринг кредитов физических лиц представляет собой методику оценки качества заемщика, основанную на различных характеристиках клиентов, таких как доход, возраст, семейное положение, профессия и др. В результате анализа переменных получают интегрированный показатель, который оценивает степень кредитоспособности заемщика по ранговой шкале: «хороший» или «плохой». Дается ответ на вопрос, вернет заемщик кредит или нет? Качество заемщика оценивается определенными баллами, отражающими степень его кредитоспособности. В зависимости от балльной оценки принимается решение о выдаче кредита и его лимитах.
      Привлечение банками для оценки кредитоспособности квалифицированных специалистов имеет несколько недостатков: во-первых, их мнение все же субъективно; во-вторых, люди не могут оперативно обрабатывать большие объемы информации; в-третьих, оплата хороших специалистов требует значительных расходов. Поэтому банки все больше интересуются такими системами оценки риска, которые позволили бы минимизировать участие экспертов и влияние человеческого фактора на принятие решений.
      Для оценки кредитного риска производится анализ кредитоспособности заемщика, под которой понимается его способность полностью и в срок рассчитаться по своим долговым обязательствам. В соответствии с таким определением основная задача скоринга заключается не только в том, чтобы выяснить, в состоянии клиент выплатить кредит или нет, но и в степени надежности и обязательности клиента.
      Скоринг представляет собой математическую или статистическую модель, с помощью которой на основе кредитной истории «прошлых» клиентов банк пытается определить, насколько велика вероятность, что потенциальный заемщик вернет кредит в срок. Скоринг является методом классификации всей интересующей нас популяции на различные группы, когда нам неизвестна характеристика, которая разделяет эти группы, но зато известны другие характеристики.
      В западной банковской системе, когда  человек обращается за кредитом, банк располагает следующей информацией для анализа:  анкетой, которую заполняет заемщик; информацией на данного заемщика из кредитного бюро, в котором хранится кредитная история взрослого населения страны;   данными движения по счетам, если речь идет о клиенте банка.
      Кредитные аналитики оперируют следующими понятиями: «характеристики-признаки» клиентов и «градации-значения», которые принимает признак. В анкете клиента характеристиками-признаками являются вопросы анкеты (возраст, семейное положение, профессия), а градациями-значениями— ответы на эти вопросы. В упрощенном виде скоринговая модель дает взвешенную сумму определенных характеристик. В результате получают интегральный показатель (score); чем он выше, тем выше надежность клиента (табл.3.). Интегральный показатель каждого клиента сравнивается с неким заданным уровнем показателя. Если показатель выше этого уровня, то выдается кредит, если ниже этой линии, — нет.
      Сложность в том, какие характеристики-признаки следует включать в модель и какие весовые коэффициенты должны им соответствовать. Философия скоринга заключается не в поиске объяснений, почему этот человек не платит. Скоринг использует характеристики, которые наиболее тесно связаны с ненадежностью клиента. Неизвестно, вернет ли данный заемщик кредит, но известно, что в прошлом люди этого возраста, этой профессии, с таким уровнем образования и числом иждивенцев кредит не возвращали (или возвращали).
Таблица 3. Скоринговая карта
Показатель Значение Баллы
Возраст 20 - 25 100
  26 - 30 107
  31 - 40 123
  ………… …………..
Доход 1000 - 3000 130
  3001 - 5000 145
  5001 - 6000 160
  ………… …………..
 
      Среди преимуществ скоринговых систем западные банкиры указывают в первую очередь снижение уровня невозврата кредита. Далее отмечаются быстрота и беспристрастность в принятии решений, возможность эффективного управления кредитным портфелем, определение оптимального соотношения между доходностью кредитных операций и уровнем риска.
    2.2 Кластерный анализ
      Методы  кластерного анализа позволяют  разбить изучаемую совокупность объектов на группы однородных в некотором смысле объектов, называемых кластерами или классами. Иерархические и параллельные кластер-процедуры практически реализуемы лишь в задачах классификации не более нескольких десятков наблюдений. К решению задач с большим числом наблюдений (как в наших целях) применяют последовательные кластер-процедуры - это итерационные алгоритмы, на каждом шаге которых используется одно наблюдение (или небольшая часть исходных наблюдений) и результаты разбиения на предыдущем шаге. Идею этих процедур реализована  в «SPSS» методе среднихK-Means Clustering») с заранее заданным числом классов.
      Алгоритм  заключается в следующем: выбирается заданное число k- точек и на первом шаге эти точки рассматриваются как "центры" кластеров. Каждому кластеру соответствует один центр. Объекты распределяются по кластерам по такому принципу: каждый объект относится к кластеру с ближайшим к этому объекту центром. Таким образом, все объекты распределились по k кластерам. Затем заново вычисляются центры этих кластеров, которыми после этого момента считаются покоординатные средние кластеров. После этого опять перераспределяются объекты. Вычисление центров и перераспределение объектов происходит до тех пор, пока не стабилизируются центры.
      Если  данные понимать как точки в признаковом пространстве, то задача кластерного анализа формулируется как выделение "сгущений точек", разбиение совокупности на однородные подмножества объектов.
      При проведении кластерного анализа  обычно определяют расстояние на множестве объектов; алгоритмы кластерного анализа формулируют в терминах этих расстояний. Мер близости и расстояний между объектами существует великое множество. Их выбирают в зависимости от цели исследования. В частности, евклидово расстояние лучше использовать для количественных переменных, расстояние хи-квадрат - для исследования частотных таблиц, имеется множество мер для бинарных переменных.
   Меры  близости отличаются от расстояний тем, что они тем больше, чем более  похожи объекты.
     
 
 
 
 
 

   Пусть имеются два объекта X=(X1,…,Xm) и Y=(Y1,…,Ym). (табл.4. ) Используя эту запись для объектов, определить основные виды расстояний, используемых процедуре:
      Евклидово расстояние (Euclidian distance).
      Квадрат евклидова расстояния (Squared Euclidian distance)
      Эвклидово расстояние и его квадрат целесообразно использовать для анализа количественных данных.
 
 
      Мера близости - коэффициент корреляции , где и компоненты стандартизованных векторов X и Y. Эту меру целесообразно использовать для выявления кластеров переменных, а не объектов. Расстояние хи-квадрат получается на основе таблицы сопряженности, составленной из объектов X и Y (таблица 4.), которые, предположительно, являются векторами частот. Здесь рассматриваются ожидаемые значения элементов, равные E(Xi)=X.*(Xi+Yi)/(X.+Y.) и E(Yi)=Y.*(Xi+Yi)/(X.+Y.), а расстояние хи-квадрят имеет вид корня из соответствующего показателя
    .
      Расстояние Фи-квадрат является расстоянием хи-квадрат, нормированным "число объектов" в таблице сопряженности, представляемой строками X и Y, т.е. на корень квадратный из N=X.+Y. .
 
      Кластерный  анализ является описательной процедурой, он не позволяет сделать никаких  статистических выводов, но дает возможность провести своеобразную разведку - изучить "структуру совокупности".
      Проведем  кластеризацию по всем 20 признакам  и всем наблюдениям.  В результате работы программы выводится таблица 5. (показана лишь ее часть)
Таблица 5. Cluster Membership
Case Number Y Cluster Distance
………… …… …………
822 0 0 2985,732
823 1 0 2996,715
824 0 0 3040,706
825 1 0 3054,689
826 0 0 3099,727
827 1 0 3108,674
828 1 1 3100,310
829 1 1 3053,258
830 1 1 3043,285
831 1 1 2991,286
………… …… ……… …………
 
Столбец Y показывает, относится ли наблюдение к группе вернувших кредит “0” или навернувших “1”, столбец «Cluster» показывает принадлежность к той или иной группе наблюдения на основе кластеризации.
      Таблица 6 указывает число наблюдений в том или ином кластере.  
 

Таблица 6.  Number of Cases in each Cluster
Cluster 1 822,000
    0 178,000
Valid 1000,000
Missing ,000
    Проанализируем  качество классификации.
Таблица 7. Expectation-Predictable Table
  Y=0 Y=1 всего
всего по выборке 300 700 1000
прогноз 178 822 1000
правильно 65 587 652
неправильно 235 113 348
% правильно 21,7% 83,9% 65,2%
% неправильно 78,3% 16,1% 34,8%
    Из  таблицы можно видеть, что видеть, что метод позволяет хорошо предугадывать плохие займы на уровне 83,9%, но плохо предугадывает хорошие займы – 21,7%. Обычно к методикам выдвигается требование распознавать лучше плохие займы, т.к.  потеря невозврата кредита больше потери неполучения процентов по кредиту.
      Дискриминантный анализ
    Кластерный  анализ решает задачу классификации объектов при практически отсутствующей априорной информации о наблюдениях внутри классов; в дискриминантном анализе предполагается наличие такой информации. С помощью дискриминантного анализа на основании некоторых признаков (независимых  переменных) индивидуум может быть причислен к одной из двух (или к одной из нескольких) заданных заранее групп. Ядром дискриминантного анализа является построение так называемой дискриминантной функции:
    D=b1*x1+b2*x2+…+bn*xn+a
    где х1 и х2 — значения переменных, соответствующих рассматриваемым случаям, константы x1 - xn и а — коэффициенты, которые и предстоит оценить с помощью дискриминантного анализа. Целью является определение таких коэффициентов, чтобы по значению  дискриминантной функции можно было с максимальной четкостью провести разделение  по группам.
    Дискриминантный анализ является разделом многомерного статистического анализа, который позволяет изучать различия между двумя и более группами объектов по нескольким переменным одновременно. Цели ДА – интерпретация межгрупповых различий  - дискриминация и методы классификации наблюдений по группам.
    При интерпретации мы отвечаем на вопросы: возможно ли, используя данный набор  переменных, отличить одну группу от другой, насколько хорошо эти переменные помогают провести дискриминацию, и какие из них наиболее информативны.
    Методы  классификации связаны с получением одной или нескольких функций, обеспечивающих возможность отнесения данного объекта к одной из групп. Эти функции называются классифицирующими.
    Реализуем метод дискриминантного анализа в SPSS.  Существует 2 алгоритма классификации:
    1. Одновременный учет всех независимых переменных. Результаты представлены в таблице 8
    Таблица 8.  Classification Results(a)
                    Y     Predicted Group Membership     Total
                           0     1        
    Original     Count     0     218     82     300
                   1     188     512     700
           %     0     72,7     27,3     100,0
                   1     26,9     73,1     100,0
    a  73,0% of original grouped cases correctly classified.
    В таблице 9 приведены коэффициенты дискриминантной функции
    Таблица 9. Canonical Discriminant Function Coefficients
           Function
            1
    Z1     ,503
    Z2     -,127
    Z3     ,338
    Z4     ,024
    Z5     -,150
    Z6     ,174
    Z7     ,134
    Z8     -,242
    Z9     ,225
    Z10     ,314
    Z11     -,006
    Z12     -,172
    Z13     ,035
    Z14     ,242
    Z15     ,272
    Z16     -,210
    Z17     ,023
    Z18     -,135
    Z19     ,271
    Z20     ,611
    (Constant)     -3,977
    Лямбда  Уилкса показывает на значимое различие групп (p < 0,001).
    Таблица 10. Wilks' Lambda
    Test of Function(s)     Wilks' Lambda     Chi-square     df     Sig.
    1     ,760     271,399     20     ,000
 
    2. Пошаговый метод. При выполнении дискриминантного анализа можно применить пошаговый образ действий, который рекомендуется при наличии большого количества независимых переменных. 
    Таблица 11. Classification Results(a)
                Y     Predicted Group Membership     Total
    0     1
    Original     Count     0     219     81     300
    1     203     497     700
    %     0     73,0     27,0     100,0
    1     29,0     71,0     100,0
    a  71,6% of original grouped cases correctly classified.
    Лямбда  Уилкса показывает на значимое различие групп (p < 0,001).
    Таблица 12. Wilks' Lambda
    Test of Function(s)     Wilks' Lambda     Chi-square     df     Sig.
    1     ,774     254,126     10     ,000
 
    В таблице 13  приведены коэффициенты дискриминантной функции
    Таблица 13. Canonical Discriminant Function Coefficients
           Function
            1
    SCHET     ,528
    SROK     -,140
    HISTOR     ,315
    ZAIM     -,145
    CHARES     ,186
    TIMRAB     ,133
    VZNOS     -,240
    FAMIL     ,248
    PORUCHIT     ,372
    INIZAIMI     ,262
    (Constant)     -3,288
    Точность  распознавания дискриминантным  анализом выше, чем кластерным. Но результаты по-прежнему остаются неудовлетворительными.
    2.4 Дерево классификаций
    Дерево  классификаций является более общим  алгоритмом сегментации обучающей выборки прецедентов. В методе дерева классификаций сегментация прецедентов задается не с помощью n-мерной сетки, а путем последовательного дробления факторного пространства на вложенные прямоугольные области (рис .1).
    

    Рис.1. Дерево классификации 

    На  первом шаге разделение выборки прецедентов на сегменты производится по самому значимому фактору. На втором и последующих шагах в отношении каждого из полученных ранее сегментов процедура повторяется до тех пор, пока никакой вариант последующего дробления не приводит к существенному различию между соотношением положительных и отрицательных прецедентов в новых сегментах. Количество ветвлений (сегментов) выбирается автоматически.
          В рассмотренной  методике также не дается ответ, насколько  кредит хорош или плох. Метод не позволяют получить точную количественную оценку риска и установить допустимый риск.
    2.5 Нейронные сети
    Нейронные сети NN используются при определении  кредитоспособности юридических лиц, где анализируются выборки меньшего размера, чем в потребительском кредите. Наиболее успешной областью их применения стало выявление мошенничества с кредитными карточками. Нейронные сети выявляют нелинейные связи между переменными, которые могут привести к ошибке в линейных моделях. NN позволяют обрабатывать прецеденты обучающей выборки с более сложным (чем прямоугольники) видом сегментов (рис. 2). Форма сегментов зависит от внутренней структуры NN Формулы и коэффициенты модели риска на основе NN лишены физического и логического смысла.
    

    Рис.2.  Сегменты разделения «хороших» и «плохих» объектов в NN
          Нейросеть — это  «черный ящик», внутреннее содержание которого (так называемые веса нейронов) не имеет смысла в терминах оценки риска. Такие методики не позволяют объяснить, почему данному заемщику следует отказать в кредите. NN-модели классификации обладают низкой стабильностью (робастностью).
    2.6 Технология Data mining
    В основе технологии data mining лежат алгоритмы поиска закономерностей между различными факторами в больших объемах данных. При этом анализируются зависимости между всеми факторами; но, поскольку даже при небольшом числе факторов количество их всевозможных комбинаций растет экспоненциально, в data mining применяются алгоритмы априорного отсечения слабых зависимостей. Говоря терминами анализа кредитоспособности, data mining на основе данных о выданных кредитах выявляет те факторы, которые существенно влияют на кредитоспособность заемщика, и вычисляет силу этого влияния. Соответственно, чем сильнее определенный фактор влияет на кредитоспособность, тем больший балл ему присваивается в методике скоринга. Чем больше данные держателя кредитной карты похожи на данные «кредитоспособного гражданина», тем больший лимит по кредиту он может получить, тем лучшие условия ему могут быть предоставлены
          Главное преимущество методик на основе data mining заключается в том, что они могут работать на малых выборках.  При больших выборках их точность, робастность и прозрачность недостаточны. В них также не дается ответ, насколько кредит хорош или плох Метод не позволяет получить количественную оценку риска, установить допустимый риск, назначить цену за риск и выявить вклады факторов и их градаций в риск.
    2.7 Линейная вероятностная  регрессионная модель
    Задача регрессионного анализа состоит в построении модели, позволяющей по значениям независимых показателей получать оценки значений зависимой переменной. Линейная модель связывает значения зависимой переменной Y со значениями независимых показателей Xk (факторов) формулой:
    Y=B0+B1X1+…+BpXp+e
    где e - случайная ошибка. Здесь Xk означает не "икс в степени k", а переменная X с индексом k. Традиционные названия "зависимая" для Y и "независимые" для Xk отражают не столько статистический смысл зависимости, сколько их содержательную интерпретацию. Величина e называется ошибкой регрессии. Первые математические результаты, связанные с регрессионным анализом, сделаны в предположении, что регрессионная ошибка распределена нормально с параметрами N(0,?2), ошибка для различных объектов считаются независимыми.  Кроме того, в данной модели мы рассматриваем переменные X как неслучайные значения, Такое, на практике, получается, когда идет активный эксперимент, в котором задают значения X (например, назначили зарплату работнику), а затем измеряют Y (оценили, какой стала производительность труда). За это иногда зависимую переменную называют откликом. Для получения оценок коэффициентов регрессии минимизируется сумма квадратов ошибок регрессии:
    

    Решение задачи сводится к решению системы линейных уравнений относительно . На основании оценок регрессионных коэффициентов  рассчитываются значения Y:
    

    О качестве полученного уравнения  регрессии можно судить, исследовав - оценки случайных ошибок уравнения. Оценка дисперсии случайной ошибки получается по формуле
    
.

    Величина  S называется стандартной ошибкой регрессии. Чем меньше величина S, тем лучше уравнение регрессии описывает независимую переменную Y.
    Так как мы ищем оценки , используя случайные данные, то они, в свою очередь, будут представлять случайные величины. В связи с этим возникают вопросы:
    1. Существует ли регрессионная зависимость? Может быть, все коэффициенты регрессии в генеральной совокупности равны нулю, оцененные их значения ненулевые только благодаря случайным отклонениям данных?
    Существенно ли влияние на зависимую отдельных независимых переменных?
    В пакете SPSS вычисляются статистики, позволяющие решить эти задачи.
    Для проверки одновременного отличия всех коэффициентов  регрессии от нуля проведем анализ квадратичного разброса значений зависимой переменной относительно среднего. Его можно разложить на две суммы следующим образом:
    

    В этом разложении обычно обозначают
     - общую сумму квадратов отклонений;
     - сумму квадратов регрессионных  отклонений;
     - разброс по линии регрессии.
    Статистика  в условиях гипотезы  равенства нулю регрессионных коэффициентов имеет распределение Фишера и, естественно, по этой статистике проверяют, являются ли коэффициенты B1,…,Bp одновременно нулевыми. Если наблюдаемая значимость статистики Фишера мала (например, sig F=0.003), то это означает, что данные распределены вдоль линии регрессии; если велика (например, Sign F=0.5), то, следовательно, данные не связаны такой линейной связью.
    При сравнении качества регрессии, оцененной  по различным зависимым переменным, полезно исследовать доли объясненной и необъясненной дисперсии. Отношение SSreg/SSt представляет собой оценку доли необъясненной дисперсии. Доля дисперсии зависимой переменной , объясненной уравнением регрессии, называется коэффициентом детерминации. В двумерном случае коэффициент детерминации совпадает с квадратом коэффициента корреляции.
    Корень  из коэффициента детерминации называется КОЭФФИЦИЕНТОМ МНОЖЕСТВЕННОЙ КОРРЕЛЯЦИИ (он является коэффициентом корреляции между y и ). Оценкой коэффициента детерминации ( ) является . Соответственно, величина R является оценкой коэффициента множественной корреляции. Следует иметь в виду, что является смещенной оценкой. Корректированная оценка коэффициента детерминации получается по формуле:
    

    В этой формуле используются несмещенные  оценки дисперсий регрессионного остатка и зависимой переменной.
    Если  переменные X независимы между собой, то величина коэффициента bi интерпретируется как прирост y, если Xi увеличить на единицу.
    Можно ли по абсолютной величине коэффициента судить о роли соответствующего ему фактора в формировании зависимой переменной? То есть, если b1>b2, будет ли X1 важнее X2?
    Абсолютные  значения коэффициентов не позволяют  сделать такой вывод. Однако при небольшой взаимосвязи между переменными X, если стандартизовать переменные и рассчитать уравнение регрессии для стандартизованных переменных, то оценки коэффициентов регрессии позволят по их абсолютной величине судить о том, какой аргумент в большей степени влияет на функцию.
    Дисперсия коэффициента позволяет получить статистику для проверки его значимости . Эта статистика имеет распределение Стьюдента. В выдаче пакета печатается наблюдаемая ее двусторонняя значимость - вероятность случайно при нулевом регрессионном коэффициенте Bk получить значение статистики, большее по абсолютной величине, чем выборочное.
    Построим  регрессию Y на факторы Z1-Z20 по методу линейной регрессии (табл.14.) 
 
 

    Таблица 14. Оценка линейной вероятностной модели
    

    В нашем случае прогнозные значения Yf указывают на вероятность возврата (невозврата)  кредита. Построим график прогнозных значений (рис.3.)
    

    Рис.3. график прогнозных значений
    Можно видеть, что прогнозные значения  могут находиться вне интервала [0,1] – это главный недостаток LP модели. Поэтому приступим к построению моделей, лишенных этих недостатков.  
 

    2.8 Логистическая регрессия
      Будем считать, что событие в данных фиксируется дихотомической переменной (0 не произошло событие, 1 - произошло). Для построения модели предсказания можно было бы построить, к примеру, линейное регрессионное уравнение с зависимой дихотомической переменной Y, но оно будет не адекватно поставленной задаче, так как в классическом уравнении регрессии предполагается, что Y - непрерывная переменная. С этой целью рассматривается логистическая регрессия. Ее целью является построение модели прогноза вероятности события {Y=1} в зависимости от независимых переменных X1,…,Xp. Иначе эта связь может быть выражена в виде зависимости P{Y=1|X}=f(X)
    Логистическая регрессия выражает эту связь  в виде формулы
, где Z=B0+B1X1+…+BpXp   

Название "логистическая регрессия" происходит от названия логистического распределения, имеющего функцию распределения . Таким образом, модель, представленная этим видом регрессии, по сути, является функцией распределения этого закона, в которой в качестве аргумента используется линейная комбинация независимых переменных.
    Отношение вероятности того, что событие  произойдет к вероятности того, что оно не произойдет P/(1-P) называется отношением шансов. С этим отношением связано еще одно представление логистической регрессии, получаемое за счет непосредственного задания зависимой переменной в виде Z=Ln(P/(1-P)), где P=P{Y=1|X1,…,Xp}. Переменная Z называется логитом. По сути дела, логистическая регрессия определяется уравнением регрессии Z=B0+B1X1+…+BpXp. В связи с этим отношение шансов может быть записано в следующем виде 
P/(1-P)=
.

Отсюда  получается, что, если модель верна, при  независимых X1,…,Xp изменение Xk на единицу вызывает изменение отношения шансов в раз.
   Механизм  решения такого уравнения можно представить следующим образом
и т.д.................


Перейти к полному тексту работы


Скачать работу с онлайн повышением уникальности до 90% по antiplagiat.ru, etxt.ru или advego.ru


Смотреть полный текст работы бесплатно


Смотреть похожие работы


* Примечание. Уникальность работы указана на дату публикации, текущее значение может отличаться от указанного.