WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

На правах рукописи

Палькин Егор Александрович

РАЗРАБОТКА ИНСТРУМЕНТОВ СОПРОВОЖДЕНИЯ

БАНКОВСКИХ ИНФОРМАЦИОННЫХ СИСТЕМ

08.00.13 – Математические и инструментальные методы экономики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата экономических наук

Волгоград – 2011

Работа выполнена в Саратовском государственном техническом университете

Научный руководитель доктор физико-математических наук, профессор Гусятников Виктор Николаевич.

Официальные оппоненты: доктор экономических наук, доцент Терелянский Павел Васильевич.

доктор технических наук, профессор Кушников Вадим Алексеевич.

Ведущая организация ФГБОУ ВПО «Саратовский государственный технический университет».

Защита диссертации состоится «22» декабря 2011 г. в 10 час. 00 мин. на заседании диссертационного совета ДМ 212.028.07 при Волгоградском государственном техническом университете по адресу: 400005, г. Волгоград, пр.

Ленина, 28, ауд. В-1001.

С диссертацией можно ознакомиться в библиотеке Волгоградского государственного технического университета.

Автореферат разослан «22» ноября 2011 г.

Ученый секретарь диссертационного совета Морозова И. А.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования. В настоящее время, по мере усложнения используемых программных систем и роста их стоимости, все более актуальной становится проблема их сопровождения. С одной стороны наблюдается ускоренное развитие информационных технологий, требующее постоянных изменений и обновлений в используемом программном обеспечении, с другой стороны жизненный цикл сложных программных систем должен быть достаточно длительным, чтобы успеть окупить затраты на их создание. По некоторым оценкам стоимость сопровождения современной информационной системы (ИС) может достигать 80% всех затрат жизненного цикла ИС. В то же время задачи этапа сопровождения ИС до настоящего времени остаются мало исследованными по сравнению с задачами других этапов жизненного цикла ИС – анализа требований, планирования и оценки проекта, проектирования, реализации и тестирования.

Являясь неотъемлемой частью функционирования программных систем любого масштаба, особое значение процесс сопровождения приобретает в корпоративных системах. Яркий пример подобных программ – банковские ИС. Их разветвлённая модульная структура со сложными механизмами сопряжения и высокими требованиями к надёжности данных не может оставаться работоспособной без систематического сопровождения, как внутреннего, так и внешнего.

Сегодня девять из десяти банков нуждаются в полноценном сопровождении приобретённых универсальных систем. Подтверждением этому служит то, что поставляемые готовые решения для малых и средних банков находятся в постоянной доработке, учитывающей особенности предоставляемых банком продуктов, структуры банковского управления и внутренних правил ведения бухгалтерского учёта.

Следует отметить, что специфика задач сопровождения банковских ИС изучена слабо, отсутствует методика их классификации. Как правило, эти задачи рассматриваются с точки зрения разработчика, в то время как наибольший интерес для коммерческой структуры представляет видение процесса глазами потребителя.

Среди множества задач сопровождения, с которыми сталкивается банк в процессе использования ИС, часто встречаются однотипные. Отсутствие адекватной классификации затрудняет их идентификацию и заставляет каждый раз искать новые способы их решения. С другой стороны, определённые общие подходы к сопровождению ИС могут быть с успехом применены к разнородным задачам. Таким образом, классификация задач сопровождения ИС является актуальной.

Другой актуальной задачей сопровождения банковских ИС выступает задача поддержки целостности данных. Очевидна необходимость поддержания целостности данных не только на уровне корректности форматов, но также на уровне их полноты и семантики. Средствам СУБД и информационным шлюзам не под силу справиться с подобного рода задачей, поэтому возникает потребность в разработке механизма, реализующего поддержку целостности данных на уровне анализа их смыслового содержания.

Основной вид деятельности банков – кредитование, бесспорно, требует наибольшего внимание среди прочих составляющих банковской информационной инфраструктуры. Задача поддержки принятия решения при выдаче кредитов в условиях современной конкуренции требует новых технических решений, оставаясь постоянно актуальной. Хорошая скоринговая система позволяет банку не только увеличить скорость обслуживания клиентов, но также повысить прибыль за счёт выбора наиболее надёжных заёмщиков. Поэтому актуальными являются задачи внедрения и сопровождения современных скоринговых систем, основанных на перспективных информационных технологиях.

Степень изученности проблемы. Значительный вклад в развитие представлений о процессе сопровождения, как неотъемлемой части жизненного цикла программных средств и информационных систем в экономике, внесли известные зарубежные специалисты в области программной инженерии Э. Дж.

';

Браудэ, Б. Боэм, Ф. Брукс, Г. Буч, Дж. Бэйли, Э. Гамма, Дж. Рамбо, И. Соммервил, М. Фаулер и др.

В нашей стране процессы сопровождения ИС долгое время рассматривалось в узком смысле, как совокупность действий, направленных на решение конкретных задач гарантийного и послегарантийного обслуживания ИС. Большее внимание этой проблеме стали уделять только в последние годы. Вопросы сопровождения данных рассматриваются в работах О.Б. Арушаняна, Н.А. Богомолова, Н.И. Волченскова, В.П. Зимина, А.Д. Ковалева, Ф.В Комара, А.К.

Погодаева, Г.О. Федорковой, Е.А. Хомякова. Обслуживание экономических ИС исследуется в работах Е.Ф. Жарко, В.Г. Промыслова, О.А. Промысловой, С.А.

Смирнова. Проблемы формализации жизненного цикла (ЖЦ) информационных систем затрагиваются В.В. Бураковым, А.П. Гагариным, Е.Н. Десятириковой, В.Г. Зиновьевым, В.В. Мышко, М.М. Павловским, Е.Б. Самойловым. Общие вопросы функционирования и сопровождения ИС описываются в трудах В.А.

Благодатских, А.М. Вендрова, В.В. Липаева, К.Ф.Поскакалова и др.

Следует отметить, что большинство известных источников содержат либо общие рекомендации относительно организации процесса обслуживания и сопровождения ИС, либо предлагают частные решения отдельных задач сопровождения. Для многих задач сопровождения, характерных для экономических информационных систем, отсутствует описание типовых эффективных способов решения. Практически нет работ, в которых отражена специфика сопровождения банковских ИС. В частности, нет описаний механизма сопровождения банковских ИС, не раскрыты вопросы поддержки целостности и актуальности банковских корпоративных хранилищ данных, до сих пор не предложен простой, быстрый и одновременно гибкий инструмент для поддержки на оперативном уровне управления основного направления деятельности банка – кредитования.

Цель и задачи исследования. Целью настоящей работы является разработка и исследование методов и инструментов сопровождения информационных систем в банковской сфере, позволяющих наращивать функциональные возможности действующих ИС и повысить надежность хранимых данных.

Для достижения поставленной цели, в работе решались следующие задачи, определившие логику диссертационного исследования и его структуру:

1) изучение специфики процесса сопровождения современных экономических ИС, разработка их классификации и выявление наиболее важных задач сопровождения банковских ИС;

2) разработка механизма сопровождения банковской ИС на основе централизованной системы заявок;

3) построение алгоритма прохождения заявки, позволяющего в случае необходимости перемещать заявку на предыдущий уровень обработки;

4) разработка алгоритма для оценки кредитного риска, на основе технологии искусственных нейронных сетей, и создание инструментального средства для сопровождения банковской ИС при обслуживании процесса кредитования;

5) создание инструментального средства для сопровождения данных о физических лицах в составе корпоративного хранилища данных, основанного на авторском алгоритме сравнения персональных данных клиентов банка с использованием правил фонетики русского языка.

Объектом исследования являются экономические информационные системы, используемые в деятельности современных кредитных организаций.

Предметом исследования выступает процесс сопровождения банковских информационных систем, а также модели, алгоритмы и программные средства, используемые для реализации данного процесса.

Теоретическую и методологическую базу исследования составляют материалы по разработке информационных систем, проектированию баз данных, обслуживанию программ, моделированию искусственных нейронных сетей. Также в диссертации используются государственные стандарты, нормативные документы ЦБР, методы анализа и моделирования экономических процессов.

Рабочая гипотеза исследования. Постоянное совершенствование процесса сопровождения необходимо для эффективного функционирования банковских информационных систем и их отдельных модулей. Решающее значение в процессе сопровождения банковских информационных систем должно иметь качество производимых в системе изменений, выражающее в повышении эффективности банковских процессов, уменьшении времени расчётов, увеличении точности прогнозов.

Область исследования. Диссертационная работа выполнена в рамках специальности ВАК 08.00.13 «Математические и инструментальные методы экономики», п. 2.6. «Развитие теоретических основ методологии и инструментария проектирования, разработки и сопровождения информационных систем субъектов экономической деятельности: методы формализованного представления предметной области, программные средства, базы данных, корпоративные хранилища данных, базы знаний, коммуникационные технологии».

Основные положения диссертации, выносимые на защиту.

1. Для повышения эффективности решения задач сопровождения банковских ИС, необходимо в существующей системе их классификации дополнительно выделить отдельную группу задач по сопровождению данных.

2. Для организации эффективного сопровождения экономических ИС, необходимо использовать единый централизованный механизм исправления ошибок на основе системы заявок.

3. Процесс функционирования системы сопровождения на основе заявок должен быть реализован в виде разработанного алгоритма прохождения заявки с возможностью возврата на предыдущие уровни обработки и централизованной базы данных.

4. Система сопровождения процесса кредитования на основе нейронной сети с возможностью оперативного дообучения по данным о клиентах регионального отделения банка позволяет заметно снизить риски неплатежей по ссудам, улучшает точность прогноза, упрощает и удешевляет оценку заемщика на этапе принятия решения по заявке.

5. Система сопровождения и поддержки целостности данных о физических лицах, использующая разработанный фонетический алгоритм для поиска сходств персональных данных, позволяет на порядок снизить количество ошибок сравнения, относительно систем, использующих известные универсальные алгоритмы сравнения текстовых данных.

Научная новизна диссертационной работы. Научная новизна диссертационного исследования заключается в развитии методологии и разработке инструментов сопровождения ИС. Научную новизну содержат следующие результаты:

1) Предложена классификация задач сопровождения, отличающаяся выделением в отдельную группу задач, направленных на сопровождение данных, специфичных для корпоративных хранилищ данных, и показано, что выделенный класс задач играет важную роль при организации процесса сопровождения ИС в банковском секторе.

2) Разработан централизованный механизм сопровождения экономических информационных систем на основе заявок, встраиваемый в организационную структуру предприятия заказчика ИС, предоставляющий возможность обработки возникающих в ИС ошибок согласно предложенной классификации типичных для банковских ИС ошибок, позволяющий пользователям взаимодействовать напрямую с ответственными исполнителями и отслеживать стадии выполнения заявок.

3) Построен алгоритм обработки заявок на исправление ошибок для организации сопровождения банковских ИС, включающий формализованные пути прохождения заявки и нестандартные процедуры обработки, такие как возврат заявки на дополнительный анализ и на повторный предварительный анализ, а также открытие закрытых заявок.

4) Создана программа Нейрокредит+ для автоматизации кредитования на уровне кредитного эксперта коммерческого банка, осуществляющая поддержку принятия решения при выдаче кредита на основе механизма скоринга, реализованного с использованием оперативно дообучаемой, в том числе на основе выявленных скрытых факторов неплатежей, искусственной нейронной сети, благодаря которой в разы сокращаются сроки рассмотрения кредитной заявки и увеличивается точность прогнозирования возможности дефолта по ссудам.

5) Разработан алгоритм сравнения персональных данных, в основе которого лежит принцип создания ключа с помощью хэш-функции, использующей правила фонетики русского языка, позволяющий снизить количество ошибок сопоставления на порядок по сравнению с известными универсальными алгоритмами выявления сходств, а также предоставляющий возможность повторного использования рассчитанных хэш-значений.

Теоретическая значимость исследования заключается в разработке классификации задач сопровождения и ошибок, характерных для банковских ИС, методических рекомендаций по организации процесса сопровождения ИС на основе механизма заявок, оценке эффективности использования различных алгоритмов сопоставления персональных данных.

Практическая значимость исследования состоит в разработке механизмов и инструментов сопровождения ИС, которые могут быть применены при построении процесса сопровождения ИС современного банка. Алгоритмы и программы, разработанные в ходе исследования, являются законченными и готовыми к использованию.

Апробация и внедрение результатов исследования. Основные результаты диссертационной работы докладывались и обсуждались на научнопрактических конференциях и семинарах различного уровня, в том числе: X Международная конференция «Информатика: проблемы, методологии, технологии» (г. Воронеж, ВГУ, 2010), международная конференция «Технологии Microsoft в теории и практике программирования» (г. Нижний Новгород, НГУ, 2007), студенческие научных конференции в 2006, 2007 годах в Саратовском государственном социально-экономическом университете «Проблемы социально-экономического развития России» (г. Саратов, СГСЭУ, 2007).

Основные результаты диссертационного исследования используются в деятельности коммерческого банка ООО «БАНК ФИНИНВЕСТ» в процессе принятия решения о выдаче кредита, при сборе сводных данных из разнородных ИС. Предложенный в работе алгоритм прохождения заявки лежит в основе работы банковской системы отслеживания и обработки ошибок ИС действующего коммерческого банка. Алгоритм сравнения персональных данных, встроенный в автоматизированную банковскую систему, позволяет операционистам и кассирам оперативно идентифицировать клиентов банка. Система оценки платёжеспособности поставщиков, основанная на представленном в работе механизме скоринга, реализованного с использованием искусственной нейронной сети, используется в деятельности факторинговой компании ООО «Экономфакторинг». Разработанные методы и инструментарий нашли применение в учебном процессе Саратовского государственного социально-экономического университета, специальность «Прикладная информатика (в экономике)» (дисциплина «Имитационное моделирование экономических процессов»).

Публикации. Основные результаты диссертационного исследования изложены в 11 научных работах, в том числе 3 – в научных изданиях, рекомендованных ВАК Министерства образования и науки РФ для публикации основных результатов диссертационных исследований, общим объёмом в 4,1 печатных листа.

Структура и объем работы. Структура диссертации обусловлена целью, задачами и логикой исследования. Диссертационная работа состоит из введения, трёх глав, заключения и библиографического списка из 111 источников.

Работа изложена на 148 страницах машинописного текста, содержит 24 рисунка и 3 таблицы. Диссертация имеет следующую структуру:

Во введении обосновывается актуальность рассматриваемой проблемы, формулируются цель и задачи диссертационного исследования, определяются его объект и предмет, рассматриваются теоретические и методологические основы исследования, выделяются научная новизна и практическая значимость работы, приводится оценка внедрения и апробации исследования, описывается структура диссертационной работы.

В первой главе «Проблема сопровождения информационных систем.

Типичные задачи и методы их решения» выполнен анализ проблемы сопровождения ИС в коммерческом банке. Рассмотрены существующие подходы к вопросу сопровождения ИС, проанализированы действующие стандарты и статьи, посвящённые жизненному циклу ИС в целом и сопровождению, в частности. В главе обоснована необходимость доработки существующей классификации задач сопровождения в ИС субъектов экономической деятельности, предложена новая классификация задач сопровождения, учитывающая специфику банковских ИС и разработанного алгоритма обработки ошибок на основе заявок.

Во второй главе «Процесс сопровождения кредитной работы в коммерческом банке» рассматривается основное направление банковской деятельности – кредитование, предлагается модель скоринговой системы с использованием искусственной нейронной сети, которая была положена в основу разработанной системы поддержки принятия решения при выдаче. Система отличается от известных не только тем, что используется на оперативном уровне управления, но и возможностью гибкого реагирования на изменения рынка путём постоянного дообучения нейронной сети на основе новых данных.

В третьей главе «Поддержка целостности данных в разнородных ИС»

исследуется актуальная для большинства банков проблема сопровождения данных о физических лицах. Для решения задачи сопоставления персональных данных из разнородных ИС было разработано программное средство, основанное на предложенном семантическом алгоритме Фонетик. В главе представлены сравнительные результаты работы авторского алгоритма и традиционных алгоритмов анализа строк.

В заключении сформулированы выводы, основные положения и обобщения по результатам диссертационного исследования.

ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ

К первой группе вопросов отнесены проблемы сопровождения экономических ИС как в целом, так и применительно к коммерческим банкам. Проведенный анализ существующих подходов к вопросу сопровождения ИС, действующих стандартов и статей, посвящённых жизненному циклу ИС, показал, что основным слабым местом существующих подходов является недостаток внимания к задачам сопровождения данных, а также отсутствие подходов, в которых учтена специфика сопровождения современных экономических информационных систем и корпоративных хранилищ данных.

В диссертации обоснована необходимость доработки существующей классификации задач сопровождения в ИС коммерческого банка и представлен собственный взгляд на эту проблему в виде авторской классификации задач сопровождения, в которой учтена специфика банковских ИС. Классификация показана на рис. 1. Все задачи сопровождения предлагается разбить на три класса:

развитие ИС, корректирующее сопровождение и сопровождение данных.

Развитие ИС предполагает частичную или полную модернизацию. В связи с этим, развитие ИС можно разделить на доработку ИС, разработку дополнительного ПО и замену ИС на более современную и функциональную. Адаптивное сопровождение это доработка программного продукта после поставки, позволяющее адаптировать его к новым условиям эксплуатации.

Корректирующее сопровождение направлено на выявление и устранение несоответствий и ошибок после поставки программного продукта.

Сопровождение данных. Важной спецификой корпоративных ИС является значительно превышение продолжительности жизненного цикла (ЖЦ) данных над продолжительностью ЖЦ программной среды, технологий обработки, бизнес логики и т.д. Именно поэтому целесообразно вынести поддержку данных в отдельный класс задач, состоящий из контроля целостности данных, поддержки актуальности данных и резервного копирования и восстановления, а также переноса данных из одной системы в другую.

Приведенная классификация позволяет определить принадлежность задачи к определенной группе и принять соответствующие меры по ее сопровождению.

Дальнейшая логика рассмотрения работы соответствует трем представленным в классификации направлениям сопровождения ИС.

Вторая группа вопросов, рассмотренная в диссертации, касается детализации процесса корректирующего сопровождения и разработки механизма его реализации в коммерческом банке. В настоящее время банковские ИТструктуры осознали преимущества централизованной системы отслеживания и решения проблем и ошибок.

Рис. 2 Схема жизненного цикла заявки Система отслеживания ошибок – это прикладная программа, помогающая разработчикам программного обеспечения учитывать и контролировать ошибки, найденные в программах, а также следить за процессом устранения возникших ошибок. Главный элемент такой системы – это заявка, содержащая основные параметры ошибки и этапы её устранения. База данных заявок является одновременно и классификатором найденных ошибок, и базой знаний по исправлениям и доработкам. Система позволяет организовать эффективный процесс сопровождения с сильной обратной связью.

На рис. 2 представлен разработанный алгоритм обработки заявки в системе отслеживания ошибок. Алгоритм намеренно изображён с нарушением общепринятых правил построения схем для того, чтобы более наглядно продемонстрировать нестандартную схему работы и его особенности. Пунктиром обозначены пути возможного возврата заявки на предыдущий этап выполнения – анализ или дополнительный предварительный анализ, в случае необходимости получения дополнительных данных от инициатора или аналитика, а также повторный ввод заявки, по которой уже был получен отказ, в обработку путём снятия отказа.

На основании данных о работе системы отслеживания ошибок в банке, была построена круговая диаграмма, отображающая структуру заявок и представленная на рис. 3. Очевидно, что в общем числе обработанных заявок преобладают доработки и ошибки. Консультации и изменение настроек составляют менее шестой части всех заявок.

Далеко не за всеми заявками, размещёнными в системе, кроются ошибки, не все ошибки можно устранить и не все ошибки целесообразно устранять. В этом случае заявка получает отказ в исполнении с пояснением причины отказа.

Такие заявки, по нашим данным, составляют примерно 15% от исходных заявок.

Рис. 3 Структура заявок по АБС за первое полугодие 2011 г.

Полученные результаты свидетельствуют о том, что даже во внедрённых и функционирующих АБС постоянно возникают ошибки, требующие классификации, исправления и сопровождения. С этой задачей эффективно справляется система отслеживания ошибок на основе представленного алгоритма.

Третья группа вопросов рассматривает развитие ИС с точки зрения сопровождения. В работе подробно описывается один из возможных подходов к сопровождению банковских ИС путем разработки дополнительного ПО, расширяющего функциональность существующей ИС. Для исследования выбрана одна из наиболее актуальных проблем современных банков – принятие решения о выдаче кредита.

Увеличение объемов кредитования физических лиц диктует необходимость внедрения систем автоматизированной оценки потенциальных заемщиков. Подобная система позволяет существенно ускорить процесс рассмотрения заявки и повысить эффективность работы кредитных инспекторов.

Повышающий коэфициент Скоринг: Регион 1. Скоринг: Регион 2. Скоринг: Регион...

Проверка достоверности данных в анкете сотрудником Службы Безопасности по Базам данных.

Отправка анкеты на кор- ректировку Рис. 4 Усовершенствованный алгоритм кредитного процесса В процессе проведения исследований установлено, что многим современным многофилиальным банкам, даже внедрившим интегрированные системы уровня макро- риск менеджмента, остро не хватает инструментальных средств для оперативного управления рисками уровня рабочего места. Основной задачей данного раздела явилось построение модели скоринговой оценки кредитоспособности заёмщика и программного средства, расширяющего функциональные возможности банковской ИС в задачах оперативного управления кредитными рисками.

В работе рассмотрен процесс управления кредитным риском, и построена модель кредитного процесса, в состав которой включена нейросетевая скоринговая система количественной оценки кредитоспособности заемщика. Основой построенной модели явились алгоритмы работы кредитного отдела и службы сопровождения. На рис. 4 приведен усовершенствованный алгоритм работы кредитного отдела с использованием адаптивных нейросетей, цифрой 2 на нем обозначен сигнал обратной связи, поступающий из отдела анализа.

Наличие обратной связи в представленном алгоритме позволяет организовать итерационный процесс дообучения нейронной сети, используемой в скоринговой системе. При этом на каждой итерации происходит уточнение прогноза даваемого нейронной сетью.

Построенная модель кредитного процесса стала основой при разработке инструментальных средств для управления кредитными рисками. Система отличается от известных не только тем, что используется на оперативном уровне управления, но и возможностью гибкого реагирования на изменения рынка путём постоянного дообучения нейронной сети на основе новых данных.

Для реализации предлагаемых скоринговых систем в работе разработано программное средство, позволяющее конструировать и обучать нейронную сеть на обучающем множестве, составленном на основе базы кредитных заявок.

Программное средство позволяет также выполнять скоринг кредитных заявок на рабочем месте кредитного инспектора. Кроме того, среди его достоинств можно отметить простоту использования, хорошую совместимость с офисными приложениями и возможность централизованного хранения большого количества обучающих массивов и обученных нейронных сетей.

В качестве критерия эффективности внедряемых скоринговых решений в работе используется величина средней доходности по кредитному портфелю, которая определяется как разность между процентными доходами и расходами по портфелю, отнесенная на количество выданных кредитов. Расчеты проведены в предположении, что банку предоставляется возможность анализа достаточно большого потока заявок. В этом случае сформированный массив клиентов обладает агрегированными характеристиками о средней сумме кредита, средней доходности, средней рискованности и т.д.

Рис. 5 Изменение доходности кредитного портфеля при трех последовательных На рис. 5 показано соответствующее изменение количества одобренных заявок, дефолтных ссуд и суммарной доходности кредитного портфеля на примере 500 заявок на автокредитование. Вариант 1 на рисунке соответствует первоначально сформированному кредитному портфелю. Результаты варианта были получены после переобучения сети путём добавления новых правил, касающихся таких факторов как недостаточная значимость возраста для женщин от 18 до 27 лет (им не надо служить в армии), веса семейного положения «разведен» (для женщин он более значим, чем для мужчин) и пр. Вариант 3 показывает результаты переобучения после внесения дополнительно выявленных «скрытых» факторов, таких как географическое место проживания клиента, взаимосвязь возраста заемщика и занимаемой должности, точка обращения клиента за кредитом (офис банка, конкретный магазин или конкретный автосалон).

На данный момент банки остро нуждаются в эффективной и гибкой скоринговой системе, которую они могли бы самостоятельно настраивать под региональные особенности кредитования. Разработанное программное средство, способное гибко настраиваться с учетом региональных особенностей и оперативно реагировать на изменение внешних условий работы банка, является мощным инструментом для кредитного инспектора.

Четвертая группа вопросов связана с актуальной для банков проблемой поддержки целостности и актуальности данных о физических лицах.

Методы и алгоритмы анализа строк находят сегодня практическое применение во многих областях науки и информационных технологий: глобальные поисковые системы, сжатие данных, криптография, распознавание речи, компьютерное зрение, генетика и молекулярная биология. Одной из сфер применения таких алгоритмов являются также задачи сопровождении баз данных, входящих в состав различных информационных систем. Типичными и часто обсуждаемыми на форумах программистов задачами такого типа являются задачи сопоставления и идентификации объектов, сведения о которых разнесены по разным базам данных. В частности, к подобным задачам относят поиск, сопоставление и слияние персональных данных о физических лицах.

Разнородность систем управления базами данных, используемых в ИС, и структур данных, содержащих информацию, подлежащую слиянию, влечёт за собой необходимость классификации данных при сопоставлении объектов.

Подчас один и тот же объект, описанный в соответствие с требованиями одной БД, не может быть однозначно идентифицирован в другой БД без специальных процедур сравнения.

В настоящее время известно значительное количество методов и алгоритмов анализа текстовой информации, параметры которых, характеризующие их быстродействие и ресурсоемкость, хорошо исследованы. Вместе с тем при описании алгоритмов анализа текстов редко указываются параметры, характеризующие их релевантность по отношению к конкретной задаче сопоставления записей.

Наиболее простым способом решения данной задачи, который часто применяется в качестве первого шага, является точное сравнение строк с предварительным удалением незначимых символов. Для последующих шагов существует ряд алгоритмов, таких, например, как алгоритм Вагнера-Фишер, или алгоритм Смита-Ватермана, позволяющих количественно оценить близость строк между собой, используя в качестве меры близости дистанции редактирования.

К таким мерам относится расстояние Левенштейна, то есть минимальное количество элементарных операций вставки, удаления и замены одного символа, необходимых для превращения одной строки в другую, или расстояние Хэмминга, используемое для сравнения строк одинаковой размерности. Следует отметить, что ни один из вышеперечисленных алгоритмов изначально не разрабатывался для сравнения данных о физических лицах.

Специфика обработки имен физических лиц более полно учтена в известных англоязычных алгоритмах сравнения двух строк по их звучанию Soundex и MetaPhone. Эти алгоритмы основаны на построении некоторой хэш-функции, которая преобразует исходные строки в хеш-код, одинаковый для схожих строк. Процесс сравнения двух строк сводится к вычислению хэш-кодов этих строк и их последующего строгого сравнения.

В работе предложена реализация инструментального средства, с высокой достоверностью решающего задачу сопоставления текстовых персональных данных (фамилии, имени и отчества) о физических лицах, информация о которых внесена в разнородные базы данных.

В основу алгоритма Фонетик, реализованного в данной работе, лег вариант алгоритма MetaPhone. Разработанный алгоритм Фонетик получает на вход исходную строку и на основе правил, учитывающих произношения букв и слогов в русском языке, вырабатывает на выходе новую строку, называемую ключом для исходной строки. Ключ имеет переменную длину; из одной строки можно получить только один ключ. В таблице 1 приведён пример списка, подаваемого на вход алгоритма, и соответствующих выходных значений.

Пример списка входных значений и ключей на выходе алгоритма Фонетик Для проверки релевантности алгоритма Фонетик из автоматизированной банковской системы было выгружено 25907 записей о физических лицах. Этот массив данных был получен слиянием нескольких баз данных и содержал некоторое количество дублирующих записей о физических лицах, которые не были обнаружены средствами СУБД во время слияния. Весь массив данных был обработан экспертами, которые выявили в нем 661 дублирующую запись.

Анализ сформированного массива данных о физических лицах проведен следующими алгоритмами: алгоритмом Фонетик, алгоритмом прямого сравнения, алгоритмом, рассчитывающим дистанцию Левенштейна и алгоритмом Soundex. Алгоритмы запускались на данной выборке по очереди по принципу сравнения каждой записи с каждой. В алгоритме, вычисляющем дистанцию Левенштейна, записи считались различными, если дистанция редактирования превышала единицу. Перед применением алгоритма Soundex, разработанного для английского языка, записи подвергались процедуре транслитерации. По итогам работы всех алгоритмов была заполнена результирующая таблица 2.

Фонетик Дистанция Левенштейна Soundex Прямое сравнение По общему количеству ошибок сравнения наихудшие результаты показал алгоритм, вычисляющий дистанцию Левенштейна. Второе место по общему количеству ошибок после алгоритма Фонетик занимает алгоритм прямого сравнения. Однако в данном случае значимость ошибок первого и второго рода различна. Наиболее критичными являются ошибки первого рода, поскольку сходные объекты, классифицированные как различные, не попадут в итоговую выборку, то есть будут потеряны. Наличие ошибки второго рода не столь критично, поскольку на практике все объекты, классифицированные как сходные, будут представлены для последующей обработки в ручном режиме, а значит, будут проконтролированы.

По количеству ошибок первого рода алгоритм Фонетик на порядок лучше алгоритмов, вычисляющих дистанцию Левенштейна и алгоритма Soundex. Алгоритм прямого сравнения оказался наименее эффективным по количеству ошибок первого рода.

Алгоритм Фонетик при сравнении персональных данных строк, показывает высокую стабильность и эффективность в работе, отличается хорошей приспособленностью к нормам и правилам русского языка, высокой релевантностью, низкими показателями ошибок первого и второго рода. Использование технологии поиска сходных записей на основе данного алгоритма позволяет снизить избыточность баз данных, сократить ручной труд операционистов и кассиров банка, в реальном времени отслеживать историю обращений клиента, а также проводить интеллектуальную обработку, например, резервирование или репликацию, и прочие операции с данными, требующие больших затрат времени. Фонетик хорошо подходит в качестве инструмента сопровождения автоматизированных банковских систем, систем денежных переводов, иных программных средств, требующих непосредственного взаимодействия оператора системы с физическими лицами, информация о которых вносится в систему.

Разработка алгоритма сопоставления персональных данных является примером эффективного решения задачи сопровождения ИС по вопросам поддержания целостности и актуальности данных банковских ИС.

ПО ТЕМЕ ДИССЕРТАЦИИ ОПУБЛИКОВАНЫ

Статьи в изданиях, рекомендованных ВАК РФ 1. Палькин, Е. А. Эффективность алгоритмов сопоставления персональных данных [Текст] / В.Н. Гусятников, Е.А. Палькин // Программные продукты и системы, 2011, №1. – 0,6 п.л.

2. Палькин, Е. А. Группы задач сопровождения в информационной системе коммерческого банке [Электронный ресурс] / Е.А. Палькин // Управление экономическими системами: электронный научный журнал, 2011, № 1 (25). – № гос. рег. статьи 0421100034. – Режим доступа к журн.: http://uecs.mcnip.ru. – 0, п.л.

3. Палькин, Е. А. Инструменты сопровождения информационных систем с поддержкой целостности данных о физических лицах [Текст] / В.Н. Гусятников, Е.А. Палькин // Вестник Саратовского государственного социальноэкономического университета, 2010, №5(34). – 0,5 п.л.

4. Палькин, Е.А. Банковский кредитный скоринг как практическая реализация нейросетевых технологий [Текст] / Е.А. Палькин // Проблемы социально-экономического развития России: Сборник научных трудов по итогам студенческих научных конференций в 2007 году. – Саратов: СГСЭУ, 2007. – 0, п.л.

5. Палькин, Е.А. Разработка алгоритма сравнения данных о физических лицах при сопоставлении объектов разнородных баз данных [Текст] / В.Н. Гусятников, Е.А. Палькин // Труды X Международной конференции «Информатика: проблемы, методологии, технологии». – Воронеж: Изд-во ВГУ, 2010. – 0, п.л.

6. Палькин, Е.А. Разработка модуля сравнения данных о физических лицах при сопоставлении объектов в автоматизированных банковских системах [Текст] / В.Н. Гусятников, Е.А. Палькин // Актуальные задачи управления социально-экономическими и техническими системами. – Саратов: Издательство «Научная книга», 2010. – 0,4 п.л.

7. Палькин, Е.А. Разработка системы поддержки принятия решений при выдаче потребительских кредитов в коммерческом банке. ГОУ ВПО Саратовский государственный социально-экономический университет [Текст] / В.Н.

Гусятников, Д.П. Ульянов, Е.А. Палькин // Инновации в науке и образовании (Телеграф отраслевого фонда алгоритмов и программ), 2008, №3. – 0,1 п.л.

8. Палькин Е.А. Разработка системы поддержки принятия решений при выдаче потребительских кредитов в коммерческом банке [Текст] / В.Н. Гусятников, Д.П. Ульянов, Е.А. Палькин // Компьютерные учебные программы и инновации, 2008, №9. – 0,6 п.л.

9. Палькин Е.А. Использование нейросетевых технологий при построении автоматизированной системы банковского кредитного скоринга [Текст] / В.Н. Гусятников, Д.П. Ульянов, Е.А. Палькин. Под ред. проф. Р.Г. Стронгина // Технологии Microsoft в теории и практике программирования. Материалы конференции. – Нижний Новгород: Издательство Нижегородского университета, 2007. – 0,2 п.л.

Зарегистрированные программные средства 10. Палькин Е.А. Сравнение персональных данных на основе фонетической индексации / Е.А. Палькин // Свидетельство об официальной регистрации программы для ЭВМ. - №2010617042. – М.: РОСПАТЕНТ, 2010.

11. Палькин Е.А., Свидетельство об отраслевой регистрации разработки № 10224. Разработка системы поддержки принятия решений при выдаче потребительских кредитов в коммерческом банке / В.Н. Гусятников, Д.П. Ульянов, Е.А. Палькин // Отраслевой фонд алгоритмов и программ; зарегистрировано 21.03.2008. Номер гос. регистрации 50200800634. – 0,3 п.л.





Похожие работы:

«ХИСМАТУЛЛИНА ЗУЛЬФИЯ НАЗИПОВНА ОРГАНИЗАЦИОННЫЙ КОНФЛИКТ КАК СОЦИАЛЬНЫЙ ПРОЦЕСС СОВРЕМЕННОГО ОБЩЕСТВА (ТЕОРЕТИКО-МЕТОДОЛОГИЧЕСКИЙ АНАЛИЗ) 22.00.04 – социальная структура, социальные институты и процессы АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата социологических наук Казань - 2006 2 Работа выполнена на кафедре социологии Казанского государственного университета Научный руководитель : кандидат философских наук, доцент Минзарипов Рияз Гатауллович Официальные...»

«Магидов Дмитрий Рудольфович Определение условий возникновения глобальных автоколебаний в двумерных потоках на основе линейной теории устойчивости Специальность 01.02.05 – механика жидкости, газа и плазмы Автореферат диссертации на соискание ученой степени кандидата физико-математических наук Санкт-Петербург 2006 Работа выполнена на кафедре гидроаэродинамики ГОУ ВПО Санкт-Петербургский государственный политехнический университет Научный руководитель : кандидат физ.-мат. наук,...»

«Акимова Анжелика Ринатовна ОСОБЕННОСТИ УВЕРЕННОСТИ И ОБЩИТЕЛЬНОСТИ СТУДЕНТОВ НА РАЗНЫХ ЭТАПАХ СОЦИАЛЬНО-ПСИХОЛОГИЧЕСКОЙ АДАПТАЦИИ В ВУЗЕ Специальность: 19.00.01 – общая психология, психология личности, история психологии Автореферат диссертации на соискание ученой степени кандидата психологических наук МОСКВА 2010 Работа выполнена на кафедре социальной и дифференциальной психологии филологического факультета Российского университета дружбы народов Научный руководитель :...»

«Гурковский Алексей Геннадьевич Тепловые шумы и динамические неустойчивости в лазерных гравитационно-волновых антеннах второго поколения Специальность 01.04.01 приборы и методы экспериментальной физики Автореферат диссертации на соискание ученой степени кандидата физико-математических наук Москва-2011 Работа выполнена на кафедре физики колебаний Физического факультета Московского государственного университета имени М. В. Ломоносова. Научный руководитель : доктор...»

«Мордовкин Дмитрий Сергеевич ИССЛЕДОВАНИЕ И ОПТИМИЗАЦИЯ ТЕХНОЛОГИИ НАГРЕВА НЕПРЕРЫВНОЛИТЫХ СЛЯБОВ В МЕТОДИЧЕСКИХ ПЕЧАХ Специальность 05.16.02 – Металлургия чёрных, цветных и редких металлов АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Липецк – 2011 Работа выполнена на кафедре теплофизики федерального государственного бюджетного образовательного учреждения высшего профессионального образования Липецкий государственный технический университет....»

«Маринин Мстислав Оганесович ВНЕШНЯЯ ПОЛИТИКА РОССИЙСКОЙ ИМПЕРИИ В УСЛОВИЯХ ЕВРОПЕЙСКОГО КРИЗИСА 1830-31 гг. Специальность 07.00.02 – Отечественная история АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата исторических наук Москва 2013 Работа выполнена на кафедре региональных исследований факультета иностранных языков и регионоведения Федерального государственного бюджетного образовательного учреждения высшего профессионального образования Московский...»

«УДК 622.692.4.07 Ланге Борис Степанович Разработка методологии комплексной оценки качества магистральных трубопроводов в процессе строительного контроля Специальность: 25.00.19 – Строительство и эксплуатация нефтегазопроводов, баз и хранилищ (технические наук и) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Москва, 2012г. 2 Работа выполнена в Российском государственном университете нефти и газа им. И.М. Губкина Научный руководитель : доктор...»

«Михайлова Светлана Юрьевна КОНФЕДЕРАЦИЯ КАК МЕЖДУНАРОДНОПРАВОВОЕ ОБЪЕДИНЕНИЕ ГОСУДАРСТВ: вопросы теории и практики Специальность: 12.00.10 – Международное право. Европейское право АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата юридических наук Казань – 2006 2 Работа выполнена на кафедре международного права и международных отношений Института права Башкирского государственного университета Научный руководитель кандидат юридических наук, доцент Р.Ф. Хабиров...»

«Томилин Максим Михайлович РАЗРАБОТКА МЕТОДИКИ ПРОЕКТИРОВАНИЯ ЭКРАНОВ БОРТОВЫХ КАБЕЛЕЙ КОСМИЧЕСКИХ АППАРАТОВ ДЛЯ ОБЕСПЕЧЕНИЯ ПОМЕХОЗАЩИЩЁННОСТИ ПРИ ВОЗДЕЙСТВИИ ЭЛЕКТРОСТАТИЧЕСКИХ РАЗРЯДОВ Специальность 05.13.05 Элементы и устройства вычислительной техники и систем управления Автореферат диссертации на соискание учёной степени кандидата технических наук Москва 2011 Работа выполнена на кафедре Теоретическая электротехника Московского авиационного института (национального...»

«УДК 323.2 Чарина Анна Михайловна Этнический фактор в развитии региональных политических элит (на примере финно-угорских регионов Российской Федерации) Специальность 23.00.05. – Политическая регионалистика. Этнополитика. Автореферат диссертации на соискание ученой степени кандидата политических наук Саратов - 2012 1 Работа выполнена на кафедре управления социально-политическими процессами автономного образовательного учреждения высшего профессионального образования Республики...»

«Костинский Сергей Сергеевич СНИЖЕНИЕ ПОТЕРЬ ЭЛЕКТРОЭНЕРГИИ В ТРАНСФОРМАТОРАХ РАСПРЕДЕЛИТЕЛЬНЫХ СЕТЕЙ ВНУТРЕННИМ СИММЕТРИРОВАНИЕМ ИХ НАГРУЗОК Специальность 05.14.02 – Электрические станции и электроэнергетические системы АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук НОВОЧЕРКАССК 2013 Работа выполнена в ФГБОУ ВПО Южно-Российский государственный технический университет (Новочеркасский политехнический институт) на кафедре Электроснабжение...»

«Маркина Юлия Валерьевна СОВЕРШЕНСТВОВАНИЕ РЕСУРСНОГО ОБЕСПЕЧЕНИЯ ИННОВАЦИОННОГО РАЗВИТИЯ ЭКОНОМИКИ РЕГИОНА Специальность: 08.00.05 — экономика и управление народным хозяйством (региональная экономика) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Челябинск — 2012 Диссертационная работа выполнена на кафедре региональной и мировой экономики ФГБОУ ВПО Челябинский государственный университет. доктор экономических наук, профессор Научный...»

«ЛИТВИНОВА ВЕРА АНАТОЛЬЕВНА РАЗРАБОТКА РЕЦЕПТУР И ТОВАРОВЕДНАЯ ОЦЕНКА МЯСНЫХ ПОЛУФАБРИКАТОВ С ИСПОЛЬЗОВАНИЕМ РАСТИТЕЛЬНОГО СЫРЬЯ Шифр: Д 212.122.05 Специальность – 05.18.15 Технология и товароведение пищевых продуктов и функционального и специализированного назначения и общественного питания АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Москва, 2012 РАБОТА ВЫПОЛНЕНА НА КАФЕДРЕ ТЕХНОЛОГИЯ ПРОДУКТОВ ПИТАНИЯ И ЭКСПЕРТИЗА ТОВАРОВ ФГБОУ ВПО...»

«ТЕСЛЕНКО ИРИНА БОРИСОВНА ИНСТИТУЦИОНАЛЬНЫЙ АНАЛИЗ ТРАНСФОРМАЦИОННЫХ ПРОЦЕССОВ В РОССИЙСКОЙ ЭКОНОМИКЕ Специальности: 08.00.01 – Экономическая теория Автореферат диссертации на соискание ученой степени доктора экономических наук Владимир - 2009 Работа выполнена во Владимирском государственном гуманитарном университете Научные консультанты: д. э. н., доцент Дигилина Ольга Борисовна Официальные оппоненты : Д. э. н., профессор Кадомцева С.В., профессор кафедры политической...»

«МАТВЕЙКИНА Юлия Игоревна МЕСТОИМЕНИЯ В ЯЗЫКЕ СОВРЕМЕННОЙ ПРОЗЫ: ФУНКЦИОНАЛЬНЫЙ АСПЕКТ (НА МАТЕРИАЛЕ ПРОИЗВЕДЕНИЙ В.О. ПЕЛЕВИНА И С.Д. ДОВЛАТОВА) Специальность 10.02.01. – Русский язык Автореферат диссертации на соискание учёной степени кандидата филологических наук Санкт-Петербург – 2011 Работа выполнена на кафедре русского языка филологического факультета Санкт-Петербургского государственного университета. Научный руководитель...»

«ПАПИНА Ольга Витальевна РОЛЬ ЖЕНЩИН В СОЦИАЛЬНОМ И КУЛЬТУРНОМ РАЗВИТИИ ХАКАСИИ 1923-1941 гг. Специальность 07.00.02 – отечественная история АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата исторических наук Улан-Удэ ·2008 2 Работа выполнена на кафедре истории России ГОУ ВПО Хакасский государственный университет им. Н.Ф. Катанова Научный руководитель : доктор исторических наук, профессор Тугужекова Валентина Николаевна Официальные оппоненты : доктор исторических...»

«Добровольский Александр Александрович Электронный транспорт и фотопроводимость в нанокристаллических пленках PbTe(In) Специальность 01.04.10 - физика полупроводников Автореферат диссертации на соискание ученой степени кандидата физико-математических наук Москва – 2010 Работа выполнена на кафедре общей физики и магнитоупорядоченных сред физического факультета МГУ имени М. В. Ломоносова Научные...»

«Деденева Светлана Сергеевна ЭЛЕКТРОХИМИЧЕСКИЕ СЕНСОРЫ ДЛЯ ОПРЕДЕЛЕНИЯ МОЧЕВИНЫ И КРЕАТИНИНА В БИОЛОГИЧЕСКИХ ЖИДКОСТЯХ Специальность 02.00.02 – Аналитическая химия Автореферат диссертации на соискание ученой степени кандидата химических наук Казань – 2010 2 Работа выполнена на кафедре физики и химии ГОУ ВПО Уральский государственный экономический университет Научные руководители: заслуженный деятель науки РФ, доктор химических наук, профессор Брайнина Хьена Залмановна...»

«КАЛИМУЛЛИН Фарид Масгутович КОМПЛЕКСНАЯ СИСТЕМА КОНТРОЛЯ КАЧЕСТВА ПОДГОТОВКИ СПЕЦИАЛИСТОВ В ПРОФЕССИОНАЛЬНО-ПЕДАГОГИЧЕСКОМ КОЛЛЕДЖЕ 13.00.01 — общая педагогика, история педагогики и образования Автореферат диссертации на соискание ученой степени кандидата педагогических наук Казань - 2003 Работа выполнена в лаборатории методологии и теории среднего профессионального образования Института среднего профессионального образования РАО. Научный руководитель : член-корреспондент...»

«Дышлюк Ирина Станиславовна СОДЕРЖАНИЕ ИСТОРИЧЕСКОГО ОБРАЗОВАНИЯ КАК ФАКТОР МЕЖПРЕДМЕТНОЙ ИНТЕГРАЦИИ В ШКОЛЕ 13.00.01-общая педагогика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата педагогических наук Ростов-на-Дону-2000г. Работа выполнена на кафедре педагогики и педагогической психологии Ростовского государственного университета Научный руководитель : доктор педагогических наук, профессор Фоменко В.Т. Официальные оппоненты : доктор педагогических наук,...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.