Государственное образовательное учреждение
высшего профессионального образования Московской области
«Международный университет природы, общества и человека «Дубна»
(университет «Дубна»)
ИСАУ
кафедра системного анализа и управления
УТВЕРЖДАЮ
проректор по учебной работе
С.В. Моржухина «_»_20 г.
Программа дисциплины Анализ данных Направление подготовки 080500 Бизнес-информатика Профиль подготовки Электронный бизнес Квалификация (степень) выпускника Бакалавр Форма обучения Очная г. Дубна, 2011г.
Программа составлена в соответствии с требованиями ФГОС ВПО с учетом рекомендаций и ПрООП ВПО по направлению подготовки – 080500 «Бизнес-информатика» профиль «Электронный бизнес».
Программа рассмотрена на заседании кафедры системного анализа и управления (название кафедры) Протокол заседания № _ от «» 20 г.
Заведующий кафедрой /проф. Е.Н. Черемисина / (подпись) (ФИО)
СОГЛАСОВАНО
директор института САУ _ /проф. Е.Н. Черемисина/ (подпись) (ФИО) Дата «» _ 20 г.Рецензент: _ (ученая степень, ученое звание, место работы, должность) // (подпись) (ФИО) Дата «» _ 20 г.
Руководитель библиотечной системы _ / В.Г. Черепанова/ (подпись) (ФИО) Дата «» _ 20 г.
1. Цели освоения дисциплины - изучение современных математико-статистических методов анализа данных;
- освоение программных средств обработки и анализа статистической информации на компьютере.
Задачи дисциплины:
- разбор возможностей и ограничений основных методов одномерного и многомерного статистического анализа социологических данных;
- формирование у студентов практических навыков использования компьютерных программ анализа социологических данных на примерах конкретных массивов результатов социологических исследований.
2.Место дисциплины в структуре ООП бакалавриата Дисциплина «Анализ данных» относится к обязательным дисциплинам вариативной части профессионального цикла (Б2.Б.6).
Программа состоит из 5 разделов:
Исследование однородности двух выборок Дисперсионный анализ Анализ статистической взаимосвязи социально-экономических явлений Регрессионный анализ Компонентный и факторный анализ Курс читается студентам бакалавриата направления «Бизнес-информатика». Курс рассчитан на студентов, прослушавших базовые курсы математики, теории вероятностей и математической статистики, а также основ статистики исследований с целью углубления теоретических и практических знаний в области интерпретации и анализа социально-экономической информации.
Перечень дисциплин с указанием разделов (тем), усвоение которых студентами необходимо для изучения дисциплины «Анализ данных»:
Математический анализ (1,2 семестры) Теория вероятностей и математическая статистика (3 семестр) Дифференциальные и разностные уравнения (4 семестр) Изучение дисциплины «Анализ данных» дает основу для изучения как последующих курсов профиля «Электронный бизнес»:
Информационные системы управления производственной компанией ( Информационные технологии бухучета и аудита (4 семестр) Моделирование бизнес-процессов (5 семестр) 3. Компетенции обучающегося, формируемые в результате освоения дисциплины «Анализ данных»
знания:
Результат обучения компетенция Образовательная Вид контроля обоснования проектов внедрения ИТ- решений;
управления бизнесом функциональных бизнес- ОК-8 С1, С2, С3, С4, С5, задач и проектирования профессиональноПК-20 ПР ориентированных информационных систем умения:
Результат обучения компетенция Образовательная Вид контроля поисковые исследования в ОК-6 С11, ПР экономике, управлении и ИКТ;
архитектуры предприятия, развитию инфраструктуры предприятия применение:
Результат обучения компетенция Образовательная Вид контроля инструменты исследований ОК-6 С9, С12-С15, ПР3, моделей и методов совершенствования архитектуры предприятия анализ:
Результат обучения компетенция Образовательная Вид контроля деятельности в сфере ИКТ ОК- 4. Структура и содержание дисциплины «Анализ данных»
Общая трудоемкость дисциплины составляет 4,25 зачетных единиц 154 часа, из них 68 часов аудиторной нагрузки.
Общая трудоемкость Аудиторные занятия:
Практические занятия (ПЗ) Лабораторные работы (ЛР) Самостоятельная работа:
Курсовая работа Расчетно-графические работы Вид промежуточного Содержание раздела Исследование однородности выборок.
Сравнение эффективности критериев Дисперсионный анализ однофакторного Доверительное оценивание контрастов в гауссовской модели.
Анализ статистической взаимосвязи социальноэкономических Шкалы измерений (количественная, порядковая, номинальная).
Исследование связи номинальными переменными Регрессионный анализ Задача линейной регрессии. Проблема выбора вида функции регрессии.
Методы оценивания параметров.
факторный анализ анализа общих факторов ортогонального вращения Раздел 1. Исследование однородности двух выборок Понятие об однородности выборок. Выявление неоднородности, связанной со сдвигом (классический критерий Стьюдента, критерий Вилкоксона, Фишера – Йейтса) или масштабом (классический F- критерий, критерий Ансари-Брэдли). Проверка однородности против альтернатив общего вида (критерий Колмогорова – Смирнова).
Относительная асимптотическая эффективность (ОАЭ) статистических критериев по распределений выборок. Понятие робастности (устойчивости) в терминах кривой чувствительности (IC), IC для статистики Стьюдента и Вилкоксона.
Раздел 2. Дисперсионный анализ Задача однофакторного анализа (классический F-критерий, ранговый критерий Краскела – Уоллиса). Доверительное оценивание контрастов в гауссовской модели.
Критерий Джонкхиера для упорядоченных альтернатив. ОАЭ классического критерия и критерия Краскела – Уоллиса. Задача двухфакторного анализа (F-критерий, ранговый критерий Фридмана, критерий Пейджа). ОАЭ классического критерия и критерия Фридмана.
Раздел 3. Анализ статистической взаимосвязи социально-экономических явлений Шкалы измерений (количественная, порядковая, номинальная). Исследование связи между номинальными переменными (таблица сопряженности признаков, критерий хи-квадрат, меры связи признаков: коэффициенты контингенции, ассоциации, среднеквадратической сопряженности, Пирсона, Крамера). Исследование связи между порядковыми переменными (ранговый коэффициент корреляции Спирмена, коэффициент согласованности Кендалла, коэффициент конкордации). Случайные векторы.
Ковариационная матрица. Независимость и некоррелированность компонент случайного вектора. Выборочный коэффициент корреляции. Частные коэффициенты корреляции.
Анализ структуры и тесноты связи между количественными переменными. Критерий хиквадрат. Измерение тесноты связи при нелинейной зависимости (индекс корреляции и его оценивание по сгруппированным и несгруппированным данным). Анализ множественных связей (множественный коэффициент корреляции, его вычисление и свойства для общих и нормальных моделей).
Раздел 4. Регрессионный анализ Задача линейной регрессии. Проблема выбора вида функции регрессии. Методы оценивания параметров. Свойства МНК оценок. Некоторые критерии проверки адекватности в нормальной регрессионной модели.
Раздел 5. Компонентный и факторный анализ Модель факторного анализа. Методы выделения общих факторов (метод главных компонент, метод главных факторов, метод максимального правдоподобия, метод наименьших квадратов, альфа-факторный анализ Кайзера). Критерий, позволяющий оценить количество общих факторов. Методы ортогонального вращения, позволяющие получить простую факторную структуру (квартимакс, варимакс, эквимакс).
5. Образовательные технологии В учебном процессе, помимо чтения лекций, которые составляют 30% аудиторных занятий, широко используются активные и интерактивные формы (обсуждение отдельных разделов дисциплины, выполнение практических работ и домашних заданий). В сочетании с внеаудиторной работой это способствует формированию и развитию профессиональных навыков обучающихся.
Перечень обязательных видов работы студента:
посещение лекционных занятий;
ответы на теоретические вопросы на семинаре;
решение практических задач и заданий на семинаре;
выполнение домашних работ:
Интерактивные образовательные технологии, используемые в аудиторных занятиях Семестр занятия Методы обучения на лекционных занятиях включают использование средств мультимедийного представления информации (презентации, ролики, схемы, иллюстрации).
Семинарские занятия проходят в компьютерной аудитории, оснащенной необходимым программным обеспечением. Проводится восемь практических работ и задается 5 домашних работ и заключительная контрольная работа. Итогом изучения дисциплины является сдача зачета с оценкой.
ПР2 Определение объема репрезентативной выборки ПР3 Исследование однородности двух совокупностей 4- ПР4 Исследование влияния фактора на конечный 7- ПР5 Исследование влияния главного фактора при 9- наличии мешающего фактора ПР6 Выявление зависимостей у номинальных признаков 11- ПР7 Выявление зависимостей у порядковых переменных 14- ПР8 Анализ структуры и тесноты связи количественных 16- Выявление неоднородности, связанной со сдвигом или Понятие робастности (устойчивости) в терминах кривой Задача однофакторного анализа Задача двухфакторного анализа Исследование связи между порядковыми переменными количественными переменными.
Анализ множественных связей Измерение тесноты связи при нелинейной зависимости Частные коэффициенты корреляции Задача линейной регрессии Методы оценивания параметров Некоторые критерии проверки адекватности в нормальной регрессионной модели.
Модель факторного анализа Методы выделения общих факторов ч. Методы выделения общих факторов ч. Методы ортогонального вращения Д3 Анализ статистической взаимосвязи социально- 7- экономических явлений 6. Оценочные средства для текущего контроля успеваемости, промежуточной аттестации по итогам освоения дисциплины и учебно-методическое обеспечение самостоятельной работы студентов Обобщающий Задания и вопросы на зачете с оценкой:
Вопросы для оценки качества освоения дисциплины 1. Какие выборки называют однородными?
2. Назовите основные типы неоднородности выборок.
3. Опишите условия применимости классических и ранговых критериев для проверки гипотезы об однородности.
4. Какие преимущества и какие недостатки имеют ранговые критерии по сравнению с классическими?
5. Какие критерии применяют для проверки гипотезы об однородности двух выборок?
6. Что такое относительная эффективность по Питмену?
7. Чему равна АОЭ по Питмену критерия Стьюдента по отношению к критерию Вилкоксона, если наблюдения имеют гауссовское распределение?
8.Назовите основные термины дисперсионного анализа.
9. В чем состоит задача однофакторного дисперсионного анализа?
10. В чем состоит задача двухфакторного дисперсионного анализа?
11. Опишите условия применимости классических и ранговых критериев в задачах однофакторного дисперсионного анализа.
12. Как построить доверительный интервал контраста в задаче однофакторного анализа для гауссовских наблюдений?
13. В каких ситуациях следует применять критерий Джонкхиера и критерий Пейджа?
14. Опишите основные типы шкал измерений и допустимые преобразования в этих шкалах.
15. Что такое таблица сопряженности признаков?
16. Дайте определение независимости признаков, измеряемых в номинальной шкале.
17. Как проверить гипотезу о независимости признаков в номинальной шкале?
18. Как проверить гипотезу о независимости признаков в порядковой шкале?
19. Назовите основные коэффициенты, измеряющие связь признаков в номинальной шкале.
20. Что такое коэффициент корреляции? Каковы его основные свойства?
21. Как проверить гипотезу о некоррелированности признаков?
22. В каком случае проверка некоррелированности наблюдений эквивалентна проверке независимости?
23. Как измерить тесноту связи двух нелинейно зависимых переменных?
24. Что такое множественный коэффициент корреляции? Каковы его свойства?
25. В чем состоит задача линейной регрессии?
26. В чем состоит идея метода наименьших квадратов (МНК)?
27. Какие методы оценивания параметров регрессии вам известны?
28. Какими свойствами обладает МНК-оценка параметров регрессии?
29. Опишите модель факторного анализа.
30. Что такое матрица нагрузок?
31. Как можно определить количество общих факторов?
32. Какова цель вращения факторного пространства?
33. В чем состоит геометрическая интерпретация метода главных компонент?
Вариант домашней работы 1.Из 635 зафиксированных отделом ГАИ ДТП 132 произошло по вине водителей-женщин.
Учитывая, что по статистике доля женщин за рулём составляет 30% от общего числа водителей, можно ли считать, что женщины водят аккуратнее мужчин?
2.Средняя стоимость лечения одного пациента-льготника с диагнозом «дуоденит»
составляет (в рублях на ноябрь 2007 года):
Дальневосточный фед. округ Приволжский фед. округ Одинакова ли средняя стоимость лечения льготников в Дальневосточном и Приволжском федеральных округах?
3.Проведен социологический опрос 655 человек. Каждый из опрошенных отвечал на два вопроса. Вопрос А: «Удовлетворены ли Вы своим образом жизни?» (варианты ответов: да, нет). Вопрос В: «Каково Ваше материальное положение?» (варианты ответов: плохое, ниже среднего, среднее, выше среднего, хорошее. Результаты опроса сведены в следующую таблицу:
Имеется ли зависимость между материальным положением (признак В) и удовлетворенностью образом жизни (признак А) ?
Прокомментируйте характер связи между А и В с помощью коэффициентов Пирсона, Крамера, среднеквадратической сопряженности, мер прогноза Гутмана, мер прогноза Краскела-Гудмана.
4. В таблице представлены данные за 1997 год показателей X (индекс человеческого развития) и Y (суточная калорийность питания населения, ккал на душу) для следующих стран: Австрия, Аргентина, Великобритания, Германия, Египет, Норвегия, Украина, Республика Корея, ЮАР, США.
X 0.904 0.827 0.918 0.906 0.616 0.927 0.721 0.852 0.695 0. Являются ли показатели X и Y зависимыми?
Вариант контрольной работы 1.В случайной выборке из 388 мужчин Северного региона, полностью занятых в промышленном производстве, выборочное среднее еженедельных заработков составило 22,52, выборочная дисперсия 36 2. Известно, что средний заработок всех мужчин, полностью занятых в промышленном производстве, равен 24,44. Свидетельствуют ли эти данные о том, что средний заработок мужчин Северного региона, полностью занятых в промышленном производстве, ниже, чем в целом по стране?
2.Уровень гистамина в мокроте у 7 курильщиков, склонных к аллергии, составил (в микрограммах): 102,4; 100,0; 67,6; 65,9; 64,7; 39,6; 31,2, а у курильщиков, несклонных к аллергии: 48,1; 45,5; 41,7; 35,4; 29,1; 18,9; 58,3; 66,8; 71,3; 94,3. Верно ли предположение о том, что уровень гистамина у курильщиков, подверженных аллергии, выше, чем у неаллергенов? Принять уровень значимости равным 0,05.
3.В городскую администрацию поступила просьба о переносе автобусной остановки.
Сколько жителей микрорайона надо опросить, чтобы с точностью до 0,03 оценить долю людей, считающих перенос остановки целесообразным? Результат должен быть гарантирован на уровне доверия 0,95. Известно, что в данном микрорайоне проживает 4000 человек.
4.Три группы случайно отобранных людей обучались навыкам скорочтения тремя разными методами. В конце обучения проводился зачет, на котором оценивалась скорость чтения. Обучающиеся показали следующие результаты (страниц за 10 минут). Первая группа: 20, 23,24, 24,25,26, 28, 30, 31, 32. Вторая группа: 38, 42, 42, 44, 47, 48, 49, 50, 51, 52. Третья группа: 29, 32, 33, 35, 35, 37, 38, 39, 40, 42. Можно ли считать на уровне значимости 0,05, что предлагаемые методы обучения имеют различную эффективность?
Методика формирования результирующей оценки включает сдачу практических и домашних работ, посещение всех занятий, что является допуском к сдаче зачета.
Итоги посещаемости и успеваемости фиксируются в промежуточных контрольных точках (8, 12, 16 недели обучения) при помощи трех значений:
«0» – студент имеет низкую посещаемость и успеваемость (много «1» – студент имеет среднюю посещаемость и не все задания сдал;
«2» – студент имеет посещаемость и сдачу заданий на 90-100%.
Результирующая оценка по дисциплине (сдача зачета с оценкой) формируется следующим образом:
«неудовлетворительно» – студент не сдал все задания и не ответил на «удовлетворительно» – студент имеет допуск к зачету, но не все задания сданы или отвечает менее, чем на 40%, вопросов;
«хорошо» – студент сдал все задания и отвечает 40-80% вопросов;
«отлично» – студент сдал все задания и ответил на все вопросы.
Руководство работой студентов со стороны преподавателя осуществляется в следующих формах:
- требование вести конспекты, обучение конспектированию;
- контроль за выполнением: просмотр конспектов – по ходу лекции, после лекции, на семинарских занятиях;
- использование приемов управления вниманием: контрольные вопросы, риторические вопросы, варьирование интонацией, другие ораторские приемы;
- использование приемов закрепления: повторение основных положений и выводов с использованием различных формулировок, вопросы к аудитории на проверку внимания;
- проведение тестовых самостоятельных работ по вопросам предыдущих лекций, относительно изученного раздела.
Форма проверки знаний студентов (степени овладения компетенциями) по результатам работы на семинарах включает контроль непосредственного участия студента в работе на семинаре (присутствие), выполнение заданий на семинаре или сдачу заданий, взятых на дом, а также сдачу отчетов по выполнению практических работ.
Общая картина успеваемости студента складывается из посещаемости и сдачи всех заданий, что при полном выполнении дает право на допуск к зачету.
7. Учебно-методическое и информационное обеспечение дисциплины 1. Кибзун А.И., Горяинова Е.Р., Наумов А.В. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами. – М.:Физматлит, 2. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: Инфра. – М, 3. Сажин Ю.В., Сарайкин Ю.В., Басова В.А., Катынь А.В. Многомерные статистические методы анализа экономических процессов. Саранск: Изд-во Мордов. унта, 2008. – 288с.
Дополнительная литература 1. Леоненков А.В. Решение задач оптимизации в среде MS Excel. – СПб.: БХВПетербург, 2005. – 704 с.
2. Уэйн Л. Винстон. Microsoft Excel: анализ данных и построение бизнес-моделей.
– М.: издательско-торговый дом «Русская Редакция», 2005. – 576 с.
8. Материально-техническое обеспечение дисциплины.
Cпециализированный компьютерный класс (ауд. 1-307, 1-321, 1-322, 1-318), подключенный к сети Интернет и к локальной сети университета (директория GROUPS для обучающихся), обеспечивающей доступ к программному обеспечению для проведения семинарских занятий:
Программа составлена в соответствии с требованиями ФГОС ВПО с учетом рекомендаций и ПООП ВПО по направлению и профилю подготовки 080500 Бизнесинформатика.
Рецензент: _ // (ученая степень, ученое звание, Ф.И.О., место работы, должность)