WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Pages:     || 2 | 3 |

«МЕТОДЫ ТЕМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ТЕКСТА (НА ПРИМЕРЕ ОБРАЗА РОССИЙСКОЙ ФЕДЕРАЦИИ В NEW YORK TIMES) ...»

-- [ Страница 1 ] --

Федеральное государственное автономное образовательное

учреждение высшего профессионального образования

«Национальный исследовательский университет

«Высшая школа экономики»

На правах рукописи

Просянюк Дарья Вячеславовна

МЕТОДЫ ТЕМАТИЧЕСКОЙ КЛАССИФИКАЦИИ

ТЕКСТА (НА ПРИМЕРЕ ОБРАЗА РОССИЙСКОЙ ФЕДЕРАЦИИ

В NEW YORK TIMES)

Специальность: 22.00.01 – Теория, методология и история социологии Диссертация на соискание ученой степени кандидата социологических наук

Научный руководитель:

кандидат социологичеких наук, доцент Г.В. Градосельская Москва - Содержание Введение

Глава 1. Подходы к проведению тематического анализа текстов............... §1. Способы отбора источников

§2. Формализованный подход: кластерный анализ, тематическое моделирование

§3. Эвристический подход: тематический анализ

§4. Стратегия смешивания методов (mixed methods research).................. Резюме

Глава 2. Теоретико-методологические основания изучения образа Российской Федерации в средствах массовой информации

§1. Образ России как междисциплинарное понятие

§2. Ключевые ценности американского общества

§3. Новости как дискурс

Резюме

Глава 3. Описание и апробация алгоритма тематической классификации текста в рамках стратегии смешивания методов

§1. Описание алгоритма проведения исследования

§2. Образ России как интегральное понятие

§3. Ценности американского общества в статьях «Нью-Йорк таймс» о России

Резюме

Заключение

Список использованной литературы

Приложение 1.

Приложение 2.

Введение Актуальность темы исследования Стремительное распространение технологий производства, обработки, трансляции и хранения информации в текстовом виде, лавинообразный рост и широкая доступность данных в электронном виде, а также повышение роли информации как ресурса и основы принятия решений обусловили запрос на разработку автоматизированных средств обработки и анализа текстовых данных.

В настоящее время мы являемся свидетелями интервенции данных1, формализованных методов анализа текстовых что обусловливает завышенные ожидания к возможностям автоматизированных средств и их неадекватное использование.

Основными причинами завышенных ожиданий, на наш взгляд, является агрессивная маркетинговая политика корпорацийразработчиков специализированного программного обеспечения, акцентирующая внимание на возможности практически полного исключения человека при сборе, обработке и анализе информации;

низкий уровень осведомленности пользователей об алгоритмах и ограничениях методологий, лежащих в основе того или иного программного продукта; а также исключительно небольшое количество междисциплинарных научных исследований, направленных на решение задач определения «границ» и условий применения формализованных методов анализа текстовых данных в гуманитарных науках (которые являются одним из их основных «потребителей»).

Формализованные методы анализа текстовых данных развиваюся обособленно, чаще в технических дисциплинах, таких как искусственный интеллект, нейросетевое моделирование, лингвистическое обеспечение систем автоматизированного проектирования и программирования и пр.

гуманитарных исследований, содержащих этап обработки текстовой информации (в том числе ответы на открытые вопросы анкеты, транскрипты интервью и фокус-групп, тексты новостей и пр.), продолжают использовать традиционные методы анализа, основанные категоризации и пр. Основными причинами устойчивого применения традиционных методов анализа текстовых данных, на наш взгляд, является определенная степень инерционности методической составляющей исследований; неизученность, и, как следствие, отсутствие доказательств надежности и валидности формализованных методов при решении конкретных задач социального анализа; а также отсутствие исследований, посвященных верификации возможностей и текстовых данных.

Таким образом, в настоящее время наблюдается значительный разрыв между потенциальными возможностями формализованных методов анализа текстовых данных и фактическим использованием их потенциала. Использование формализованных методов для анализа больших массивов текстовых данных для решения задач социального анализа является скорее новаторством, чем нормой. Возможно, по причине того, что применение методов не стало нормой, они используются не всегда корректно и адекватно поставленным задачам.

Несмотря на взрывной рост количества методов и алгоритмов формализованного тематического анализа, крайне малочисленны исследования, дающие представления и конкретные руководства Под эвристическими алгоритмами понимается способ анализа данных и решения задач, не имеющий строгого обоснования, но дающий приемлемые решения в большинстве практически значимых задач.

эмпирическому исследователю-гуманитарию об их специфике, достоинствах и недостатках. Узконаправлены и немногочисленны исследования, сфокусированные на сравнительной оценке применимости отдельных направлений методов анализа текстовых данных в конкретных исследовательских ситуациях, определяющие роль эвристических алгоритмов в процессе анализа. Следствием является отсутствие пошагового алгоритма анализа корпуса текстовых данных, основанного и направленного на решение конкретной задачи социального анализа, необходимого в эмпирических исследованиях.



Сказанное позволяет считать, что работа, направленная на изучение специфики и ограничений методов формализованного анализа текстовых данных и разработку стратегий их интеграции с эвристическими методами является актуальной. Подобная схема поможет систематизировать и адаптировать основные наработки точных наук в области анализа текстовых данных, продемонстрирует области единоличного «господства» каждого из направлений анализа, поспособствует очерчиванию круга типовых задач, потенциально интересных для решения формализованными методами. Также подобное руководство может быть тиражировано и адаптировано для решения широкого круга научных и практических задач.

Разработанность проблемы Мы исходим из предположения, что определение типов и конкретных параметров методов тематической классификации текста зависит от задач исследования. Поэтому круг проанализированных в диссертации работ содержит публикации, посвященные как современным методам и алгоритмам тематической классификации текста, так и работы, связанные с содержательным фокусом Российской Федерации в одном из наиболее влиятельных американских и мировых изданий – «Нью-Йорк таймс». Интерес и актуальность изучения данного объекта обусловливаются важностью в информационном обществе образа страны для адекватного диалога между странами на различных уровнях.

Проанализированные исследования, посвященные проблеме формирования и восприятия образа Российской Федерации, были объединены в несколько направлений. Они сфокусированы на политической, географической, политико-психологической, детерминанте в подходе к изучению образа Российской Федерации.

Ни в одной из дисциплин исследователи не уделяют внимания эмпирического анализа образа Российской Федерации.

В спектре современных методов анализа текста в гуманитарных науках можно выделить два основные подхода к тематической представлен в программных продуктах, в которых используется подход «мешок слов» (bag of words). Основной гипотезой данного подхода является предположение о том, что порядок следования слов в тексте не имеет значения для анализа, текст рассматривается как неупорядоченная совокупность слов. В упрощенном варианте каждое слово имеет равный «вес», порядок документов в корпусе (также как и порядок слов в тексте) не имеет значения, слова, встречающиеся часто исключаются из анализа, разные формы слов считаются одним словом. Одно из первых упоминаний данного похода мы находим у формализованные подходу к анализу текста, основанные на подходе К. Маннингом, П. Рагхаваном и Х. Шютце, Д. Блэйем, Д. Мимно, А. Даудом, Б. Лью, К. В. Воронцовым и А. А. Потапенко и многими другими.

Очевидное преимущество данного подхода к анализу текста состоит в возможности обработки больших корпусов текстов. В целом, в современных условиях основным ограничением являются технические возможности компьютеров. Вторым преимуществом является объективность кодирования – на этапе обработки данных полностью исключено человеческое влияние, а, следовательно, риск субъективности. В качестве недостатков данного подхода следует отметить учет исключительно прямого значения слов, неразличение жанров, скрытых смыслов, коннотаций и пр. Также необходимо указать на технические сложности. Особенно явно проблемы проявляются при работе с русским языков, сложность которого лемматизации), учет синонимии, анафорических связей4 и пр.). Одним из недостатков данного подхода является определение темы как совокупности слов в тексте, в то время как зачастую семантика, наиболее точно описывающая проблему текста, не эксплицирована.

Данный недостаток призван компенсировать альтернативный метод эвристический тематический анализ.

Нормализация - приведение всех словоформ одного слова к единой основе. Целью нормализации является уменьшение количества уникальных слов, то есть снижение размерности текста.

Существует два вида первого этапа нормализации текста: лемматизация (lemmatization) и стэмминг (stemming). Первый предполагает приведение каждого слова в словарную форму (лемму) (существительное – именительный падеж, единственное число, глагол – неопределенная форма и пр.), второй – приведение слова к его основе (морфеме) путем «обрезания» (окончаний, суффиксов и пр.), чтобы оставшаяся часть была одинаковой для всех грамматических форм.

Лемматизация является более эффективной, так как использует словари и опирается на контекст, стэмминг намного более грубый алгоритм, но более быстрый. В нашей работе при проведении эмпирического анализа применялась лемматизация.

Анафорические связи в тексте – отношения между частями текста (между словами, словосочетаниями, высказываниями), при которых в смысл одного слова (словосочетания, высказывания) входит отсылка к другому слову (словосочетанию, высказыванию).

Неформализованный, эвристический тематический анализ рассматривает текста как совокупность смыслов. Всякий текст трактуется как авторское описание и представление проблемы, реализуемое с помощью целенаправленного конструирования социальных смыслов. Исследователя интересует, скорее, выявление и толкование смыслов, явно и неявно транслируемых автором, интерпретация проблем, реконструкция позиций и типов аргументации, интерпретация авторского видения социальной реальности. Эвристический тематический анализ восходит к теории аргументации, основан на индуктивном подходе, который, в первую очередь, имеет описательный характер и поисковые задачи.

Эвристический тематический анализ требует активного участия и интерпретации со стороны исследователя. Он выходит за рамки подсчета слов или фраз и сосредоточивается на выявлении и описании явных и неявных идей в текстах, то есть тематической структуры текста. При проведении анализа разрабатываются коды - маркеры тем, используемые в дальнейшем анализе. В целом можно отметить наличие двух точек зрения на сущность тематического анализа. Ряд исследователей (Г. Гест, К. МакКуин, Е. Нэйми, В. Браун и В. Кларк) полагают, что тематический анализ является интегральным методом:

он включает в себя процедуры, заимствованные у обоснованной теории, дискурс-анализа и других методов. Метод перенимает методологического арсенала и адаптирует к прикладным исследованиям (автор настоящей работы придерживается данной точки зрения). С другой стороны, существует точка зрения, что тематический анализ не является самодостаточным методом анализа данных, а, скорее, инструментом, который используется другими методами. В любом случае, данных подход достаточно распространен в гуманитарных науках (см., например, работы Д. Сингер и М. Хантер, Х. Рубин и И. Рубин, Г. Тейлор и Дж. Ашер).

Проблема исследования заключается в несоответствии между потенциальными возможностями формализованных методов анализа текстовых данных и обоснованностью их использования. Отсутствует формализованных методов с эвристическими методами анализа текстовых данных Теоретический объект исследования — смешанная (mixed), или интегративная, методология тематического анализа больших текстовых массивов.

Предмет исследования — конфигурация формализованных и эвристических методов на разных этапах реализации интегральной стратегии тематической классификации текста Конфигурация методов рассматривалась на примере текстового массива, репрезентирующего образ Российской Федерации.

Эмпирическим объектом исследования явился корпус статей о Российской Федерации, опубликованных в «Нью-Йорк таймс» в период с августа 2011 г. по июль 2012 г.

Цель исследования – оценить относительную эффективность формализованных и эвристических методов на разных этапах реализации интегральной стратегии тематической классификации последовательно решаются следующие задачи:

тематической классификации текста;

методов тематической классификации текста применительно к кейсу исследований образа России;

формализованных и эвристических методов анализа текстов на примере репрезентаций образа России в «Нью-Йорк таймс» в период 2011–12 гг.;

4) Сравнить оценки свойств тематической структуры массива текстов, полученные альтернативными методами: формализованный тематический анализ (кластерный анализ, тематическое моделирование) vs. эвристический тематический анализ;

5) Сравнить оценки тональности массива текстов, полученные альтернативными методами: метод оценки тональности, основанный на обучении vs. эвристическое кодирование.

Методологические и теоретические основания исследования Методология исследований с использованием смешанных методов описана в работах Дж. Брюэра и А. Хантера, Дж. Красвела, Дж. Грина, В. Карачелли, В. Грэхама, Р. Джонсона и Л. Кристенсена, И. Ньюмана и К. Бентц, А. Ташакорри и К. Тэдди. Исследования Е. Кример и М. Гостон демонстрируют возможности смешивания формализованных и эвристических методов при применении контентанализа.

В более узком смысле теоретико-методологическую базу исследования составляют работы, посвященные основным подходам и алгоритмам методов тематической классификации текста, описывающие основные принципы и этапы применения методов тематической классификации текста. Формализованное направление представлено работами К. Криппендорфа, Р. Поппинга, К. Робертса, А. Дауда. Представление методов эвристического блока основано на работах Г. Геста, К. МакКуин, Е. Нэйми, В. Браун и В. Кларк.

Различение структурных элементов новостного сообщения как обособленных единиц анализа основано на подходе Т. Ван Дейка к новостям как особому типу дискурса.

Применительно к кейсу исследований образа России были Е.Б. Шестопал, Т.Н. Пищевой, Н.С. Виноградовой, А.Д. Недовой, С. Анхольта, А.П. Панкрухина, А.В. Федорова, В.И. Журавлевой.

Эмпирическая база исследования Эмпирическую базу исследования составляет корпус статей «Нью-Йорк таймс» о России за период август 2011 – июль 2012 г. В данный промежуток времени уровень информационного внимания к событиям в России был достаточно высок, поскольку проходили думские и президентские выборы, а также был назначен новый состав кабинета министров. «Нью-Йорк таймс» был выбран потому, что данное издание традиционно является одной из предпочитаемых элитой газет, одной из наиболее цитируемых политиками, повестка «Нью-Йорк таймс» имеет значительное влияние на общественное мнение. Также данная газета содержит больший объем иностранных новостей, чем другие крупные американские газеты. Кроме того, что нетипично для американской прессы, «Нью-Йорк таймс» уделяет независимых газет в США в сборе информации.

Отбор статей для анализа проходил в несколько этапов и был основан на различении релевантной5 и пертинентной информации6.

Релевантность информации – степень соответствия результатов поиска задаче, поставленной в запросе.

Пертинентность информации – степень соответствия результатов поиска информационной потребности пользователя/исследователя.

Финальный корпус статей для анализа составил 411 статей «НьюЙорк таймс», посвященных России.

Научная новизна исследования заключается в следующем:

Описаны и систематизированы методы тематической классификации текста в рамках двух основных направлений:

формализованного и эвристического. В рамках формализованного подхода выделены два направления анализа: с известными априори категориями (метод анализа тональности, контент-анализ) и неизвестными категориями (кластерный анализ, тематическое моделирование). Проведенная систематизация демонстрирует методные альтернативы для решения типовых задач социального анализа, а также предлагает возможные стратегии алгоритмизации в рамках каждого из подходов.

тематической классификации текста в рамках стратегии смешивания формализованных и эвристических методов тематической классификации текста: многоступенчатый отбор данных (основанный на различении релевантной и пертинентной информации), определение единиц анализа, контент-анализ, определение тональности заголовков, классификация заголовков, описание кластеров заголовков; контент-анализ, классификация, выделение основных тем текстов статей; описание и анализ каждой темы.

Обосновано выделение контекстуальных факторов, учет которых необходим для изучения любого тематически выделенного корпуса текстов, дано их модельное описание. В частности, обобщены подходы к изучению образа России в СМИ. По эпистемологическим и методологическим основаниям выделено шесть направлений в исследовании факторов формирования образа страны: политическое, географическое, психологическое, маркетинговое, историкокультурное и социологическое.

На примере сравнения и оценки качества результатов тематического анализа, проведенного альтернативными методами, показано, что применение эвристических процедур кодирования значительно улучшает качество полученных результатов. В качестве альтернативных способов решения задачи тематического анализа тематическое моделирование, эвристический тематический анализ.

В качестве дополнительного к методическому результата эмпирического исследования показано, что при описании событий в России авторы «Нью-Йорк таймс» апеллируют к традиционным ценностям американского общества. По результатам проведения контент-анализа продемонстрировано, что в большинстве статей предпринимательство». Возможно, в этом кроется причина репрезентируемого носителями ценностей американского общества.

Основные положения, выносимые на защиту В работе с данными с многозначной операционализацией стратегия смешивания методов позволяет повысить качество (точность, правдоподобность, дифференцированность) результатов анализа.

использования простого поискового запроса.

По сравнению с формализованным методом анализа (реализованного методами кластерного анализа7, тематического дифференцированную тематическую структуру заголовков статей.

Применение стратегии смешивания методов, то есть последовательное применение формализованных и эвристических методов, позволило перейти от неправдоподобно различных профилей к правдоподобно сходным профилям тематической структуры, полученных на основе анализа различных сегментов одних и тех же текстов.

повышает качество формализованной оценки тональности текста, реализованной методом обучения с учителем.

Тематическое моделирование имеет преимущество перед кластерным анализом в способности обнаруживать специфические смыслы, «невидимые» для кластерного анализа.

Теоретическая и практическая значимость работы Полученные автором теоретические и методические результаты могут быть использованы представителями различных отраслей знания в теоретических и эмпирических исследованиях.

Во-первых, работа развивает методологию анализа текстовых гуманитарных и точных наук, работа демонстрирует и подчеркивает формализованных и эвристических методов анализа текстовых данных. В работе представлен, поэтапно описан и апробирован Алгоритм двукластерного решения (bisecting k-means), косинусная мера. Использовалось программное обеспечение TLab.

Алгоритм латентного размещения Дирихле. Использовалось программное обеспечение TLab.

алгоритм отбора источников, выделения единиц анализа и обработки корпусов текстовых данных, основанный на интеграции различных методов анализа, который может быть использован в качестве методических рекомендаций при проведении эмпирических исследований.

Во-вторых, классификация подходов к анализу образа страны и предложенный способ определения и изучения образа страны в СМИ могут быть использованы для дальнейшего, более комплексного и глубокого изучения образа России. На основании полученных результатов могут быть сформулированы конкретные рекомендации по планированию и проведению кампаний по улучшению образа России, координации действий всех заинтересованных сторон:

государства, СМИ, общественных объединений, бизнеса и пр.

Наконец, в педагогической сфере результаты диссертационного исследования могут быть использованы в рамках курсов по методологии анализа социологических данных, научноисследовательских семинаров, а также могут стать основой специального учебного курса по методам анализа текстовых данных.

Апробация результатов Основные положения диссертации были апробированы в научных публикациях автора, а также в докладах на X Конференции Европейской Социологической Ассоциации «Social Relations in turbulent times» (Женева, 2011), VIII Конференции по применению сетевого анализа (Цюрих, 2011), научно-практической Конференция памяти А.О. Крыштановского «Современная социология - современной России» (Москва, 2012), научном семинаре научно-учебной группы «Сетевые методы и модели в анализе текстовой информации» (Москва, 2012, 2013), VII Конференции памяти Юрия Левады «Современное российское общество и социология (Москва, 2013), Всероссийской научно-практической конференции Института социологии РАН «Модернизация отечественной системы управления: анализ тенденций и прогноз развития» (Москва, 2013). Диссертация была обсуждена на заседании кафедры методов сбора и анализа социологической информации факультета социологии НИУ ВШЭ.

Полученные в диссертации результаты встроены в процесс преподавания семинарских занятий по курсу «Социальные сети» ( курс магистратуры, специализация «Прикладные методы социального анализа рынков»). По результатам исследования опубликованы статьи в изданиях, рекомендованных ВАК Министерства образования и науки РФ.

Работы, опубликованные автором в ведущих рецензируемых научных журналах и журналах, рекомендованных ВАКом Министерства образования и науки России:

Просянюк Д.В. Теоретико-методологические основания изучения образа России // Человек. Сообщество. Управление. 2012.

№ 4. С. 32-47.

Просянюк Д.В. Образ России в призме социально-проектных и информационных технологий // Власть. 2014. № 1. С. 50-54.

Просянюк Д.В. Роль СМИ в формировании образа России // Проблемы теории и практики управления. 2014. № 3. С. 109-115.

Другие публикации:

Просянюк Д.В. Содержательные основания выделения границ Интернет-сетей // В кн.: Современная социология — современной России: Сборник статей VI международной научно-практической конференции памяти А.О. Крыштановского / Науч. ред.: А.Б. Гофман, Г.В. Градосельская, И.Ф. Девятко, Д.Х. Ибрагимова, И.М. Козина, Л.Я. Косалс, В.А. Мансуров, В.Г. Николаев, О.А. Оберемко, Н.Е. Покровский, Ю.Н. Толстова, А.Ю. Чепуренко, Е.Р. ЯрскаяСмирнова. М.: Издательский дом НИУ ВШЭ, 2012. С. 561-581.

применением сетевого подхода (пример обсуждения вступления РФ во Всемирную торговую организацию) // В кн.: Социологические методы в современной исследовательской практике: Сборник статей, посвященный памяти первого декана факультета социологии НИУ ВШЭ А.О. Крыштановского [Электронный ресурс] / Отв. ред.:

О.А. Оберемко. М.: Издательский дом НИУ ВШЭ, 2011. С. 352-357.

Глава 1. Подходы к проведению тематического анализа текстов Глава посвящена аналитическому обзору двух направлений тематического анализа – формализованному и эвристическому.

Первый взгляд на текст обобщен в подходе «мешок слов»

(bag of words).

предположение о том, что порядок следования слов в тексте не имеет значения для анализа, текст рассматривается как неупорядоченная совокупность слов. Эвристический тематический анализ основан на рассмотрении текста как совокупности смыслов. В настоящей главе автор обосновывает интеграцию двух подходов к тематическому анализу для изучения образа России в рамках стратегии смешивания классификация основных понятий, используемых при проведении анализа текста – слово/словосочетание, концепт, категория и словарь.

Важным этапом любого исследования, обуславливающим финальные результаты, является отбор источников. В целом, основные способы отбора текстовых источников соотносятся с типами выборок и достаточно хорошо разработаны в контент-анализе, основные из них описаны в первом параграфе.

§1. Способы отбора источников Криппендорф [Krippendorff, 2004] выделяет 9 способов отбора текстовых источников:

Случайный отбор. Основная идея простого случайного отбора состоит в том, что каждая единица имеет равную вероятность попасть исследователь должен пронумеровать все единицы исходного корпуса (выпуски журналов, авторы, веб-страницы, выступления, транскрипты, предложения). Затем, с помощью специального средства необходимое количество единиц исследования.

Систематический отбор. В систематическом отборе на первом этапе исследователь случайным образом определяет начальную точку отбора. Затем выбирается каждая k-я единица из списка. В контентанализе систематические выборки применяются, когда имеет место регулярность - в публикации газет и журналов, межличностных взаимодействиях и пр. Интервал k является постоянным, так что он будетсоздавать смещенную выборку, если будет коррелировать с естественным «ритмом» выпуска единиц анализа.

стратифицированного отбора исходный корпус разбивается на подкорпусы (страты). Каждая единица выборки принадлежит только систематическую выборку для каждой страты отдельно. Каждый подкорпус может быть представлен пропорционально его размеру или в соответствии с любым другим априорным предположением. Газеты, например, могут быть отобраны с разбивкой по географическим ареалам, по частоте публикаций, по размеру читательской аудитории и пр.

Вероятностный отбор. Применение вероятностного отбора целесообразно в случае, когда исследователь полагает, что единицы исследования. В таком случае каждой единице присваивается вероятность «быть полезной» для решения задач исследования.

Кластерный отбор. Кластерный отбор применяется в случае, когда невозможно перечислить все единицы анализа, но возможно использовать списки групп (кластеров) единиц. Исследователь выбирает случайно, систематически и стратифицировано несколько кластеров и исследует все единицы, содержащиеся в кластерах.

Снежный ком. Отбор по принципу «снежного кома» является многоступенчатым. Исследователь начинает с исходного образца единицы, к которому он повторно применяет данный набор критериев отбора. Такая рекурсия создает последовательность дополнительных единиц выборки, которые заставляют образец увеличиваться в размерах, пока критерий завершения не будет достигнут.

Целевой отбор. Описанные выше методы отбора основаны на источниках, периодах времени, ситуациях, жанрах и других параметрах, которые не подразумевают внимательного прочтения всего корпуса. Целевой отбор (relevance, purposive), напротив, нацелен на отбор единиц анализа, которые отвечают на исследовательский вопрос [Riffe, Lacy, Fico, 1998].

пользоваться тогда, когда нет информации о размере и структуре исследуемого корпуса. В контент-анализе такая ситуация редка.

Кластерный отбор подразумевает, что у исследователя есть контуры подкорпусов. Снежный ком подразумевает сетевую природу текстов.

Целевая отбор подразумевает знакомство исследователя со всеми текстами корпуса, хотя бы поверхностное. Целевой отбор не является вероятностным. При использовании данного метода отбора исследователь, следуя концептуальной иерархии, последовательно снижает количество единиц анализа. Подразумевается, что выборочные единицы не являются репрезентативными - скорее, они составляют релевантное подмножество.

Сплошной отбор. Корпус текстов, включающий все тексты на данную тему/данного автора называют сплошным. Изучение всех работ одного автора обычно не требует выборки.

исследовании анализируются только доступные документы. Удобен он еще и в том смысле, что исследователю не надо прилагать много усилий для его реализации. Очевидно, что использования подобного рода выборки чревато смещениями, «нечистоплотностью» и субъективностью.

тематическое моделирование Метод тематического анализа имеет особенное положение в спектре методов анализа текста в гуманитарных науках. С одной стороны, существует достаточно большой корпус литературы [см., например, Guest, MacQueen, Namey, 2012; Popping, 2000; Roberts, 1997], самодостаточного метода анализа данных. С другой стороны, существует точка зрения, согласно которой тематический анализ является разновидностью другого метода, будь то контент-анализ [Grimmer, 2013] или обоснованная теория [Boyatzis, 1998; Ryan, Bernard, 2000; Страусс, Корбин, 2001]. Мы придерживаемся первой точки зрения, полагая, что тематический анализ является самостоятельным методом анализа текста.

Тематический анализ – это метод выявления, описания и анализа определенных образцов (patterns), тем в тексте [Braun, Clarke, 2006]. Прежде, чем приступить к описанию основных понятий и подходов, представим вниманию читателя сводную таблицу, в которой проиллюстрировано соотношение основных понятий, используемых при проведении анализа текста – слово/словосочетание, концепт, категория и словарь (таблица 1). Как видно, единственной эмпирически наблюдаемой переменной (будь то bottom-up или topподход) является лексическая единица (слово или down словосочетание). Остальные инструменты анализа являются теоретически конструируемыми – они имеются у исследователя до начала анализа (top-down подход) или формируются во время и по результатам проведения анализа (bottom-up подход).

Таблица 1. Основные понятия, используемые исследователем при проведении анализа текста наблюдаемая переменная. Идея, конструируемая переменная.

Эксплицированная смысловое зерно, Совокупность репрезентация репрезентация которое может быть концептов схожего теории в концепта выражено одним или смысла/коннотаций текстовых Слово Словосочетание Слово Словосочетание Премьер-Министр Ключевым понятием тематического анализа является понятие «тема» текста/корпуса текстов. Толковый словарь русского языка под редакцией С. И. Ожегова определяет тему как «предмет, основное содержание рассуждения, изложения, творчества» [Ожегов, Шведова,1999]. Р. Поппинг дает следующее определение: «Тема – это совокупность концептов различного смысла/коннотаций, рассматриваемых вместе под одной темой/вопросом (issue)» [Popping, 2000: 23]. Т. Ван Дейк под темой (топиком) понимает резюме, сформулированное с помощью одного или нескольких предложений, выражающих основное содержание информационного сообщения.

[Ван Дейк, 1989]. Другими словами, тема - это «итог» того, что сказано или написано [Jones, 1977]. Браун и Кларк описывают тему непосредственное отношение к исследовательскому вопросу [Braun, Clarke, 2006]. На наш взгляд, именно это определение отвечает задачам настоящего обзора – его мы и будем использовать в качестве рабочего.

В современном спектре исследовательских методов можно выделить, как минимум, два способа проведения тематического анализа – эвристический и формализованный. Ниже мы рассмотрим основные положения и выделим преимущества и недостатки каждого из них.

Современные формализованные методы призваны проводить адаптированы методы, нацеленные на облегчение анализа больших корпусов текстов представителям гуманитарных наук. Далее в нашей работе мы опишем основные группы методов данного направления (те, что используются в нашей эмпирической части, будут описаны подробнее), выявим распространенные заблуждения и ошибки, и текстовые методы в научных исследованиях в поле социальных наук.

Подчеркнем, что сложность обработки естественного языка подразумевает, что автоматизированные методы анализа никогда не заменят тщательного и внимательного прочтения текстов человеком.

Напротив, методы, которые мы описываем, лучше рассматривать в качестве вспомогательного инструмента для улучшения результатов внимательного прочтения и вдумчивого анализа. Кроме того, автоматизированные методы анализа являются неправильными моделями языка. Это означает, что применение любого метода на новом корпусе данных не может давать гарантированные результаты, и поэтому проверка имеет важное значение при применении автоматизированных методов анализа текстов.

Единицей анализа для данных методов является текст или документ. Совокупность изучаемых текстов мы называем корпусом текстов. Прежде чем перейти к подробному описанию, мы предлагаем дорожную карту нашего обзора.

На рисунке 1 представлен визуальный обзор формализованных методов анализа текста и контуры процесса перехода от сбора текстов к применению методов. Этот процесс начинается в левом верхнем углу рисунка 1, где отмечен этап сбора данных. Всплеск интереса к формализованным методам отчасти объясним широким распространением простых в получении электронных массивов текстов.

классификация (Classification) - распределение текстов по категориям.

Иногда исследователи знают (имеют) категории заранее (Known Categories). В этом случае, автоматизированные методы помогают свести к минимуму трудозатраты, необходимые для классификации документов. Методы, основанные на словарях, например, используют частоту ключевых слов для определения класса документа. Но применение словарей вне областей, для которых они были разработаны, может привести к серьезным ошибкам.

Существующий корпус Методы, основанные на Методы обучения с Полностью автоматическая Автоматизированная Рисунок 1. Обзор методов автоматической классификации текстов Одним из способов улучшения результатов использования Methods). Эти методы основаны на первоначальном кодировании документов исследователем в соответствии с заранее определенным набором категорий. Затем данный корпус используется для обучения или контроля статистических моделей для классификации оставшихся документов. Но качество работы любого классификатора может существенно варьироваться в зависимости от контекста, поэтому всегда необходима проверка точности его работы.

Методы классификации также могут быть использованы для поиска новых способов организации текстов (Unknown Categories).

Полностью автоматизированная кластеризация (Fully Automated Clustering, FAC) одновременно выделяет категории и классифицирует документы по ним. Применение полностью автоматизированных результаты - на практике априори довольно сложно определить какой из методов будет наиболее эффективен для анализа конкретного Для улучшения результатов работы алгоритма могут быть использованы, как минимум, два типа моделей. Модели смешанного ориентированную структуру для оценки категорий. Вторая модель, автоматизированная кластеризация (Computer Assisted Clustering, CAC) проводит тысячи потенциальных кластеризаций. В любом случае, необходима последующая экспертная валидация результатов, неконтолируемыми методами, содержательно интересны и осмыслены. Мы опишем несколько методов валидации, которые сочетают в себе контролируемый и неконтролируемый методы кластеризации.

Дж. Гриммер в статье «Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts» [Grimmer, 2013] формализованного анализа текста (таблица 2).

Таблица 2. Принципы реализации формализованного анализа текста Все формализованные модели языка неправильны, но некоторые из них могут быть полезны.

Формализованные методы анализа текста являются вспомогательным инструментом, призванным снизить трудозатраты и увеличить эффективность обработки текстов человеком, но не заменить его.

Лучшего метода формализованного анализа текста не существует.

Проверяйте, проверяйте, проверяйте.

Принцип 1. Все формализованные модели языка неправильны, но некоторые из них могут быть полезны. Процесс генерации любого текста (включая и этот) остается загадкой, даже для лингвистов.

Любое предложение имеет сложную структуру зависимостей, его смысл может кардинально измениться даже с включением в него новых слов.

подразумевает, что компьютерные методы не способны точно смоделировать процесс генерации текста. Автоматизированный контент-анализ использует научно обоснованные, но неправильные модели языка, чтобы помочь в обработке текстов гуманитарным исследователям. Общим советом для проведения исследования с помощью формализованного анализа текста может быть включение как можно большего количества детерминант, обусловивших создание текста, и снижение количества сомнительных допущений.

То, что все автоматизированные методы основаны на неправильных моделях языка также означает, что модели должны оцениваться на основании их способности решать задачи социальных наук. Как будет показано ниже, акцент в оценке должен быть сделан на помощи присутствующих в текстах, новых схем классификации, возможных измерениях больших корпусов текстов и пр. Альтернативные способы оценки моделей, основанные на расчете коэффициентов качества или оценке предсказательной силы, могут дать неудовлетворительный с содержательной точки зрения результат [см., например, Chang, BoydGraber, Wang, Gerrish, Blei, 2009].

являются вспомогательным инструментом, призванным снизить трудозатраты и увеличить эффективность обработки текстов человеком, но не заменить его. Формализованные методы анализа исследований. Эти методы, однако, не отменяют необходимость тщательного прочтения и анализа текста исследователями.

Действительно, глубокое понимание текстов является одним из ключевых преимуществ социолога в применении формализованных методов. Зачастую исследователи стремятся получить решения, а затем проинтерпретировать результат. Однако неотъемлемой частью данного процесса является и внимательное прочтение текстов и их вдумчивый анализ. Вместо того чтобы заменить людей, компьютеры усиливают их возможности. Таким образом, целью использования автоматических методов анализа текста является не ответ на вопрос:

«Как автоматизированные методы могут устранить необходимость для исследователя читать текст?», а поиск оптимального сочетания усилий человека и компьютера.

Принцип 3: Лучшего метода формализованного анализа текста не существует. Различные типы текстов и исследовательские вопросы обусловливают различные фокусы интересов. Данное утверждение особенно верно в случае анализа текстов. Иногда цель исследования заключается в выявлении лексики, которая отличает язык определенных групп (например, исследования [Laver, Benoit, Garry, 2003; Burt, Monroe, Maeda, 2004]. В других исследованиях, интерес представляет доля документов, которые входят в заранее определенный набор категорий [Hopkins, King, 2010], новые способы расположениеактороввпространственноймодели [Burt, Monroe, Maeda, 2004]. Каждый из вопросов исследования предполагает различные модели, или семьи моделей, которые будут использоваться для анализа и различных методов проверки. Поэтому многие оценочные суждения, касающиеся методов обработки текстов, являются ошибочными. Вместо того чтобы обсуждать различные подходы к анализу текста, мы считаем одним из наиболее важных направлений исследований выявление эффективных способов их объединения.

Существует также значительное различие в семьях моделей. На практике обычно одна и та же модель будет хорошо работать на определенном наборе данных, но неудовлетворительно на другом.

Таким образом, в случае анализа текстов, не гарантирована даже эффективность одного и того же метода для решения одной задачи на разных данных.

Автоматизированные методы анализа текста могут существенно снизить трудозатраты и время анализа массивных коллекции текстов.

Однако, к сожалению, предлагаемые решения могут вводить в заблуждение или просто быть неправильными. Таким образом, обязанностью исследователя становится проверка качества результатов автоматического анализа текста. Когда категории анализа заранее известны, необходимо получить высокую степень согласия результатов методов обучения и человеческого кодирования.

Проверка результатов работы другого класса методов более сложная.

Для этого исследователь должен объединить экспериментальные, содержательные и статистические доказательства того, что эти результаты валидны.

Категорически рекомендуем исследователям, читающим эти строки, избегать «слепого» использования любого метода автоматической обработки текста без этапа проверки полученных результатов. Также не рекомендуем использовать коммерческое программное обеспечение, предоставляющее пользователю только итоговые результаты, без объяснения сути способа их получения.

Общие технические требования к корпусу текстов Как было отмечено выше, в современных условиях получение электронной версии практически любого текста не является проблемой. Более того, согласно требованиям многих организаций, тексты и документы должны иметь электронную копию. На первый взгляд, вопрос доступа и формата исходных данных является второстепенным и очевидным. Однако спешим заверить читателя, что это не так. На практике чисто технические процедуры (например, выяснение и конвертация формата данных) отнимают массу времени, терпения и нервных клеток исследователей, поэтому мы опишем основным требования к исходным данным, подаваемым на вход программному обеспечению.

Как уже упоминалось, всплеск исследовательского интереса к анализу больших коллекций текстов обусловлен, в том числе, распространением электронных текстов. На сегодняшний день доступно огромное количество баз документов как научного характера (например, JSTOR, ScienceDirect, EBSCO и пр.), так и материалов средств массовой и профессиональной информации (напр., Factiva, LexisNexis и пр.). Чаще всего для применения автоматизированных методов требуются тексты, хранящиеся в простом текстовом формате UTF-8 (за очень редким исключением.

Иногда требуется формат ANSI).

Сложнее получить данные, которые хранятся на Интернетсайтах, однако существуют методы и для решения подобной задачи [Simon, 2006]. И даже когда получение подобных данных ограничено (например, в связи с ограничениями сайта) существуют решения, которые распределяют задачи между исполнителями - например, Amazon Mechanical Turk [Berinsky, Huber, Lenz, 2012]. Наиболее трудны в обработке тексты, которые существуют только в бумажном виде или отсканированы в нечитаемом виде [Eggers, Hainmueller, 2009]. Далее мы покажем, каким образом текст преобразуется в набор чисел, пригодных для статистической обработки.

Нижеописанная процедура является одним из возможных способов преобразования текста в формализованные данные. Любой из ее этапов может быть заменен/исключен в соответствии с исследовательской задачей обработки корпуса текстов. Описываемый подход может применяться к тексту любого объема и содержания:

Tweet, ответ на открытый вопрос анкеты, транскрипт интервью или фокус-группы, статус в Facebook, статья, эссе, предложение или абзац.

Основной гипотезой данного подхода является предположение о том, что порядок слов в тексте не важен [Jurafsky, Martin, 2009].В компьютерной лингвистике данный подход именуется «мешком слов»

(a bag of words), так как порядок следования слов не имеет значения для анализа, и текст рассматривается как неупорядоченная совокупность слов. Несмотря на то, что теоретически достаточно просто сконструировать предложение, где порядок слов кардинально меняет смысл, эмпирически подобные случаи встречаются крайне редко. Действительно, если сравнить два предложения «Вторая глава диссертации посвящена методам анализа текста» и «Текста диссертации посвящена анализа глава методам вторая», то, несмотря на то, что второе предложение сложнее для понимания человеку, их смысл одинаков. Список отдельных слов, которые принято называть униграммами (unigrams), зачастую достаточен, чтобы описать общий смысл текста. В каждом языке и типе текста существуют также последовательности слов, которые, употребляясь вместе, образуют новый смысл, нежели чем сумма их значений (например, «Красная Площадь», «Российская Федерация» и пр.). Такие словосочетания называются биграммами (bigrams) в случае пары слов, триграммами (trigrams) в случае трех слов и пр., и, чтобы избежать потери смысла, исследований в сфере информационного поиска свидетельствуют, что для задач оценки тональности, тематического моделирования или поиска, учет N-грамм незначительно улучшает эффективность методов [Manning, Raghavan, Schutze, 2008; Hopkins, King, 2010].

Следующим шагом является нормализация текста. Нормализация - это приведение всех словоформ одного слова к единой основе, а также удаление из текста «шумов» (так называемых стоп-слов, то есть слов, не несущих смысловой нагрузки, таких как предлоги, междометия и пр., а также редко встречающихся слов. Список стоп-слов называется стоп-листом или делит-листом (delete-list). Понятия «часто» и «редко», определяющие порог встречаемости, определяются для каждого исследования индивидуально. Например, это может быть граница 1% и 99% корпуса текстов), удаление пунктуации, приведение к одному регистру, удаление символов и пр.

Р. Поппинг отмечает 5 особенностей, на которые необходимо обратить внимание при проведении нормализации текста:

Удаление слов. Слова, не несущие смысловой нагрузки междометия и пр.), должны быть удалены из текста.

Учет словоформ. Все словоформы одного слова должны Часто- и редко употребляемые слова. В зависимости от направлен на часто- либо на редко употребляемые слова.

Сокращения, аббревиатуры и пр.

местоимений, имен собственных и пр. [Popping, 2000].

На наш взгляд, приведенные замечания относятся к любой количественной обработке корпуса текстов. В связи со значительными отличиями грамматики русского языка от грамматики английского языка, специфика методик работы с текстами на русском языке отчасти отлична от приведенной выше. Однако данный вопрос рассматривается.

уникальных слов, то есть снижение размерности текста. Существует два вида первого этапа нормализации текста: лемматизация (lemmatization) и стэмминг (stemming). Первый предполагает (существительное – именительный падеж, единственное число, глагол – неопределенная форма и пр.), второй – приведение слова к его основе (морфеме) путем «обрезания» (окончаний, суффиксов и пр.), чтобы оставшаяся часть была одинаковой для всех грамматических форм. Лемматизация является более эффективной, так как использует словари и опирается на контекст, чтобы понять, что, например, «хороший», «лучше» и «самый лучший» - это слова с одной леммой.

Стэмминг намного более грубый алгоритм, но более быстрый.

Существует большое количество алгоритмов реализации стэмминга, общепринятым стандартом является, пожалуй, алгоритм Портера [Porter, 1980]. К сожалению, на сегодняшний день не существует открытого программного обеспечения, реализующего процедуру обеспечение разрабатывается сотрудниками научно-учебной группы «Сетевые методы и модели в анализе текстовой информации» при кафедре методов сбора и анализа социологической информации НИУ ВШЭ. Стэмминг релизован во многих пакетах, например, в Automap Университета Карнеги Мэллон, США).

Результатом подготовительного (preprocessing) этапа является представление каждого текста i (i=1…N) в виде вектора, состоящего из частот встречаемости в тексте каждого уникального слова M: Wi = Wi1, Wi2,…,WiM). Каждое значение Wim является частотой встречаемости mго слова в i-м документе. Матрицу, содержащую векторное представление всех текстов корпуса, часто называют матрицей термин-документ (term–document matrix или document-term matrix).

При умеренном объеме документов без специализированной лексики, эта матрица будет иметь от трех до пяти тысяч терминов и будет в основном содержать нули (такое состояние называется разреженностью).

неопытных исследователей к выводу, что в результате их применения останется слишком мало информации для анализа. На самом деле, оставшейся информации вполне достаточно, чтобы получить содержательно интересные результаты [Hopkins, King, 2010].

Альтернативные способы представления текста Описанный способ является одним из возможных методов представления текста в виде данных. Конкретные его реализации должны приспосабливаться к конкретным содержательным задачам.

Например, в одном из первых примеров формализованного анализа текста [Mosteller, Wallace, 1963] авторы проверяли подлинность «Записок Федералиста» (Federalist papers). Они были заинтересованы в изучении стиля документов, а не его содержания и использовали в качестве данных только частоту стоп-слов. Таким образом, их анализ основывался на информации, которую мы обычно отбрасываем.

Некоторые другие общие стратегии включают в себя: (1) учет факта наличия/отсутствия слова в документе, а не его частоты (так поступаем и мы в исследовании репрезентации ценностей американского общества в статьях о России, также см. [Pang, Lee, Vaithyanathan, 2002; Hopkins, King, 2010], (2) в том числе некоторых стоп-слов, например, гендерных местоимений [Monroe, Burt, Colaresi, Quinn, 2008], (3) подмножество функций (путем автоматизированного выбора функций или меньшей размерности проекции) [Hofmann, 1999] и (4) слова, взвешенные по их редкости в корпусе документов (показатель часто называется TF-IDF или частота встречаемости термина на обратную частоту документа в корпусе) [Manning, Raghavan, Schutze, 2008].

принципиально аналогичными (представление текста в виде неупорядоченных униграмм).

Классификация документов по известным категориям Классификация документов по известным категориям является наиболее распространенным использованием методов контентанализа в социальных науках. Например, исследователи могут изучать социальных проблем в международных документах [Schrodt, 2000], тональность местных новостей [Eshbaugh-Soha, 2010]. В любом случае, цель подобных исследований состоит в классификации каждого документа в определенную категорию, в изучении общего распределения документов по категориям, или и то, и то. Ручное исключительно трудо- и времязатратен. Даже после формулировки кодировочных правил и подготовки кодировщиков, ручные методы классификацию документов за счет ограничения количества классификаций, которые должны выполнить исследователи. Ниже мы охарактеризуем две группы методов для оптимизации классификации.

Методы, основанные на словарях (dictionary methods) в качестве индикатора присутствия категории в тексте используют частоту ключевых слов. Методы, основанные на обучении с учителем, напоминают ручное кодирование, но замененное компьютером. На первом этапе человек кодирует подмножество документов в заданную схему классификации. Затем эта обучающая выборка используется для обучения автоматизированного метода, который затем классифицирует остальные документы.

Методы, основанные на словарях Начнем с методов, основанных на словарях, пожалуй, наиболее интуитивно понятных и легко применяемых автоматизированных методах [Stone, Dunphy, Smith, Ogilvie, 1966]. Данные методы используют частоту ключевых слов для отнесения документа в определенную категорию или для измерения степени, в которой документ принадлежит к той или иной категории.

Однако в большинстве случаев анализ частоты употребления слов оказывается недостаточным для решения задач исследования.

Для более точной интерпретации значений концептов необходим анализ контекстов их употребления (данная процедура получила название KWIC – key words in context. Иногда она также называется concordance).

предшествующие и следующие за концептом. Выявление контекста употребления ключевых слов помогает восстановить исходные смыслы и значения концептов.

Следующим шагом проведения тематического анализа методом, основанном на словарях, является составление словаря. Словарь представляет собой «конкретную репрезентацию теории в текстовых данных» [Popping, 2000]. Возможно авторское составление словаря, либо использование готового словаря. Наиболее известными являются Lasswell Value Dictionary (LVD) и The Harvard IV Psychosocial Dictionary. Однако использование готовых словарей таит, как минимум, две проблемы: иррелевантность области исследования и чрезмерная обобщенность категорий. Самостоятельное составление словаря включает две стадии: определение концептов и выделение эмпирических репрезентаторов концептов. Далее необходимо определить категории концептов. Категорией называется совокупность концептов схожего смысла/коннотаций. Таким образом, совокупность непересекающихся категорий составляет словарь.

Возможно априорное и апостериорное выделение категорий.

На следующем этапе необходимо сконструировать словарь.

Данная стадия осуществляется в два этапа – на первом этапе исследователь определяет концепты для анализа, что в определяющей степени детерминировано теоретической рамкой исследования. На втором этапе выявляются сущности (entities), которые репрезентируют концепт в тексте. Сложности данного этапа заключаются, в том числе,в необходимости снятия многозначности слов, выявлении словосочетаний, отрицаний и пр.

Многие исследователи используют частоту употребления слов без агрегирования их в более общие категории, то есть декларируемое или эмпирическое содержание (manifestcontent) [Weber, 1984].

Икер и Клейн [Howard, Iker, Kleinwords,1974] были первыми, кто анализировал эмпирический материал на основе декларируемого контекста. Материалом послужили психиатрические интервью, в которых была подсчитана частота употребления (в том числе совместного) слов. Затем данные были занесены в квадратную матрицу. Сами авторы назвали используемую процедуру анализом сопряженности (association analysis). Подготовительные процедуры включали ряд вспомогательных техник, таких как удаление всех стопслов, удаление семантически не нагруженных слов, замена синонимов. Итоговая матрица содержала 215 наиболее часто встречающихся слов. На следующем этапе с помощью многомерного анализа были выделены кластеры слов. На финальном этапе выделенные кластеры были проинтерпретированы – они и представляли собой основные темы интервью Таким образом, в данной работе категории были выделены апостериорно. Сходные методики можно найти в исследовании Хугенраада [Hogenraad, 2005].

Миллер и Рихерт [Miller and Riechert, 1994] изучали статьи о пестицидах в новостных журналах. На первом этапе было выбрано 121 слово с наибольшим значением критерия хи-квадрат (исключая стоп-слова). Затем для кластерного анализа были выбраны три наибольших собственных вектора для каждого слова. Полученные кластеры описывали темы текстов. В результате, центральной темой в контексте обсуждения пестицидов оказалось обсуждение защиты окружающей среды.

Использование тематического анализа методом, основанном на словарях, подразумевает ответ, как минимум, на 8 вопросов:

Уровень анализа. Из чего состоит концепт: из слова или Как поступить с иррелевантной информацией – удалить из корпуса, удалить из анализа или включить в анализ?

Выбор концептов: априорный или апостериорный?

стороны, концепты могут быть выражены другими словоформами (синонимы, местоимения и пр.), возможен Правила составления перевода (тезауруса). Необходим общий тезаурус (список соответствия концептов и репрезентирующих их в тексте слов).

Уровень смысла концепта. Прямой или имплицитный смысл текста должен кодироваться?

Вхождение или частота. Исследователь фиксирует факт вхождения или частоту вхождений концептов?

Сколькоконцептовдолжнобытьиспользованованализе?

тональности текста (sentiment analysis and opinion mining). Сразу оговоримся, что вслед за Б. Лью, одним из самых известных исследователей в данной области, мы не разделяем анализ тональности и мнений. «Анализом тональности, который также называются анализом мнений, является область исследований, которая анализирует мнения людей, настроения, оценки, отношения и эмоции по отношению к различным объектам, таким как товары, услуги, организации, частные лица, проблемы, события, темы и их атрибуты [Liu, 2012]. Стремительное развитие данного метода в последние годы обусловлено, в том числе, развитием социальных медиа (social media), таких как социальные сети, форумы, блоги, твиттер и пр. В последние годы мы стали свидетелями того, как данный феномен влияет на различные сферы общественной жизни, общественные настроения, политические расстановки сил, бизнес и пр. Анализ тональности становится и инструментом маркетингового анализа: Интернет содержит огромное количество отзывов, комментариев, заметок и мнений о товарах и услугах. Приложения анализа тональности распространилась почти на все возможные области, от потребительских товаров, услуг, здравоохранения и финансовых услуг до социальных событий и политических выборов.

Анализ тональности возможно проводить на трех различных уровнях: на уровне документа, на уровне предложения и на уровне сущности. Рассмотрим подробнее каждый из уровней.

Уровень документа (document-level sentiment classification). В случае определения тональности на уровне документа задача состоит в определении общей тональности всего документа как одной единицы анализа [Pang, Lee, Vaithyanathan, 2002]. Например, если имеется отзыв о продукте, необходимо определить его тональность в целом - отрицательная или положительная. Предполагается, что каждый документ выражает мнение об одном объекте (например, один продукт). Таким образом, анализ на данном уровне не применим к документам, которые оценивают или сравнивают несколько объектов.

Уровень предложения (sentence-level sentiment classification).

Задача для анализа на данном уровне состоит в определении положительной, отрицательной или нейтральной тональности одного предложения. Нейтральная тональность, как правило, означает классификацией субъективности (subjectivity classification) [Wiebe, Bruce, O'Hara, 1999], которая различает предложения (так называемые субъективных предложений), которые выражают субъективные взгляды и мнения. В контексте нашего исследования данные идеи информационный, предоставляющий, в основном, фактическую информацию, и аналитический - мнения и заметки журналистов. Тем не менее, следует отметить, что субъективностьне эквивалентна тональности, так как во многих объективных предложениях может подразумеватьсямнение, например: «Мы купили машину в прошлом месяце и стеклоочистители отвалились».

classification). К сожалению, анализ на предыдущих уровнях не дает возможности обнаружить, к чему именно автор выражает отношение (мнение). Анализ на уровне сущности выполняет более детальное изучение содержания. Вместо того, чтобы фокусироваться на языковых конструкциях (документы, абзацы, предложения или фразы), анализ данного уровня концентрирует внимание непосредственно на мнении самого автора. Предположением, на котором основан анализ данного уровня, состоит в том, что мнение (opinion) состоит из настроения (sentiment) (положительное или отрицательное) и объект (мнения) (target of opinion). Например, в предложении «качество связи в iPhone очень хорошее, но его аккумулятор держится слишком мало» оценивается два аспекта:

качество связи и батареи. Тональность оценки качества связи iPhone является положительной, но тональность оценки времени автономной работы - отрицательной. Качество связи и время автономной работы iPhone являются объектами мнения. Проведение анализа на уровне сущности предполагает получение структурированного резюме из неструктурированного текста, которое может быть использовано во всех видах неформализованного и формализованного анализов. Также на практике важно учитывать автора и время высказывания.

В западной и отечественной науке представлено достаточно автоматизированных методов оценки тональности. Большую часть работ можно разделить на два основных подхода. Первый подход основан на оценке тональности отдельных слов и правил их сочетания (lexicon-based approach). Он предполагает, что тон документа является усредненной суммой тональностей его слов и фраз. Пионерской работой в данной области является работа [Turney, 2002]. В ней автор на основе оценочной лексики анализирует обзоры и классифицирует их как «благоприятные» и «неблагоприятные». Кроме того, такие работы как [Hatzivassiloglou, Wiebe, 2000; Hu, Liu, 2004; Read, Carrol, 2009; Taboada, Grieve, 2004] являются хорошими примерами данного лексического подхода. Действительно, подобный подход имеет под собой основания для существования. Не удивительно, что наиболее важным показателем настроения являются конкретные оценочные слова. Это слова, которые обычно используются для выражения положительных или отрицательных чувства. Например, «хорошо», «замечательно», и «удивительные» выражают положительные чувства, а «плохие», «уродливые», и «ужасные» - негативные настроения. Кроме отдельных слов, существуют также фразы и идиомы. Список таких слов и фраз называется словарем оценочных слов (sentiment lexicon). Существует достаточно много алгоритмов для компиляции подобных словарей. [подробнее см. Liu, 2012].

Проблема данного подхода состоит в том, что оценочных слов для выявления тональности далеко не достаточно. Можно сказать, что анализ оценочных слов является необходимым, но не достаточным условием анализа тональности. Б. Лью отмечает следующие недостатки данногоподхода:

1. Слова могут иметь различную «окраску» в различных отрицательную «окраску» при обсуждении учителей начальной школы на форуме родителей школьников и нейтральную «окраску» при описании героя фильма.

2. Предложение, содержащее оценочное слово, может не вопросительные предложения: «Не подскажете, какая из оценочную лексику, трудны в обработке. Например:

«Какой отличный автомобиль! Он перестал работать через два дня после покупки». Сарказмы не так часто встречаются в потребительских отзывах о продуктах и услугах, но очень часто встречаются в политических дискуссиях и статьях, что делает их очень сложными для компьютерного анализа.

4. Многие предложения, не содержащие оценочных слов, могут выражать мнения и оценки. Данное ограничение исключительно актуально в случае анализа текстов качественной прессы, так как в них, как правило, оценки компоненты), а не оценочной лексики (эмоциональной Второй подход (machine learning approach) [Boyi, Hens, Deschacht, Moens, 2009; Narayanan, Liu, Choudhary, 2009; Pang, Lee, 2004; Zhao, Liu, Wang, 2008] подходит к проблеме как к задаче классификации текстов, где классификаторы построены с использованием одного из методов машинного обучения и обучения на наборах данных с помощью функций, таких как униграммы, биграммы, partofspeech (POS) теги и т.д. Очевидным недостатком данного подхода является то, что алгоритм оценки корпуса остается для исследователя «черным ящиком», а это (учитывая особенности автоматизированного анализа текстов, описанные выше) может привести к неэффективной работе на новых данных.

В заключение описательной части следует отметить, что возможно разделение мнения на прямое (regular) и сравнительное (comparative). Прямое мнение, в свою очередь, разделяется на явное (direct) и неявное (indirect). Другая типология предусматривает разделение мнения на эксплицитное (explicit) и имплицитное (implicit, implied).

Продолжим описание методов, основанных на словарях.

определенному контексту, актуально для всех методов, основанных на словарях. Возможно, самым ярким примером данного факта является исследование [Loughran, McDonald, 2011] Авторы указывают на то, что многие слова, которые имеют негативные коннотации в таких контекстах как налогообложение, прибыль, сырье могут иметь положительное коннотации в финансовых отчетах. Авторы Psychosociological Dictionary, употребляемые в финансовых отчетах и помеченные как отрицательные, на самом не деле не являются таковыми для финансового контекста. Поэтому готовые словари непременной проверкой.

Оценка качества кластеризации Для оценки качества алгоритма поиска или кластеризации существует две основные группы методов: внешние (сравнение с образцом) и внутренние (вычисление ряда параметров самих кластеров). Детальное описание и рассмотрение параметров внешней оценки является предметом информационного поиска [см., например, Manning, Raghavan, Schutze, 2008]. Чаще всего для этой цели используются два показателя - точность (precision) и полнота (recall).

Точность - это доля релевантных документов в корпусе. Полнота - это доля найденных релевантных документов среди всех релевантных.

Существует также ряд дополнительных показателей качества (F-мера, энтропия и пр.), но их рассмотрение выходит за рамки данной работы.

Методы обучения с учителем Применение методов, основанных на словарях, требует наличия заранее заданных категорий. На практике это зачастую приводит к проблемам с работой с реальными данными, в особенности, если словари применяются вне области, для которой были изначально сконструированы. Альтернативой являются методы, основанные на обучении с учителем. Идея данной группы методов проста: человек кодирует часть текстов вручную. Затем алгоритм «обучается»

сортировать документы по категориям с помощью обучающей выборки и слов: алгоритм использует характеристики документов для размещения документов по категориям.

Подобный подход к классификации имеет два основных преимущества перед методом, основанном на словарях. Во-первых, это обязательно специфические для данной области правила, и, следовательно, это позволяет избежать проблем применения словаря вне их предполагаемой области применения. Во-вторых, методы обучения с учителем гораздо проще для проверки: математический аппарат предлагает конкретные показатели качества моделей.

Методы классификации текстов, основанные на обучении, принадлежат достаточно молодой, обширной и стремительно развивающейся исследовательской области [Jurka, Collingwood, Boydstun, Grossman, Atteveldt, 2012]. Однако, несмотря на широту области, реализацию всех методов обучения с учителем можно разделить на три основных шага: (1) построение обучающей выборки, (2) применение обучения с учителем - изучение отношений между сущностями и категориями в обучающей выборке, и (3) проверка модели и классификация оставшихся документов. Более подробное описание каждой стадии можно найти в прекрасном обзоре [Grimmer, 2013].

Обнаружение категорий и тем Методы, основанные на словарях и обучение с учителем, предполагают наличие четко определенного набора категорий. В некоторых случаях это не представляетреальной проблемы:

исследователи имеют априорный набор категорий (иногда до начала отбора текстов), либо формулируют его на основе гипотез, которые формируют ядро научно-исследовательского проекта. Однако зачастую набор категорий трудно получить заранее.

Методы обучения без учителя представляют собой класс методов, анализирующих основные особенности текста без явного введения категорий. Вместо того, чтобы обрабатывать текст согласно готовым категориям, данный класс методов, основываясь на допущениях оценивает возможный набор категорий и одновременно относит документы (или часть документов) в эти категории. Методы обучения без учителя ценны тем, что они могут определить организацию текста, которая окажется теоретически полезной, но, возможно, недостаточной или ранее неизвестной. Дж. Гриммер и Г.

Кинг [Grimmer, King, 2011] разделяют данный класс методов на две группы. Наиболее широко используется полностью автоматическая (fully automated clustering, FAC) предлагающие единственный способ разбиения на кластеры исходных исследованиях, но их эффективность зависит от модели.

Предложить абсолютно эффективную модель для решения определенного класса задач невозможно. Но для увеличения гибкости и эффективности моделей возможно использовать две стратегии:

первая стратегия обобщает FAC-модели, используя сравнительно недавно разработанные статистические модели для включения контекстно-зависимых структур в анализ. Подобных подход может привести к содержательно интересным результатам кластеризации, но он опирается на небольшие вариации подобных моделей. Вторая исследователям более эффективно изучать миллионы потенциальных организаций текста. Эта стратегия также включает в себя методы категоризации, но требует дополнительного анализа обширных способов классификации всех текстов.

кластеризации, исследователь должен критически относиться к кластеризации основаны на неправильной модели языка и априори трудно понять, какая из моделей будет наиболее эффективной в решении конкретной задачи. Необходимость валидации результатов кластеризации не отрицает значения методов обучения без учителя, а также не делает их частным случаем методов обучения с учителем [как это предлагается в Hillard, Dustin, Purpura, Wilkerson, 2008]. В самом деле, эта и другие [например, Quinn, Kevin, 2010] работы противопоставляют методы обучения с учителем и без учителя. На наш взгляд, такое противопоставление неуместно: данные группы являются различными методами с разными целями. Если у исследователя есть заранее заданные категории и документы, которые должны быть размещены в этих категориях, то целесообразно использовать метод обучения с учителем. Использование метода обучения без учителя в данном случае неэффективно - особенно, если заданные категории отражают «тонкие» различия в тоне или настроении. Если, однако, у исследователя отсутствуют заранее заданные категории, то целесообразно использовать методы обучения без учителя. Важно понимать: применение методов обучения с учителем никогда не даст новых категорий. На наш взгляд, два класса методов должны рассматривать скорее как взаимодополняющие, нежели как конкуренты.

Одной из методических задач, возникающих в социологическом исследовании, является задача тематической классификации элементарных контекстов. Под элементарным контекстом понимается любое короткое высказывание (-я), будь то заголовок, абзац или ответ на открытый вопрос анкеты. Для успешного выполнения данной задачи корпус элементарных контекстов должен описываться определенным набором ключевых слов, иными словами – элементарные контексты должны быть лексически сходны. В нашей работе в качестве элементарных контекстов выступают заголовки статей «Нью-Йорк таймс». Ввиду высокой степени клишированности языка прессы, условие лексического однообразия корпуса в нашем случае выполняется.

Как и в случае тематического анализа текстов, классификация элементарных контекстов может быть выполнена двумя способами:

обучение без учителя (unsupervised clustering, bottom-up approach) и обучение с учителем (supervised classification, top-down approach). В последнем случае, необходимо создание пользовательского словаря категорий. Тогда количество кластеров будет совпадать с количеством категорий в пользовательском словаре.

Метод обучения без учителя состоит из следующих процедур:

1) Векторизация элементарных контекстов. Составление матрицы термин-документ;

2) TF-IDF нормализация, взвешивание (масштабирование, scaling) каждого вектора на длину единицы (евклидова норма, коэффициент косинусов, метод – пересекающийся k-means);

4) Наполнение получившихся кластеров и для каждого из них:

1) Составление таблицы сопряженности лексических единиц и кластеров (n х k). Таблица имеет следующий вид:

Другие слова nij– частота встречаемости лексической единицы «а» в Nj– частота встречаемости лексической единицы «а» в Ni– количество слов, входящих в корпус «А»;

N – количество всех слов в таблице сопряженности.

2) Расчет критерия хи-квадрат для каждого элемента таблицы 3) Анализ соответствий таблицы сопряженности.

Процедура тематического моделирования состоит следующих этапов:

зависимости от задачи единицей анализа может быть элементарный контекст или документ);

2) Анализ данных с применением вероятностной модели с использованием латентного размещения Дирихле (Latent Dirichlet Allocation) и гиббсовской схемы (Gibbs sampling).

3) Описание тем посредством совокупности «специфических» и «общих» слов, принадлежащих к теме с определенной алгоритмов вероятностных тематических моделей. Вероятностные тематические модели – это совокупность алгоритмов, цель котороых заключается в выявлении скрытой тематической структуры в больших архивах документов. Простейший и наиболее часто применяемый алгоритм использует латентное размещение Дирихле (Latent Dirichlet Allocation (далее - LDA)) [Blei, Ng, Jordan, 2003]. Стремительное развитие алгоритмов обусловлено причинами, упоминаемыми выше – распространение Интернета, повсеместная электронизация, широкая доступность текстов на электронных носителях. Алгоритмы вероятностных тематических моделей не требуют каких-либо предварительных разметок или экспертной маркировки текстов.

предположение о том, что корпус текстов порожден некоторым распределением совокупности латентных тем. Каждый документ в корпусе является смесью распределения латентных тем. Тема определяется как вероятностное распределение на фиксированном множестве слов. В методе LDA в качестве распределения используется функция Дирихле. Например, к теме «генетика» с высокой вероятностью относятся слова «гены», «секвенировать» и пр.

Предполагается, что темы определены до создания текстов, то есть количество тем, на которые алгоритм должен распределить исходный корпус является входным параметром и определяется исследователем.

Алгоритм с использованием LDA выявляет скрытые связи между словами посредством тем. Также он позволяет присваивать вероятности новым документам, не входившим в обучающую выборку. Фактически LDA является трехуровневой байесовской сетью, которая порождает документ из смеси тем в соответствие со следующими этапами:

Для каждого документа d выбирается случайный вектор d из распределения Дирихле с параметром (обычно принимается равным 50/число тем).

Для каждого слова в документе:

а) выбирается тема zid из мультиномиального распределения с параметром d;

б) согласно выбранной теме zid выбирается слово id из распределения zid, которое является распределением Дирихле с параметром (обычно параметр =0,1).

распределения документов по темам и функция распределения слов по темам. Каждая тема интерпретируется по наиболее вероятностным словам. Более подробно представление о теме и ее «границах» в данном корпусе можно получить по наиболее вероятностным документам, относящимся к теме. Порог вероятности отсечения текстов исследователь, также как и количество тем, исследователь задает самостоятельно.

вариационный EM- алгоритм и семплирование Гиббса. Первый основан на принципе максимизации функции правдоподобия. По мнению некоторых исследований данный способ может приводить не к оптимальным результатам, так как дает гарантию попадания в один из локальных максимумов, но не позволяет находить наибольший максимум среди множества локальных экстремальных точек [Daud, Li, Zhou, Muhammad, 2010].

Метод сэмплирования Гиббса является статистическим алгоритмом на основе методов Монте-Карло, в котором строится марковская цепь, сходящаяся к апостериорному распределению тем, по которым далее строятся оценки параметров [Andrieu, Freitas, Doucet, Jordan, 2003]. Зачастую метод сэмплирования Гиббса оказывается более эффективным, чем вариационные методы [Griffiths, Steyvers, 2004].

формализованного подхода является возможность обработки больших корпусов текстов. В целом, в современных условиях основным ограничением являются технические возможности компьютеров.

Другим преимуществом данного подхода является объективность кодирования – очевидно, что в данном случае на этапе реализации метода полностью исключено человеческое влияние, а, следовательно, риск субъективности.

Однако данное направление не лишено и недостатков. В общем, данный спектр методов наследует все недостатки статистической обработки текста: учет только прямого смысла слов, неразличение жанров, скрытых смыслов и пр. Также необходимо отметить технические сложности (в особенности при обработке русского языка) (напр., нормализация (лемматизация), синонимия, анафорические связи и пр.). В случае обработки русского языка данное направление анализа (в силу ограниченности технических средств) весьма трудозатратно.

Одним из главных недостатков данного направления анализа текста в гуманитарных науках является выделение тем как совокупности наблюдаемых переменных в тексте, в то время как зачастую темы, наиболее точно описывающие проблему текста, не эксплицированы. Данный недостаток призван компенсировать эвристический тематический анализ.

§3. Эвристический подход: тематический анализ Эвристический тематический анализ восходит к теории аргументации [Attride-Stirling, 2001]. Эвристический тематический анализ ориентируется на индуктивной подход, который, в первую очередь, имеет описательный характер и поисковые ориентации [Guest, MacQueen, Namey, 2012].

Бернард и Райан предлагают общую типологию данных, которые могут быть исследованы в неформализованных исследованиях (см. рисунок 2) [Bernard, Ryan, 1998].

На первой ветви дерева данные делятся на три основных типа текст, изображение и звук. В данной работе мы рассматриваем исключительно текст, который на сегодняшний день, является наиболее распространенной формой неформализованных данных, которые анализируются в социальных и медицинских науках.

Текст как репрезентация опыта Последовательное получение выводов (systematicelicitation) Анализ lists),классифицированные Компонентный анализ;

Классификация; Ментальные карты Рисунок 2. Общая типология данных в качественных исследованиях рассмотрению текста как единицы анализа. Мы можем, например, анализировать текст как объект сам по себе, как показано на правой ветви рисунка 2) Эта стратегия является наиболее распространенной в языковом анализе и изучает структуры и смыслы текста, а также сами слова. С другой стороны, текст может быть проанализирован в качестве репрезентации опыта, в котором заинтересован исследователь: в человеческом восприятии, чувствах, знаниях и поведении, в представлении данного опыта в тексте. Этот тип анализа текстов, известный как социологическая традиция [Tesch, 1990], наиболее часто используется в социальных и медицинских науках.

При рассмотрении текста в качестве репрезентации опыта, существует достаточно значительное количество способов, которыми данные могут быть собраны и проанализированы [более подробно см., например, Weller, 1988].

Тематический анализ, как и обоснованная теория, требует активного участия и интерпретации со стороны исследователя.

Тематический анализ выходит за рамки подсчета слов или фраз и сосредоточивается на выявлении и описании явных и неявных идей в текстах, то есть тем. При проведении анализа разрабатываются коды маркеры тем, используемые в дальнейшем анализе. Анализ может включать или не включать следующие процедуры: сравнение частоты появления кодов в тексте, выявление совместной встречаемости кодов, графическое представление соотношения кодов и текстов.

В целом можно отметить наличие двух точек зрения на сущность тематического анализа. Ряд исследователей [Guest, MacQueen, Namey, 2012; Braun, Clarke, 2006] полагают, что тематический анализ является интегральным методом: он включает в себя обоснованную теорию, позитивизм, интерпретивизм и феноменологию, синтезирую их в одну методологическую основу.

Подход заимствует то, что считает наиболее полезным у других методов из теоретического и методологического лагеря, и адаптирует к прикладным исследованиям. По мнениию Браун и Кларк, одним из преимуществ тематического анализа является его гибкость [Braun,Clarke, 2006]. Эвристические аналитические методы можно условно разделить на два лагеря. В первый входят те, что основаны на конкретных теоретических или гносеологических позициях. Для некоторых из них, таких как конверсационный анализ (conversation analysis) (Hutchby, Wooffitt, 1998] феноменологический анализ (например, Smith, Osborn, 2003] соблюдается относительно строгая процедура применения:

фактически, существует единственный регламентированный метод.

Другие, такие как обоснованная теория [Страусс, Корбин, 2001], дискурс-анализ [например, Burman, Parker, 1993; Potter, Wetherell, 1987; Willig, 2003] или нарративный анализ [Murray, 2003; Riessman, 1993] содержат достаточно широкие внутренние теоретические рамки и разные способы применения на практике. Вторую группу составляют методы, которые, по существу, не зависят от теории и эпистемологии, и могут применяться относительно независимо от теоретических и эпистемологических подходов. По мнению сторонников позиции о независимости тематического анализа, он принадлежит второй группе.

С другой стороны, существует точка зрения [Boyatzis, 1998] что тематический анализ не является самодостаточным методом анализа данных, а, скорее, инструментом, который используется другими методами. На наш взгляд, каждая позиция имеет право на существование, однако выход в 2012 году в издании «Sage» книги [Guest, MacQueen, Namey, 2012; Braun, Clarke, 2006] свидетельствует в пользу признания первой точки зрения.

Г. Гест отмечает, что тематический анализ не является новым подходом к эвристическому анализу данных. «На самом деле, напротив: исследователиосуществляли очень похожие виды анализа на протяжении десятилетий. Чего в нем, очевидно, не хватало, по крайней мере, на наш взгляд, так это описания практического пошагового руководства как провести индуктивные процедуры тематического анализа, особенно с акцентом на методологическую строгость» [Guest, MacQueen, Namey, 2012: 16].

Тематический анализ – это метод выявления, описания и анализа определенных образцов (patterns), тем в тексте [Braun, Clarke, 2006]. Это способ первичного описания и осмысления текстовых данных в контексте исследовательского вопроса. Тематический анализ широко используется в гуманитарных науках [см. AttrideStirling, 2001; Boyatzis, 1998]. Например, висследовании [Singer, Hunter, 1999] менопаузой, и были выявлены несколько общих тем, возникающих в ходе разговора.

Рубин и Рубин утверждают, что тематический анализ весьма интересен и перспективен, потому что «вы обнаружите темы, которые красной нитью следуют по всей концепции ваших интервью» [Rubin, Rubin, 1995]. Учет и анализ «выявленных» или «открытых» тем является следствием пассивной роли аналитика, тематический анализ отрицает активную роль исследователя, которую он обычно выполняет в определении моделей/тем, которые представляют интерес [Taylor, Ussher, 2001].

Браун и Кларк отмечают, что тематический анализ отличается от других аналитических методов, которые пытаются описать темы, возникающие в тексте, такие как, например, «тематический» дискурсанализ, обоснованная теория и пр. Оба этих метода ищут закономерности в данных, но теоретически ограничены. Как правило, обоснованная теория реализуется в различных версиях [Charmaz, 2002]. Несмотря на это, цель обоснованной теории состоит в создании правдоподобного и полезного объяснения явлений, которые имманентно присутствуют в данных [McLeod, 2001]. Однако, по используется в версии «Lite» - как набор процедур для кодирования данных, что очень сродни тематическому анализу. Проводя тематический анализ, исследователи не должны подписываться на неявные теоретические обязательства обоснованной теории.

Проведение тематического анализа требует от исследователя ответа на ряд вопросов. Зачастую, до начала эмпирической работы, данные вопросы не очевидны и могут показаться несущественными.

Однако на практике, данные решения должны быть приняты до начала анализа (иногда - до начала этапа сбора данных). Ниже мы перечислим эти вопросы, согласно [Braun, Clarke, 2006] и дадим краткие пояснения.

Вопрос 1. Что такое тема? Интуитивно понятно, что тема представляет собой важную идею, содержащуюся в данных, имеющую непосредственное отношение к исследовательскому вопросу. Также тема должна иметь внешние, эксплицированные индикаторы, паттерны в тексте. Важным вопросом с точки зрения кодирования является вопрос: что именно считать темой, какого размера она должна быть? Так как тематический анализ относится к категории неформализованных методов, здесь нет четкого параметра «объема текста, посвященного теме». В идеале, тема присутствует в нескольких единицах корпуса. Однако наличие одной темы в большем количестве единиц корпуса, чем другой, отнюдь не означает приоритет важности первой. Исследователь сам решает, какая (-кие) темы являются приоритетными и основополагающими, какие второстепенными и подтемами и пр. Кроме того, приоритетность темы не обязательно зависит от количественной меры, а, скорее, от того, добавляет ли она что-то важное к общему ответу на вопрос исследования. Так, например, в исследованиях о представлениях родителей лесбиянок и геев [Clarke, Kitzinger, 2004], было выделено шесть «ключевых» тем. Среди них были не самые частотные в корпусе данных (они появлялись в промежутке от 2 до 22 из исследованных ток-шоу), однако вместе они охватили очень важный элемент - способы «нормализации» своих семей геями и лесбиянками в дебатах ток-шоу. В этом случае тематический анализ был обусловлен исследовательским вопросом. В других случаях, приоритетность тем может определяться распространенностью (появляется ли тема в каждой единице анализа?). Кроме того, она может появляться у различных информантов. В общем важно отметить, что не существует правильных или неправильных методов для определения распространенности и приоритетности темы.

Гибкость тематического анализа заключается, в том числе, в том, что позволяет определить показатели распространенности темы различными способами. Важно, чтобы исследователь осуществлял процедуры последовательно и согласно одной логике. В любом случае, конечное решение о сути конкретной темы и показателях ее распространенности всегда остается за исследователем.

Вопрос 2. Глубокий анализ всего корпуса текстов или одной темы? Проводя тематический анализ, важно определить тип анализа, который планируется реализовать, и степень «широты» выводов, на которые претендует исследование. Например, возможно, исследователь пожелает произвести широкое тематическое описание всего набора данных с тем, чтобы читатель получил информацию о преобладающих и важных темах. В этом случае, темы, которые будут выделены, коды и анализ, должны быть точным отражением содержимого набора данных. В подобном анализе неизбежно теряется некоторая глубина и сложность анализа (в особенности, если речь идет о написании статьи или, как в нашем случае, диссертации, то есть жанр подразумевает строгую ограниченность объема работы).

Подобный подход может быть особенно полезен, когда изучается респондентов/информантов по данному вопросу не известно.

Альтернативный вариант проведения тематического анализа предоставляет более подробный анализ одной темы или группы подтем. Она может соотноситься с конкретным вопросом или областью интересов (семантический подход/см. ниже), или к определенной «латентной» теме (см. ниже) всего или большей части корпуса текстов.

Вопрос 3. Индуктивный или теоретический тематический анализ? Темы или паттерны в данных могут быть определены двумя основными способами. Тематический анализ может проводиться индуктивно, способом «снизу-вверх» (bottom-up) [например, Frith, Gleeson, 2004], или дедуктивно (теоретически), способом «сверхувниз» (top-down) [например, Boyatzis, 1998]. Индуктивный подход означает, что темы основаны на данных [Patton, 1990] (в подобной форме тематический анализ имеет некоторое сходство с обоснованной теорией). Индуктивный тематический анализ представляет собой кодирование данных без необходимости «вписать» их в уже предубеждения исследователя. В этом смысле, данная форма тематического анализа «управляема» данными (data-driven).

Теоретический тематический анализ, как правило, обусловлен теоретической рамкой исследования, и в том смысле, аналитически «управляем» (analyst driven) Как правило, данная форма тематического анализа обеспечивает менее глубокое описание данных в целом, но более детальный анализ некоторых аспектов данных.

Вопрос 4. Семантические или «скрытые» темы? Следующий вопрос состоит в том, какого «уровня» должны быть темы:

семантические (явные) или скрытые [Boyatzis, 1998]. Обычно тематический анализ сосредотачивается исключительно на одном уровне. В семантическом подходе, эти темы явно определены и эксплицированы в языке, и аналитик не ищет ничего сверх того, что было сказано или написано. В идеальном случае аналитический этап включает в себя переход от описания, в котором данные должны быть представлены для демонстрации закономерностей содержания, к суммированию для интерпретации и теоретического заключения, зачастую с опорой на предыдущий опыт [блестящий пример см. Frith, Gleeson, 2004]. В противоположность, тематический анализ на «скрытом» уровне выходит за рамки семантического содержания и начинает изучать идеи/предположения/ концептуализации/ идеологии, которые лежат в основе основного (наблюдаемого) содержания. Для скрытого тематического анализа характерно не только описание, но и предположение. Тематический анализ в данном виде исходит из конструкционистской стратегии [напр., Burr, 1995] и в таком виде схож с «тематическим» дискурс-анализом [Singer, Hunter, 1999;

Taylor, 2001], детерминанты, лежащие в основе данных.

Схема проведения тематического анализа Некоторые из этапов тематического анализа сходны с этапами других слабоформализованных методов исследования, не являются уникальными для данного метода. Процесс стартует, когда аналитик начинает замечать и искать закономерности в данных, представляющие потенциальный интерес для ответа на исследовательский вопрос. Результатом проведения тематического анализа в идеале является заключение (резюме, вывод, доклад, отчет) об основном содержании текста и смысле основных тем, которые, зачастую, абстрактны и нечетки в исходном тексте [Ryan, Bernard, 2000]. Многие авторы подчеркивают, что темы текста выявляются до, в процесса и после проведения анализа. Анализ предполагает постоянное возвращение к данным, в отличие от статистического подхода, запись является неотъемлемой частью анализа.

использования в припроведении анализа дополнительной литературы.

Некоторые утверждают, что предварительное чтение может сузить аналитическое поле зрения, что невольно заставит исследователя сосредоточиться на некоторых аспектах данных в ущерб другим привлечение дополнительной литературы может повысить качество анализа, предоставив информацию о более тонких особенностях «правильного» метода проведения анализа, конкретная реализация должна быть адаптирована к задачам исследования. Ниже мы опишем 6 основных этапов проведения тематического анализа согласно [Braun, Clarke, 2006]. Однако отметим, что анализ не является линейным процессом и простым следованием из одного этапа в другой - скорее, тематический анализ является рекурсивным процессом.

исследования могут быть собраны самим исследователем либо могут использоваться уже готовые данные для вторичного анализа. Очень важно погрузиться в данные, ознакомиться с их глубиной и широтой содержания, с «периметром» рассматриваемых вопросов. Обычно данный процесс подразумевает необходимость вторичного чтения, поиск смыслов, значений и пр. Это идеальное место в процедуре кодирования, чтобы прочитать весь набор данных хотя бы один раз, прежде чем начать кодирование. Возможно, это прозвучит немного удивительно, но данный этап, зачастую, является причиной отказа от применения неформализованных методов анализа в пользу, например, анкетирования. Для начинающего исследователя достаточно заманчиво пропустить данный этап, либо ознакомиться с материалом выборочно. Настоятельно не рекомендуем этого делать, так как данный этап является основой для дальнейшего анализа. Также на данном этапе рекомендуется начать делать заметки и идеи для кодирования, чтобы вернуться к ним на последующих этапах. Как только данный этап будет завершен, данные готовы для следующего этапа, более формального кодирования.

Этап 2. Создание исходных кодов. Этап начинается после неоднократного прочтения материала и составления списка идей о том, что находится в данных и чем они могут быть интересны.

Данный этап состоит в создании исходных кодов, описывающих содержание данных (декларируемое или имманентное), которое является значимым для изучения феномена. Несомненной детерминантой процесса кодирования на данном этапе является сущность выделяемых тем — являются они индуктивно или дедуктивно выводимыми.

На практике существует огромное количество способов кодирования. При кодировании без использования программного обеспечения исследователь может составлять заметки и коды по ходу прочтения, параллельно выделяя цитаты, иллюстрирующие коды.

Возможен и альтернативный способ — первоначальное выделение кодов и последующее сопоставление их с данными и цитатами. Если исследователь использует программное обеспечение, то автоматически присваиваются коды и тэги.

Браун и Кларк [Braun, Clarke, 2006] дают следующие рекомендации по проведению данного этапа кодирования:

а) Кодируйте как можно больше потенциальных тем (насколько позволят временные ресурсы). Заранее неизвестно, какие темы будут полезны на следующих этапах анализа.



Pages:     || 2 | 3 |


Похожие работы:

«ИЗ ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Рыжова, Елена Львовна Предупреждение производственного травматизма при выполнении работ с повышенными требованиями безопасности на основе автоматизированного компьютерного тренажера­имитатора Москва Российская государственная библиотека diss.rsl.ru 2006 Рыжова, Елена Львовна.    Предупреждение производственного травматизма при выполнении работ с повышенными требованиями безопасности на основе автоматизированного...»

«ПИЛЮГИН АНДРЕЙ ГЕННАДЬЕВИЧ ГЕОХИМИЯ И ПЛАТИНОНОСНОСТЬ ХРОМИТИТОВ НИЖНЕТАГИЛЬСКОГО И СВЕТЛОБОРСКОГО МАССИВОВ, СРЕДНИЙ УРАЛ Специальность 25.00.09 - Геохимия, геохимические методы поисков полезных ископаемых ДИССЕРТАЦИЯ на соискание ученой степени кандидата...»

«Куницына Ирина Валентиновна СПОР В ПРАВЕ И ПРОЦЕССУАЛЬНЫЕ СПОСОБЫ ЕГО РАЗРЕШЕНИЯ 12.00.01 – теория и история права и государства; история учений о праве и государстве диссертация на соискание ученой степени кандидата юридических наук Научный руководитель : доктор юридических наук, профессор Павлушина Алла Александровна...»

«Артюшина Анна Владимировна Сетевые взаимодействия в условиях конкуренции за ресурсы на примере молекулярно-биологических лабораторий в России и США Специальность 22.00.03 Экономическая социология и демография Диссертация на соискание ученой степени кандидата социологических наук Научный руководитель : д.э.н.,...»

«ПОПОВ АНАТОЛИЙ АНАТОЛЬЕВИЧ ФАУНА И ЭКОЛОГИЯ ТАМНО – И ДЕНДРОБИОНТНЫХ ПИЛИЛЬЩИКОВ (HYMENOPTERA, SYMPHYTA) ЦЕНТРАЛЬНОЙ ЯКУТИИ 03.02.05 – энтомология Диссертация на соискание учёной степени кандидата биологических наук Научный руководитель : доктор биологических наук Н.Н. Винокуров Якутск – ОГЛАВЛЕНИЕ Введение. Глава 1. История исследований пилильщиков...»

«Искужина Гульназ Расиховна КОНКУРЕНЦИЯ НА РЫНКАХ ПРОМЕЖУТОЧНОЙ ПРОДУКЦИИ Специальность: 08.00.01 – Экономическая теория Диссертация на соискание учёной степени кандидата экономических наук Научный руководитель – доктор экономических наук, профессор Нусратуллин В.К. Уфа – 2014 2 ОГЛАВЛЕНИЕ ВВЕДЕНИЕ.. Глава 1. КОНКУРЕНТНЫЕ...»

«УДК 616-147-22-007.64.089.053.52 Мирзаев Мансур Муродиллаевич Сравнительная оценка хирургического лечения варикоцеле у детей Специальность: 5А 720202 - Детская хирургия. Диссертация на соискание академической степени магистра Научный руководитель : д.м.н., профессор Шамсиев Азамат Мухитдинович Самарканд – -1ОГЛАВЛЕНИЕ Список условных сокращений.. ВВЕДЕНИЕ.. ГЛАВА I. ОБЗОР...»

«Абызов Алексей Александрович ОБЕСПЕЧЕНИЕ БЕЗОТКАЗНОСТИ ЭЛЕМЕНТОВ ХОДОВЫХ СИСТЕМ БЫСТРОХОДНЫХ ГУСЕНИЧНЫХ МАШИН ПРИ ПРОЕКТИРОВАНИИ НА ОСНОВЕ МОДЕЛИРОВАНИЯ ПРОЦЕССОВ ЭКСПЛУАТАЦИИ И ФОРМИРОВАНИЯ ОТКАЗОВ Специальности: 05.05.03 – Колесные и гусеничные машины 01.02.06 – Динамика, прочность...»

«Раскин Михаил Александрович Сверхслова, меры на них и их полупрямые произведения 01.01.06 – математическая логика, алгебра и теория чисел диссертация на соискание ученой степени кандидата физико-математических наук Научный руководитель д. ф.-м. н., профессор Николай Константинович Верещагин Москва – 2014 2 Содержание Введение...........................»

«ПЕРЦЕВ Дмитрий Васильевич УПРАВЛЕНИЕ ПОРТФЕЛЕМ ПРОЕКТОВ ЗАПУСКА НОВЫХ ПРОДУКТОВ В КОМПАНИИ НА РЫНКЕ ТОВАРОВ ПОВСЕДНЕВНОГО СПРОСА Специальность 08.00.05 – Экономика и управление народным хозяйством (менеджмент) Диссертация на соискание ученой степени кандидата экономических наук Научный руководитель д.э.н., проф. Аньшин В. М. Москва – 2013 ВВЕДЕНИЕ. 1. ТЕОРЕТИКО-МЕТОДОЛОГИЧЕСКИЕ ПРОБЛЕМЫ УПРАВЛЕНИЯ ПОРТФЕЛЕМ...»

«БЕРЕЖНАЯ ЕЛИЗАВЕТА СЕРГЕЕВНА КОНЦЕПЦИЯ СТРАТЕГИЧЕСКОГО ИННОВАЦИОННОГО УПРАВЛЕНИЯ НА РЕГИОНАЛЬНОМ ФАРМАЦЕВТИЧЕСКОМ РЫНКЕ Диссертация на соискание ученой степени доктора фармацевтических наук 14.04.03 – организация фармацевтического дела 2 Пятигорск – 2014 3 СОДЕРЖАНИЕ ВВЕДЕНИЕ 4 ХАРАКТЕРИСТИКА ИННОВАЦИОННОГО УПРАВЛЕНИЯ В 17 ГЛАВА 1 СТРАТЕГИЧЕСКОМ РАЗВИТИИ ФАРМАЦЕВТИЧЕСКОГО РЫНКА.. Диалектика инноваций как инструмент стратегии развития системы 1.1 лекарственного обращения.....»

«ЧИСТЯКОВ ДМИТРИЙ ГЕННАДЬЕВИЧ РАЗРАБОТКА ТЕХНОЛОГИИ ИЗГОТОВЛЕНИЯ ЧУГУННЫХ ОТЛИВОК СТЕКЛОФОРМ С ПОВЫШЕННЫМ ЭКСПЛУАТАЦИОННЫМ РЕСУРСОМ Специальность 05.16.04 Литейное производство Диссертация на соискание ученой степени кандидата технических наук Научный руководитель доктор технических наук, профессор И.О. Леушин Нижний Новгород ОГЛАВЛЕНИЕ ВВЕДЕНИЕ Глава 1. ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИЙ ОБЗОР СОСТОЯНИЯ ВОПРОСА...»

«БОГИНСКАЯ Анна Станиславовна АВТОКЛАВНОЕ ОКИСЛЕНИЕ ВЫСОКОСЕРНИСТЫХ 1 ПИРИТНО-АРСЕНОПИРИТНЫХ ЗОЛОТОСОДЕРЖАЩИХ ФЛОТАЦИОННЫХ КОНЦЕНТРАТОВ Специальность 05.16.02 – Металлургия черных, цветных и редких металлов ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических...»

«Пименова Надежда Борисовна Формирование эффективно функционирующей производственной инфраструктуры отрасли льноводства (на материалах Удмуртской Республики) Специальность: 08.00.05 – Экономика и управление народным хозяйством (экономика, организация и управление предприятиями, отраслями, комплексами АПК и сельское хозяйство)...»

«ИЗ ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Карл, Наталия Николаевна Метафорический аспект репрезентации категории качества в современном немецком языке Москва Российская государственная библиотека diss.rsl.ru 2006 Карл, Наталия Николаевна Метафорический аспект репрезентации категории качества в современном немецком языке : [Электронный ресурс] : Дис. . канд. филол. наук  : 10.02.04. ­ М.: РГБ, 2006 (Из фондов Российской Государственной Библиотеки) Германские языки Полный текст:...»

«ЖУКОВА НАТАЛЬЯ НИКОЛАЕВНА МИГРАЦИОННАЯ ПОЛИТИКА ЕВРОПЕЙСКОГО СОЮЗА Специальность 07.00.03 – Всеобщая история (Новая и новейшая история) ДИССЕРТАЦИЯ на соискание ученой степени кандидата исторических наук Научный руководитель : доктор исторических наук, профессор Аникеев А. А. СТАВРОПОЛЬ - 2005 ОГЛАВЛЕНИЕ ВВЕДЕНИЕ.. ГЛАВА I. ОБРАЗОВАНИЕ ЕВРОПЕЙСКИХ СООБЩЕСТВ: НАЧАЛО 1950 – СЕРЕДИНА 1970-Х гг. 1.1.Интеграционные процессы в Западной...»

«САЙТАЕВА Татьяна Ильинична ЯЗЫКОВАЯ ПРИРОДА СОЦИАЛЬНЫХ СТЕРЕОТИПОВ 09.00.11 – социальная философия Диссертация На соискание ученой степени Кандидата философских наук Научный руководитель : доктор философских наук, профессор О.Н. Бушмакина. Ижевск 2006 СОДЕРЖАНИЕ Введение.. ГЛАВА I. Стереотипизация социальной...»

«ИЗ ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Клявлина, Яна Марсовна Совершенствование хозяйственной деятельности предприятия на основе развития инновационных процессов Москва Российская государственная библиотека diss.rsl.ru 2006 Клявлина, Яна Марсовна Совершенствование хозяйственной деятельности предприятия на основе развития инновационных процессов : [Электронный ресурс] : На примере МУП Уфаводоканал : Дис. . канд. экон. наук  : 08.00.05. ­ Уфа:...»

«Захарова Татьяна Владимировна МОНИТОРИНГ ФАКТОРОВ РЕГИОНАЛЬНОЙ ПРОДОВОЛЬСТВЕННОЙ БЕЗОПАСНОСТИ (НА ПРИМЕРЕ ОТРАСЛИ РАСТЕНИЕВОДСТВА СТАВРОПОЛЬСКОГО КРАЯ) Специальность 08.00.05 – Экономика и управление народным хозяйством: экономическая безопасность Диссертация на соискание ученой степени кандидата экономических наук Научный руководитель доктор экономических наук профессор А.И. Белоусов Ставрополь – Оглавление Введение 1.1. Устойчивое...»

«ДЕМУРА Татьяна Александровна МОРФОФУНКЦИОНАЛЬНЫЕ И МОЛЕКУЛЯРНОГЕНЕТИЧЕСКИЕ ОСОБЕННОСТИ НЕДИФФЕРЕНЦИРОВАННОЙ ФОРМЫ ДИСПЛАЗИИ СОЕДИНИТЕЛЬНОЙ ТКАНИ В АКУШЕРСКОГИНЕКОЛОГИЧЕСКОЙ ПРАКТИКЕ 14.03.02 - патологическая анатомия...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.