Курс «Корпусная лингвистика» (А.Б. Кутузов)
Лицензия Creative commons Attribution Share-Alike 3.0 Unported
Корпусная лингвистика
Лекция №1
Оглавление
Корпусная лингвистика
Технические детали
Понятие лингвистического корпуса
Эмпирический подход в сравнении с хомскианской лингвистикой
История корпусной лингвистики
Технические детали Курс «Корпусная лингвистика» читается студентам специальности «Перевод и переводоведение» с двоякой целью. Во-первых, знание основ этой ветви науки о языке входит в требования к кругозору любого лингвиста с высшим образованием. Эту цель можно назвать «информирующей». Во-вторых, методы корпусной лингвистики могут быть чрезвычайно полезны и для перевода текстов. В этом аспекте данный курс даёт студентам возможность овладеть инструментами, которые облегчают труд переводчика.
Кроме того, изучение корпусной лингвистики предоставляет студентам большую свободу в выборе интересной темы дипломной работы.
Данный курс предусматривает 12 лекций. Практические занятия планом не предусмотрены, но могут быть проведены за счёт других предметов (необходим компьютерный класс). Рабочую программу курса (в том числе и список рекомендованной литературы) можно посмотреть на сайте кафедры перевода и переводоведения.
Вот план лекций по курсу:
1. Вводная лекция. Понятие лингвистического корпуса. История корпусной лингвистики.
Корпусный (эмпирический) подход в сравнении с хомскианской лингвистикой.
2. Задачи и основные направления корпусной лингвистики. Корпусная лингвистика и компьютерная лингвистика.
3. Предмет исследования. Развитие лингвистических корпусов в мире. Первое и второе поколение корпусов.
4. Типы корпусов: устные и письменные, одноязычные и многоязычные.
5. Типы корпусов: аннотированные и неаннотированные. Лингвистическая аннотация и метаданные.
6. Лингвистические исследования на базе корпуса: изучение лексики.
7. Лингвистические исследования на базе корпуса: изучение других уровней языка.
8. Методы извлечения информации из корпуса. Типы извлекаемой информации.
Конкорданс. Программы для работы с корпусами.
9. Создание своего корпуса. Планирование. Сбор и оцифровка данных. Кодировка Курс «Корпусная лингвистика» (А.Б. Кутузов) Лицензия Creative commons Attribution Share-Alike 3.0 Unported текста.
10. Аннотирование корпуса. Хранение, публикация и обновление корпусов.
11. Заключительная лекция. Основные проблемы и направления развития современной корпусной лингвистики.
12. Защита проектов.
Для зачёта необходимо будет пройти компьютерное тестирование и защитить проект.
Проект будет состоять из небольшого тренировочного корпусного исследования. В принципе, это исследование вполне может затем вырасти в дипломную работу.
Лекции будут доступны с компьютера в этой аудитории и с сайта кафедры. Кроме лекций желательно почитать литературу из списка.
Понятие лингвистического корпуса Прежде, чем говорить о корпусной лингвистике, необходимо определить само понятие лингвистического корпуса. По-английски это будет linguistic corpus или text corpus, множественное число linguistic corpora (corpuses употребляется реже). Существует довольно много определений, которые сходятся в одном: корпус есть «некоторый филологический объект». Вот несколько дефиниций:
корпус — это организованное определённым образом словесное единство, элементами которого являются тексты или специальным образом отобранные отрывки из текстов;
корпус – это набор лингвистических данных из определённого языка в форме записанных высказываний или письменных текстов, доступный для анализа;
корпус — это набор естественных текстов на любом языке, устных или письменных, который хранится в электронном виде и позволяет организовать компьютеризированный поиск;
пожалуй, наиболее полное определение: корпус есть собрание отрывков текстов в электронной форме, отобранных в соответствии с внешними критериями, чтобы наиболее полно представлять язык или вариацию языка. Функционирует как источник данных для лингвистических исследований. (John Sinclair) Вот примеры корпусов:
тексты конкретного писателя или писателей;
тексты за конкретное десятилетие или столетие;
современные тексты определённой тематики;
современные тексты, адекватно представляющие язык или общество.
В одном из определений было сказано, что корпус может быть как устным, так и письменным. Вообще, существует мнение, что лингвистические корпусы не являются ни устными, ни письменными, ни печатными, а представляют собой четвёртую фактуру речи — тексты на машинном носителе — тот самый digital text. Впрочем, с этим взглядом можно спорить.
Понятно, что корпус — это набор текстов, с которыми можно что-то делать. Но что же может делать корпус? Ответ может показаться неожиданным: сам корпус не может делать ничего. Но мы можем использовать специальное программное обеспечение, чтобы искать в корпусе что-либо и производить некоторые вычисления. Что же мы можем искать? В первую очередь, это слова и фразы, которые имеют культурную или лингвистическую значимость.
Курс «Корпусная лингвистика» (А.Б. Кутузов) Лицензия Creative commons Attribution Share-Alike 3.0 Unported Кроме того, предметом поиска могут являться какие-либо пометки, которые вы добавили к корпусу, например, пометка «существительное».
А вот примеры того, что может нам выдать поиск по корпусу:
все употребления выбранного слова в непосредственном контексте;
вариации и последовательность в использовании лексики;
слова, которые чаще всего стоят рядом с выбранным словом;
наиболее важные различия между двумя наборами текстов;
как тот или иной писатель использует слова и фразы;
интертекстуальность: значение слова как сумма его употреблений;
скрытые (потенциальные) модели использования лексики;
развитие концептов во времени;
сравнение языков.
В частности, нам, как переводчикам, наиболее актуальны возможности поиска контекстов слов, имеющих несколько переводных эквивалентов, а также подбор эквивалентов терминологических и фразеологических словосочетаний в параллельных корпусах, о которых мы будем говорить в следующих лекциях.
Важнейшее свойство корпуса – репрезентативность, то есть, способность отражать все свойства проблемной области. Репрезентативность определяется фонетическими, морфологическими, синтаксическими и стилевыми параметрами корпуса. Именно репрезентативность отличает корпус от простого набора текстов. Не в последнюю очередь репрезентативность зависит от размера корпуса.
Эмпирический подход в сравнении с хомскианской лингвистикой Некоторые русскоязычные источники указывают, что впервые идея о том, что достоверные лингвистические данные могут быть получены лишь из большого массива текстов, была высказана Р.Г. Пиотровским в 60-х годах. На самом деле, осмысленные исследования в области корпусов начались ещё в сороковые годы (Блумфилд, Фрайс и Бонджерс). Но в 50-60-е годы возобладала концепция Ноама Хомского 1 (хомскианская лингвистика, chomskyan linguistics). Она заключалась в том, что нужно изучать лишь competence (языковое знание, «язык» по Соссюру), а не performance (языковое употребление, «речь» по Соссюру). Ведь число высказываний естественного языка бесконечно, поэтому исследовать их бессмысленно. С другой стороны, количество языковых правил, которые и составляют competence, конечно. Поэтому их можно исследовать. Таким образом, произошёл уход от эмпирики в сторону рационализма и интроспекции (использования интуиции носителей языка). Тем не менее, некоторые учёные продолжали использовать корпусные методики и в период безраздельного господства генеративной лингвистики.
Причина повышения интереса к корпусным исследованиям в последнее время — появление компьютеров, которые сделали возможной обработку огромных массивов текстов.
Кроме того, всё больше учёных склоняется к тому, что интроспекция как метод изучения языка не всегда адекватна, и более научно опираться на естественные данные. Известные корпусные лингвисты Тони Мак-Эннери и Эндрю Уилсон пишут, что нужно использовать и эмпирику, и интроспекцию, и искусственные данные, и естественные. Корпусная лингвистика ни в коем случае не отрицает ценности и необходимости речевых данных, не представленных в корпусной форме. Кроме того, из корпуса текстов невозможно извлечь все возможные лингвистические выводы, то есть, корпус текстов не является самодостаточным 2.
1 Основатель генеративной лингвистики 2 Например, корпус в принципе не может дать ответ на вопрос, какие конструкции в данном языке Лицензия Creative commons Attribution Share-Alike 3.0 Unported Так, Чейф считает, что корпусный лингвист должен не только описывать явления языка, но и стараться объяснить их. Вообще, в центре внимания корпусной лингвистики оказалась языковая личность, то есть, её речевая деятельность, массовая коммуникация, проблема её описания.
В этой таблице (её автор — Владимир В. Рыков) показаны основные отличия корпусной лингвистики от традиционной (хомскианской):
Основное внимание – изучение речи Основное внимание – изучение языка Цель – описание языка в том виде, как он Цель – описание и объяснение языка проявил себя в речи, представленной в виде специально подобранного корпуса текстов В своих исследованиях опирается на данные В своих исследованиях идёт от теории к её Предпочитает квантитативные Предпочитает квалитативные Видит себя частью традиций, базирующихся Видит себя частью традиций, базирующихся на эмпирических методах на рационалистических методах Текст рассматривается как некоторая Текст рассматривается как некоторая Составление грамматики конкретных Изучает языковые универсалии языков Основное внимание уделяется форме Основное внимание – не только форме, но и Рассматривает тексты в глобальной Рассматривает тексты в локальной Фокусирует своё внимание на как можно Анализирует некоторую конкретную, более широком взгляде на текст, искусственно ограниченную, проблемную В своих выводах опирается на наблюдение Опирается на интуицию в отборе речевого речевой деятельности, проявленной в виде материала, в отборе эмпирических Часто пользуется вероятностными Предпочитает логические рассуждения методами и статистикой для первичной обработки речевого материала Проводится работа с лингвистическими Предпочитаются искусственные примеры, из данными (словоупотреблениями) в том виде, изолированных от текста словоупотреблений в каком они встречались в контексте Предпочитает индуктивные методы Предпочитает дедуктивные методы обработки эмпирического словесного обработки эмпирического словесного материала, считает их сутью научного метода материала невозможны Лицензия Creative commons Attribution Share-Alike 3.0 Unported Верит в научные открытия, основанные на Верит в открытия, основанные на обработке эмпирических данных процедурах, оценках, сравнениях и т.д.
История корпусной лингвистики Собственно, корпусы люди составляли и изучали ещё до появления корпусной лингвистики, начиная с XVIII века. Примеры: исследования Библии (Cruden и многие другие), составление словарей (Johnson, Oxford English Dictionary, Webster Dictionary), преподавание языков (частотный корпус Thorndike'а, 1921), дескриптивная грамматика (Fries, 1940, Quirk, 1968).
Корпус Квирка (Survey of English Usage) включал один миллион словоупотреблений и изначально представлял собой один миллион карточек размером 6 на 4 дюйма, 17 строк текста на каждой. Этот корпус стал последним не электронным. Его составление заняло лет, и к 1989 году, когда он был закончен, технология ушла далеко вперёд. Пришлось срочно переводить корпус в цифровую форму. Теперь этот корпус доступен в Юниверсити Колледж в Лондоне.
Основные вехи создания компьютерных корпусов:
1. 1960-е: Брауновский корпус, (США), 1 млн. слов 2. 1970-е: LOB корпус (Великобритания, Норвегия), 1 млн. слов 3. 1980-е: Машинный Фонд русского языка 4. Уппсальский корпус русского языка (Швеция), 1 млн. слов 5. 1990-е: British National Corpus, 100 млн. слов, национальные корпуса (венгерский, итальянский, хорватский, чешский, японский) объёмом 100 млн. слов 6. The Bank of English, Birmingham (Collins Cobuild), 600 млн. слов 7. 2000-е: American National Corpus, 100 млн. слов 8. Corpus of Contemporary American English, 400 млн. слов.
9. Национальный корпус русского языка, 140 млн. слов 10. Gigaword corpora: английский, арабский, китайский, 2 млрд. слов Таковы основные продукты деятельности корпусной лингвистики на сегодняшний день. В.В. Рыков даже пишет, что корпусная лингвистика – спорный термин, так как непонятно, имеется ли в виду наука о том, как создавать корпусы или же лингвистика, основанная на данных из корпусов. На практике, обычно под корпусной лингвистикой понимают и то, и другое. То есть, корпус для корпусной лингвистики, с одной стороны, исходный речевой материал, с другой – результат деятельности.
Подытоживая:
Корпусная лингвистика сделала возможным:
1. Уточнить результаты и выводы проведённых ранее исследований речи.
2. Произвести новые, более широкие и системные (по охвату эмпирического речевого материала) лингвистические исследования.
Рекомендуемая литература 1. Список основной литературы по теме: http://scholar.google.com/scholar?
q=corpus+linguistics&hl=en&lr=&btnG=Search 2. Список последних статей по теме: http://scholar.google.com/scholar?
Лицензия Creative commons Attribution Share-Alike 3.0 Unported q=corpus+linguistics&hl=en&lr=&scoring=r&as_ylo= 3. Гальперин И.Р. Текст как объект лингвистического исследования. - М.: Едиториал УРСС, 2005. - 144 с.
4. Коваль С.А. Роль корпуса в создании реалистичных моделей словоизменительной морфологии. URL: http://skowal.narod.ru/research/corpora2006/Koval_Corpora.2006.htm 5. Марчук Ю.Н. Основы компьютерной лингвистики. - М.: Изд-во МПУ, 6. Плунгян В.А. Почему современная лингвистика должна быть лингвистикой корпусов.
7. Рыков В.В. Курс лекций по корпусной лингвистике. URL: http://rykovcl.narod.ru/c.html 8. Kennedy, Graeme. An Introduction to Corpus Linguistics / Graeme Kennedy. - London:
Longman, 1998. - 315 p 9. Tony McEnery, Andrew Wilson. Corpus Linguistics. - Edinburgh University Press, 2001.
URL: http://books.google.com/books?id=nwmgdvN_akAC 10.Developing linguistic corpora: a guide to good practice. Edited by Martin Wynne. URL:
http://www.ahds.ac.uk/creating/guides/linguistic-corpora/index.htm 11.D Biber, S Conrad, R Reppen. Corpus Linguistics: Investigating Language Structure and Use. - Cambridge University Press, 1998. URL: http://books.google.com/books?
id=2h5F7TXa6psC 12.ICAME (International Computer Archive of Modern and Medieval English) Journal. URL:
http://icame.uib.no/journal.html