Слово в предложении - Л.М. Ковалева 2010

Лексическая единица в структуре предложения
Исследование слова и предложения компьютерными методами: цели и перспективы

С.Ю. Богданова

Лингвистические исследования с помощью современных компьютерных технологий часто называют «объективными» или квантитативными. Как правило, они проводятся на обширном репрезентативном материале, что существенно повышает вероятность правильности выводов и обобщений. Компьютерная лингвистика не может заменить собой специалиста, интерпретирующего полученные данные и делающего на их основании теоретические выводы, но она должна «накапливать и упорядочивать колоссальный и расширяющийся массив фактического материала, быстро и безукоризненно обрабатывать его с помощью компьютерных программ и удерживать пользователя от поспешных и субъективных выводов» (Хроленко 2010, 330).

Здесь мы остановимся на возможностях применения компьютерных и, в первую очередь, корпусных технологий в решении проблем, связанных со словом и предложением. То, что объективные методы базируются на исследовании слова, представляется совершенно логичным. Ведь именно слово, несмотря на сложность его теоретического определения, является реальной сущностью, в звуковой или графической форме доступной восприятию человека. Слово достаточно компактно, легко выделимо, его значения, общие для членов данного языкового сообщества, зафиксированы в лексикографических источниках, за ним закреплены определенные грамматические характеристики.

Несмотря на то, что корпусная лингвистика существует уже несколько десятилетий, для многих лингвистов она представляется достаточно сложной и чуждой традиционному языкознанию в силу большого количества математических формул, таблиц, непривычных символов. Сложность, на наш взгляд, заключается в том, что, с одной стороны, «чистые» лингвисты не имеют достаточной математической подготовки и не могут самостоятельно составлять компьютерные программы для проведения интересующих их экспериментов, с другой стороны, программисты и математики далеки от лингвистических проблем, и поэтому им бывает трудно понять, какие задачи должны решать создаваемые ими программы. В настоящее время данное противоречие решается несколькими способами: во-первых, лингвисты могут получить дополнительное образование в области программирования, во-вторых, программисты могут получить лингвистическое образование, и, наконец, в-третьих, во многих высших учебных заведениях существуют кафедры математической и прикладной лингвистики, которые готовят специалистов в обеих областях. Выпускники таких кафедр в настоящее время осуществляют серьезные проекты по созданию Национального корпуса русского языка (НКРЯ, доступного по адресу http://ruscorpora.ru, объемом более 170 миллионов словоупотреблений), снятию функциональной неоднозначности, составлению электронных словарей и тезаурусов и мн. др. В некоторых случаях создаются творческие коллективы, объединяющие представителей лингвистики и программирования. Роль лингвиста состоит в том, чтобы поставить конкретную теоретическую цель, четко сформулировать задачи, принять решение о том, какой материал и в каком объеме должен быть использован, верифицировать собранный материал, оценить промежуточные итоги работы программы с собранным материалом, скорректировать в случае необходимости цель и задачи, сделать выводы и описать результаты. Программист выбирает средства для решения конкретных задач, составляет и корректирует программы, осуществляет вычисления, предоставляя достоверные данные лингвисту.

Как самостоятельный раздел компьютерной лингвистики, российская корпусная лингвистика во многих аспектах «догоняет» американскую и европейскую, в особенности скандинавскую, лингвистику. Так, Национальный корпус русского языка был сформирован относительно недавно, значительно позже корпусов русского языка (разумеется, не национальных), созданных в Швеции (Уппсальский корпус русского языка http://www.slaviska.uu.se/korpus.htm объемом 1 миллион словоупотреблений) и Финляндии (Корпус русского языка ХАНКО http://www.ling.helsinki.fi/projects/hanco/ объемом 100 тысяч словоупотреблений с ручной морфологической разметкой). Тем не менее, поскольку большинство работ в русле корпусной лингвистики проводится при финансовой поддержке федеральных грантов и целевых программ, уже многое сделано в этом направлении, и достижения отдельных научных коллективов уже получили положительную оценку в научных кругах международного лингвистического сообщества.

Проблемы, которые в настоящее время стоят на повестке дня корпусных исследований, поднимаются, в частности, в международной электронной рассылке Corpora.list (Corpora mailing list, [email protected], http://mailman.uib.no/listinfo/corpora). Многие из них носят прикладной характер. Первой и самой актуальной задачей является разработка методов и способов создания и применения корпусов. Многочисленные статьи затрагивают вопросы разработки соответствующим образом размеченных корпусов на том или ином языке, их использования в учебных целях, в практике перевода, в целях интеллектуального анализа данных (data mining) и т.д. (Богданова, Дулатова 2010).

Проведенный нами обзор публикаций*, посвященных различным проблемам компьютерной и, в частности, корпусной лингвистики, выявил несколько важных направлений в отечественной лингвистике, в основе которых лежит исследование слова. Представляется, что центральными из них являются лексикографическое и литературоведческое направления, исследование текста, выделение параметрического ядра лексики различных языков для создания лексико-семантической типологии языков, снятие функциональной омонимии.

Лексикографическое направление является на данный момент основным в корпусной лингвистике, поскольку построение конкордансов изначально, еще в «доцифровую» эпоху было основой для создания словарей. Конкорданс здесь понимается как список всех употреблений определенного слова в контексте со ссылками на источник. Внутри данного направления можно выделить следующие виды деятельности:

1) частотный анализ лексики;

2) создание конкордансов по различным основаниям;

3) создание электронных словарей;

4) создание словарей отдельных авторов.

Частотный анализ лексики проводится на базе корпусов текстов. Он представляет собой простейшее действие над корпусом, позволяющее в считанные секунды получить информацию об использовании того или иного слова, например, в Национальном корпусе русского языка, в поэтическом корпусе ХIХ века, в корпусе произведений А.С. Пушкина, корпусе афоризмов, корпусе журнальных статей, корпусе агиографических текстов (жития святых) и т.д. Сама по себе частотность употребления слова ни о чем не говорит, однако она приобретает важное значение при ее сравнении с частотностью употребления других слов в тех же корпусах или при диахроническом или жанровом (регистровом) сопоставлении. Такую информацию можно получить с помощью конкордансов.

Создание конкордансов рассматривается как первый этап в работе по составлению словаря. Желательно, чтобы конкорданс имел несколько «входов», например, по лемме, или заглавному слову, по индексу частотности, или количеству словоупотреблений, по части или странице произведения, если эти части подлежат аннотированию. Если конкорданс обеспечивает возможность «входа» специалистов разных сфер, предоставляя разнообразные анализируемые параметры, такой конкорданс превращается в способ систематизации основной информации о каждом словоупотреблении. При наличии электронной версии текста исследователю предоставляется возможность электронного поиска, который отличается не только несравнимо большей скоростью, но и высокой степенью надежности. Очень быстро можно получить упорядоченное множество слов в алфавитном порядке или по степени убывания частотности (Проценко 2010, 228). Примерами электронных конкордансов могут быть конкорданс к русским народным песням (Хроленко 2010, 326), конкорданс персонажей волшебных сказок (Рафаева 2010, 248), сводный конкорданс по всем произведениям Ф.М. Достоевского и мн. др.

Вслед за составлением лемматизированного конкорданса, как правило, наступает этап составления на его базе электронного словаря. Конкорданс, предоставляя (многочисленные) контексты употребления слов, позволяет выделить основные значения слова по его сочетаемости, месту в синтаксической структуре предложения и т.д. Так, на основе конкордансов были построены «Словарь языка русского фольклора» (Хроленко 2010, 327), «Словари русской поэзии Серебряного века», «Словарь редких слов», «Словарь поэтических цитат» (http://lexrus.ru). Подобные словари могут служить источником информации о составе и структуре лексикона того или иного автора (группы авторов), источником семантической информации о слове, общем характере и стилистических особенностях его употребления, источником исследования языковых черт отдельных авторов, источником цитат и источником многостороннего изучения языка определенного периода (Шестакова 2010, 339).

В настоящее время актуальность приобретает составление словарей различных авторов в рамках так называемой «авторской лексикографии» (Кулева 2010, 140). В частности, составляются электронные словари языка поэтов и писателей XVIII-XIX вв. Данные словари могут применяться в литературоведческих исследованиях.

Литературоведческое направление в современной корпусной лингвистике, использующее данные об употреблении слова, представлено исследованиями индивидуальных стилистических особенностей языка авторов, употребленных ими неологизмов или других редких слов (Шестакова 2010, 334), сравнительным анализом маркем в творчестве определенных авторов (Кашкина 2010, 101), где под «маркемами» понимаются ключевые слова, характерные для определенного жанра, тематики, временнóго промежутка в развитии литературы. Такой сравнительный анализ позволяет исследовать эволюцию лексики (например, поэтической) в определенный период. Через анализ текстов объективными методами можно проследить близость авторов определенного периода и в перспективе с расширением периода времени и количества авторов исследовать генеалогию литературы на определенном языке, например, генеалогию русской литературы (Кретов, Катов, Фаустов 2010, 114).

В настоящее время существует апробированная методика вычисления индекса тематической маркированности (ИнТеМа), или авторского веса, который представляет собой квантитативную характеристику встречаемости словоформы в том или ином тексте (Кашкина 2010, 102). Сначала составляется частотный словарь всех словоформ, встречающихся в произведениях определенного автора, и с помощью специальных таблиц вычисляется относительная частота словоформ и их функциональный вес. Затем слова пропускают через систему фильтров: частеречного (выбираются только имена существительные), грамматического (выбираются только имена существительные в им. п.), грамматико-семантического (исключаются все онимы и все одушевленные существительные, кроме слова человек), тематико-семантического (удаляются все стилистически окрашенные слова, названия артефактов, кроме имеющих символическое значение, лексемы, связанные с определенным жанром), а также некоторых других. Таким образом, к маркемам относится абстрактная лексика (добродетель, любовь, искусство), натурфакты (солнце, небо, поле), артефакты-символы (кинжал в поэзии М.Ю. Лермонтова) (методика А.А. Кретова). В результате из всех полученных маркем выбираются первые 50 словоформ с максимальным индексом тематической маркированности, прошедшие через все указанные фильтры. Далее исследователь может проводить любые операции с отобранными маркемами, например, группировать их тем или иным образом, выявлять специфические маркемы для определенных периодов, маркемы, перешедшие из одной группы в другую, и маркемы, сохранившие свою принадлежность к группе. Подобные операции позволяют проследить динамику словарного состава языка на протяжении нескольких хронологических срезов (Кашкина 2010, 113). Можно также выяснить, сколько и каких общих маркем у данного автора с каждым из авторов предшествующих или последующих хронологических срезов, и, применяя коэффициент корреляции, выявить его «литературного потомка» или «литературного предка» (Кретов, Катов, Фаустов 2010, 119). При проведении кластерного анализа массива маркем авторов можно получить результаты о периодизации развития национальной литературы, например, русской литературы XVII —начала ХХ веков (Селезнев, Кретов 2010, 272).

В работах, посвященных таким жанрам, как сказка, народная песня, фольклорный текст и др. описывается методика исследования текста с применением технологий корпусной лингвистики на основе изучения слова. Например, система СКАЗКА-2, разрабатываемая А.В. Рафаевой, является инструментом для исследования текста, облегчающим работу по выбору текстов или фрагментов текста, отвечающих некоторым заданным критериям, по составлению словарей, конкордансов, списков признаков, например, «признаков, позволяющих определить, что в волшебной сказке есть мотивы чудесного рождения, драконоборчества» (Рафаева 2010, 248). Фольклорный текст имеет свои особенности, поэтому слово (словоформу) недостаточно понимать как последовательность символов. Его нужно понимать как часть системы, учитывая закономерности, которые влияют на эту единицу; например, помимо общеязыковых, нужно учитывать законы, действующие в фольклорных текстах: повторяемость, частое использование формул и др.). Специально созданные на материале сказок электронные словари позволяют быстро определить, используется ли данная словоформа только в одной сказке, в нескольких (возможно, связанных местом записи, именем собирателя или жанром) или распространена более широко. Создание подобного рода частотных словарей ложится в основу описания семантических отношений между лексемами. Данная задача также решается автоматически путем применения методики построения направленного графа, в котором значения лексемы представляют собой не цепочку, а узел графа. Узлы графа объединяются отношениями «толкуемое-толкующее» или «частное-общее». Можно также создавать цепочки, описывающие отношения «вариант названия персонажа — название персонажа — роль персонажа в сказке» (мишка — медведь — дикое животное — обманутый), или другие. С помощью такого словаря можно осуществлять автоматический поиск сказочных реалий в фольклорных текстах (Рафаева 2010, 261).

В рамках выделенного нами направления исследования текста с опорой на изучение слова объективными методами можно также восстановить инвариант рекурсивного текста. Основанием для объединения множеств вариантов одного сюжета в один общий инвариант являются свободное варьирование и дополнительное распределение (Стекольникова 2010, 287). Процедура построения инварианта сказки рекурсивной структуры заключается в сопоставлении лексических парадигм всех его вариантов и выборе из них наиболее подходящих лексем для выражения переменных нового инварианта. Обычно в центре внимания оказывается самый нейтральный, немаркированный вариант. Анализ лексических парадигм позволяет определить, являются ли тексты вариантами одного произведения (Стекольникова 2010).

Сравнительно недавно ведущими лингвистами Воронежского государственного университета была поставлена задача выделения параметрического ядра лексики в различных языках с целью создания базы для лексико-семантической типологии языков (Титов, Кретов 2010, 302). По мнению авторов, на сегодняшний день проблема выявления и представления лексики отдельно взятого языка как системы не решена ни для одного из языков, а имеющийся опыт типологического описания фрагментов лексики в значительной степени ориентирован на внешнюю лингвистику, а не на внутреннюю. Важнейшим шагом на пути к лексико-семантической типологии является выделение ядер лексико-семантических систем языков мира. В настоящее время методика параметрического анализа лексики (автор — В.Т. Титов; см. Титов, 2006) разработана и апробирована на материале нескольких языков (романские (Титов 2002; Огаркова 2010; Долбилова 2010), английский (Милованов 2010), немецкий (Казакова 2010), карачаево-балкарский (Семенова 2010)). Данная методика заключается в выделении ядра размером в 1000 слов по каждому из 4-х параметров: функциональному (характеризует активность слова в речи (тексте)), синтагматическому (характеризует количество фразеологически связанных употреблений слова), парадигматическому (характеризует количество и длину синонимических рядов слова), эпидигматическому (характеризует многозначность слова). В результате анализа словарей по всем четырем параметрам можно получить удельный вес по каждому из них и сформировать ядро из приблизительно 1000 слов, суммарный вес которых по различным параметрам окажется наибольшим. Эти слова наиболее важны в системном отношении и содержат информацию, необходимую для развертывания словаря на любую необходимую обществу величину (Титов, Кретов 2010, 306). Выделение параметрических ядер лексико-семантических систем всех (в идеале) языков даст основание для построения типологической таксономии.

Для некоторых целей, например, морфологических исследований, можно использовать неразмеченный (неаннотированный) корпус текстов, однако чаще всего корпус подвергается морфологической или синтаксической разметке, когда словам, словосочетаниям или предложениям присваиваются определенные тэги — специальные значки, например, NP — для имени собственного, VBD — для глагола в аспектуально-временной форме Past Simple и т.д. Кроме того, существует метаязыковая разметка, когда, например, указываются все выходные данные текста. Тип аннотации и количество прикрепляемых к словам тэгов зависит от целей, которые ставит перед собой составитель корпуса. В каждом языке есть ряд форм, которые представляют определенную сложность для осуществления качественной разметки в силу своей омонимии (многозначности, неоднозначности)*. Так, в современном английском языке частеречная омонимия обусловлена широким развитием словообразования по конверсии, поэтому для снятия омонимии при морфологической разметке часто используют окружение (правые и/или левые коллокаты — соседние слова). Сочетаемость слова в английском языке с его определенным порядком слов позволяет достаточно четко определить, к какой части речи оно относится. Тем не менее, в силу сложности структур естественного языка, некоторые погрешности в разметке неизбежны.

Для большинства вышеперечисленных направлений лингвистики, в основе которых лежит изучение слова, требуется аннотированный корпус. В русском языке частеречную разметку проводить проще, поскольку за многими частями речи закреплены определенные окончания. Однако существует не менее 57 классов грамматических омонимов, среди которых конверсные пары прилагательное-существительное (бедные, a — бедные, n; богатые, a — богатые, n), а также краткие и усеченные прилагательные, широко распространенные в поэтических текстах и представляющие собой грамматические архаизмы. Усеченные прилагательные можно определить как особого рода краткие прилагательные, а также примыкающие к ним формы причастий, местоимений, порядковых числительных, субстантивов, которые используются в языке поэзии в атрибутивной функции как в именительном и винительном, так и в нескольких косвенных падежах (круглы сутки, братцы милы) (Кулева 2010, 135). Эти формы не получают правильной частеречной интерпретации, так как в русском языке склоняющиеся краткие прилагательные не могут выступать в атрибутивной функции. В существующих программах морфологического анализатора усеченных прилагательных как грамматической формы нет, поэтому в настоящее время невозможно провести корректную компьютерную разметку поэтических текстов многих авторов, использовавших усеченные прилагательные достаточно часто. В словарных статьях такие формы могут быть отнесены как к кратким, так и к полным формам прилагательных, и разные контексты, включающие одну и ту же форму, могут попасть в разные статьи. Выходом из создавшейся ситуации может быть создание словаря усеченных форм, данные которого будут учитываться в компьютерных программах морфологического анализатора.

Для разрешения функциональной омонимии в русском языке применяются статистические методы, метод, основанный на правилах, а также контекстный метод (Невзорова, Колпакова 2010, 175). Создание подобных программ является очень трудоемким. Для каждого типа функциональной омонимии разрабатывается обобщенное правило разрешения омонимии. Структура задает порядок применения правил, который базируется на оценке частотности контекстов. Данный метод дает достаточно высокую оценку точности (не ниже 95%) для различных типов. Есть объективные причины, по которым невозможно добиться стопроцентного результата. Например, оказалось, что контексты также могут быть омонимичными, и тогда для разрешения омонимии требуется полный синтаксический анализ. Кроме того, некоторые контексты сохраняют свою многозначность.

Все рассмотренные выше направления современной отечественной лингвистики используют компьютерные и корпусные методы исследования слова. Именно обработанное специальными программами под руководством лингвиста слово является основой для различного рода лингвистических сравнений, обобщений, построения классификаций и решения типологических задач.

Согласно определению, корпусная лингвистика занимается разработкой общих принципов построения и использования лингвистических корпусов текстов с применением компьютерных технологий. Основанные на корпусных данных лингвистические исследования все чаще проводятся в Иркутском государственном лингвистическом университете. В первую очередь, это работы аспирантов и магистрантов, а также курсовые и дипломные работы студентов. Однако в направлении построения (создания) корпусов пока сделаны первые шаги. В рамках дипломной работы А.В. Чернова, обучавшегося по специальности «Теоретическая и прикладная лингвистика», в 2010 г. был создан корпус текстов. Нами была поставлена цель создания корпуса так называемых законов Мерфи — кратких афористических выражений, в которых концептуализируется негативный жизненный опыт носителей языка (например, «Everything will take longer than you think», «Nothing is as easy as it looks»), или мерфизмов (термин Н.С. Ивановой). Для достижения цели были решены следующие задачи: изучены возможные классификации корпусов с целью определить, каким будет статус данного корпуса, проанализированы различные программы создания и обработки корпусов, осуществлена работа по унификации языкового материала, апробирован готовый продукт. В настоящее время предстоит выявить возможности, предоставляемые созданным корпусом для изучения проблем слова и предложения, поскольку просматриваются перспективы как семантических, так и грамматических исследований.

Все доступные на данный момент мерфизмы на английском языке были собраны Н.С. Ивановой в рамках работы над кандидатской диссертацией на тему «Опыт лингвистического исследования мерфизмов (на материале американского варианта английского языка)», которая была успешно защищена в 2009 году в диссертационном совете ИГЛУ. Н.С. Иванова любезно предоставила нам картотеку мерфизмов для дальнейшей обработки. Иллокутивная цель мерфизмов обусловлена максимой «если быть беде, то ее не миновать» (Иванова 2008, 6). Их употребление ограничено специфическими ситуациями устной коммуникации (общения), которые весьма редко попадают в письменные жанры. Мерфизмы употребляются в дискурсе сообщества носителей общего знания в жанре неформальной устной беседы (там же, с. 7). Всего в нашем распоряжении оказалось 1532 мерфизма, которые носители американского варианта английского языка распределяют по следующим разделам: Murphy's love laws; Murphy's technology laws; Murphy's computers laws; Murphy's commerce laws; Murphy's real estate laws; Murphy's teaching laws; College Student Laws; Laws of War for Tanks; Murphy's sewing laws; Murphy's photography laws и др.

Как правило, перед создателями корпуса стоит проблема собрать как можно большее количество текстов, относящихся к тому подмножеству языка, для изучения которого корпус создается. При этом важным является не только и не столько количество языкового материала, сколько его пропорциональность. Можно сказать, что корпус — это уменьшенная модель языка или подъязыка. Важнейшее понятие корпусной лингвистики — репрезентативность, т.е. необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов и т.п. Практика показывает, что корпусная лингвистика оперирует как минимум двумя разными типами объектов (корпусов текстов):

I. Корпусы первого типа универсальны, они отражают в себе все многообразие речевой деятельности (например, печатную или устную речь).

II. Корпусы второго типа отражают бытование некоторого лингвистического или культурного феномена в общественной речевой практике, они построены ad hoc (для специальной цели) — например, корпус пословиц или корпус политических метафор в газетной речи (Рыков 2002).

Методология конструирования такого объекта, как корпус зачастую должна зависеть от типа корпуса. Репрезентативность как доказанное качество, присущее сконструированному корпусу текстов, определяет достоверность полученных на нем результатов. Составителям корпуса первого типа необходимо решить проблему адекватного отражения, адаптации или интеграции больших массивов текстов или некоторых иных фрагментов речевой деятельности в существенно меньший по объему корпус текстов. Корпус мерфизмов относится ко второму типу, в силу краткости текстов (чаще всего мерфизм состоит из одного (Every problem is replaceable with a bigger one) или двух предложений (Computers are unreliable, but humans are even more unreliable. Any system which depends on human reliability is unreliable), в исключительных случаях — из трех Tell a man there are 300 billion stars in the universe and he'll believe you. Tell him a bench has wet paint on it and he'll have to touch to be sure. Great discoveries are made by mistake) корпус включает в себя только 1801 предложение, 22820 словоупотреблений и 3927 лемм (лексем). Следовательно, в нашем случае нет необходимости пропорционально сужать проблемную область и можно включить в корпус все имеющиеся тексты.

Поскольку цель создания подобного специализированного корпуса текстов заключается не в отражении всего многообразия речевой деятельности, а в отражении бытования конкретного лингвистического феномена в общественной речевой практике, можно констатировать, что в корпусе мерфизмов данный лингвистический феномен отражен корректно.

После того как материал для корпуса был отобран, проверен и унифицирован, мы приступили к заключительному этапу — конвертированию текстов в структуру специализированной лингвистической информационно-поисковой системы (corpus manager), обеспечивающей быстрый многоаспектный поиск и статистическую обработку. Корпусный менеджер — это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме. Корпусный менеджер должен:

1. строить как KWIC (key word in context), так и полные конкордансные списки; искать не только отдельные слова, но и словосочетания; осуществлять поиск по шаблонам (сложные запросы);

2. сортировать списки по нескольким критериям, выбираемым пользователем; давать возможность отображать найденные словоформы в неограниченном контексте;

3. давать статистическую информацию по отдельным элементам корпуса; отображать леммы, морфологические характеристики словоформ и метаданные (библиографические, типологические), что зависит от степени размеченности корпуса;

4. сохранять и распечатывать результаты;

5. работать как с отдельными файлами, так и с корпусами, неограниченными по размеру;

6. быстро обрабатывать запросы и выдавать результаты;

7. поддерживать различные форматы текстовых данных (txt, doc, rtf, html, xml и др.); быть легким (интуитивно понятным) в использовании, как для опытного, так и для начинающего пользователя (Захаров 2005).

В качестве корпусного менеджера в результате проведенного анализа систем Textanz, Concordance, MonoConc Pro, Simple Concordance Program, Linguistic Toolbox 2.0 α-version была выбрана программа Concordance (http://www.concordancesoftware.co.uk), которая отвечает практически всем требованиям, предъявляемым к корпусным менеджерам, и является наиболее гибким и мощным аналитическим программным обеспечением для анализа текстов.

Используя корпус мерфизмов, можно решить, например, следующие лингвистические и лингводидактические проблемы: 1) Соответствует ли жанр законов Мерфи жанру законов? Какие особенности лексики говорят в пользу того, что это законы? 2) Каковы грамматические особенности мерфизмов? 3) Что может сказать частотность слова о его роли в законах Мерфи? 4) Какова сочетаемость слов (правые, левые коллокаты)? 5) Как употребляются глагол have, придаточные с if, степени сравнения прилагательных?

Например, о том, что законы Мерфи стилистически сближаются с собственно (математическими) законами, можно судить по частотности слов always (175)*, never (104), proportional (65), inversely (44), directly (28), if (271), can (91) (основной принцип — If anything can go wrong, it will) и т.д.

Рассмотрим подробнее употребление в корпусе мерфизмов прилагательного proportional.

Пользуясь методикой анализа значения слова по его месту и роли в предложении с помощью конкордансов (Biber et al. 1998), можно определить основные значения слова в текстах, относящихся к определенному жанру (регистру). С целью выявления наиболее общего значения исследуются коллокации слова, т.е. (устойчивые) сочетания слов. Корпусный менеджер позволяет рассматривать коллокаты, непосредственно предшествующие анализируемому слову или следующие за ним, а также расположенные на некотором расстоянии (2, 3, 4, 5 слов вправо или влево). Например, если речь идет о пропорциональности, можно предположить, что в предложении должно присутствовать указание на то, что сравнивается, и то, с чем сравнивается, согласно модели:

1

2

3

4

5

6

smth

is

(directly/inversely)

proportional

to

smth

Корпус мерфизмов (22820 словоупотреблений) представляет тексты одного жанра, который можно назвать «псевдоакадемическим». По способу представления законы Мерфи в большинстве случаев полностью соответствуют жанру академической прозы, а их лексическое наполнение к данному жанру отношения не имеет, что и создает комический эффект.

Конкорданс, построенный для прилагательного proportional (65) на базе корпуса мерфизмов, показал, что его левыми коллокатами в большинстве случаев (60) являются наречия directly (19) и inversely (41). Бóльшая частотность наречия inversely, по нашим предположениям, связана с семантической избыточностью наречия directly в сочетании с прилагательным proportional. В некоторых контекстах употребление данного наречия обусловлено его противопоставленностью наречию inversely (а), хотя это и необязательно (б):

а) The survivability of a system is directly proportional to the price of the cooling system applied to it and inversely proportional to the amount of use it sees.

б) The chance a copy machine will brake down is proportional to the importance of the material that needs to be copied and inversely proportional to the amount of time till the material will be needed.

Вторая позиция слева принадлежит в большинстве контекстов глаголу is (55), что, наряду с данными о правых коллокатах, свидетельствует о предикативном употреблении прилагательного proportional в текстах мерфизмов. Третья и четвертая позиции слева представлены разнородными словами, относящимися к разным частям речи, поэтому интерес с точки зрения выявления основного для данного жанра значения прилагательного proportional они не представляют. Ни одно из слов в этих позициях не встречается в конкордансе более двух раз.

Что касается коллокатов справа, то во всех без исключения контекстах первую позицию занимает предлог to (65). Это полностью соответствует представленной выше модели предикативного употребления анализируемого прилагательного, но не позволяет сделать вывод о семантике прилагательного, поэтому необходимо рассмотреть более широкий контекст.

Вторая позиция справа практически полностью занята определителями — определенным артиклем the (43) и притяжательными местоимениями (your (4), his (3), in (3)). Следующим по важности правым коллокатом во второй позиции является наречие how (11), вводящее придаточное предложение:

в) The amount of love someone feels for you is inversely proportional to how much you love them.

Итак, на этом этапе анализа модель предложения с прилагательным proportional в корпусе мерфизмов выглядит следующим образом:

3

2

1

0

1

2

3

smth

is

(directly)

(inversely)

proportional

to

the

your/his/its

how

<…>

<придаточное предложение>

Далее предстоит выяснить, что располагается в модели после определителя. Анализ слов, занимающих в конкордансе третью позицию справа, показал, что, не проявляя большую частотность по отдельности, существительные образуют определенный смысловой ряд, в котором на первом месте стоят слова amount (9) и number (6), непосредственно обозначающие количество, а также конкретные (distance (4), length (3), cost (2), weight (2), frequency (1), time (1), size (1) и др.) и абстрактные (importance (5), smartness (1), willingness (1)) существительные, обозначающие то, что поддается измерению. Верность нашего предположения о возможности объединения данных существительных в один смысловой ряд подтверждается высокой частотностью занимающего четвертую позицию справа предлога of (35). Таким образом, основная модель предложения с прилагательным proportional, представленная в корпусе мерфизмов, имеет следующий вид:

3

2

1

0

1

2

3

4

5

smth

is

(directly)

(inversely)

proportional

to

the

your/his/its

how

<существительное со значением «то, что может быть измерено»>

< придаточное предложение >

of

smth

Корпусные лингвисты фокусируют внимание на повторяющихся явлениях, и это всегда нужно учитывать. Это означает, что модель должна подтвердиться на большем количестве примеров, на материале текстов разных корпусов и т.д. Например, в качестве большого корпуса для проверки лингвистических теорий, доказанных на материале какого-либо одного корпуса, некоторые лингвисты рекомендуют World Wide Web (www). Для проверки нашей гипотезы о том, что в текстах (псевдо)академического жанра, представляющих законы, прилагательное proportional выступает в предикативной функции и характеризуется наречиями directly и inversely, мы обратились к Британскому национальному корпусу (BNC) (100 млн. словоупотреблений). Этот корпус включает тексты разных жанров, включая разговорные, и предоставляет полную информацию о том, кем, когда и в каких условиях текст был произведен и к какому жанру он относится. Прилагательное proportional встретилось в корпусе 916 раз, в том числе в предикативной конструкции, описанной выше — 330 раз.

Уже эта информация о частотности свидетельствует о том, что чем больше жанров представлено в корпусе, тем сильнее проявляется принадлежность значения слова к определенному жанру. Действительно, 216 употреблений из 330 принадлежат двум жанрам — академическому (естественно-научному (61) и инженерному (79)) и неакадемическому (естественно-научному (58) и инженерному (18)). Поскольку даже в этих жанрах не все тексты имеют форму законов, количество контекстов, в которых прилагательному proportional предшествуют наречия directly (29) и inversely (34), сравнительно невелико. В большинстве остальных контекстов прилагательное употреблено атрибутивно. Здесь интерес представляет коллокация proportional representation («пропорциональное представительство»), встретившаяся в 362 контекстах из 916.

В настоящее время каждый, у кого есть компьютер, может собирать материалы из всемирной сети, просматривать электронные базы данных на CD или загружать тексты путем сканирования. На практическом уровне это подразумевает расширение осведомленности о языковом (в первую очередь, стилевом и жанровом) разнообразии. Высказывается мнение, что использование компьютера изменило и теоретическую основу исследования. Так, Е. Тогнини-Бонелли отмечает, что теоретический сдвиг, вызванный использованием компьютера и просто самой возможностью доступа к большому количеству текстов, происходит в направлении от фокуса на грамматике, основной лексике, общих правилах к более децентрализованному представлению о контекстуальной уместности, географическом и социальном разнообразии, ограниченном языке, идиолекте и стиле (Tognini-Bonelli 2000).

Мы включили этот небольшой пример использования специализированного корпуса текстов в исследовательских целях, чтобы показать, насколько благодаря ему упрощается рутинная работа лингвиста, занимающегося сбором фактического материала для исследования. Это связано, в первую очередь, с поиском контекстов, выявлением общих моделей предложений, получением информации по частотности и мн. др. Несмотря на то, что процесс создания собственного корпуса (в случае, если цели исследования не позволяют использовать уже имеющиеся корпусы) связан с определенными сложностями, касающимися сбора удовлетворяющих задачам текстов, унификации материала, выбора корпусного менеджера, в дальнейшей работе он очень удобен и существенно экономит время, оставляя его для решения теоретических задач.

Литература

1. Богданова С.Ю., Дулатова Р.Ф. Анализ материалов электронной рассылки Corpora list // Актуальные проблемы теоретической и прикладной лингвистики: Мат-лы международной конференции. — Минск: МГЛУ, 2010. (в печати)

2. Долбилова Е.В. Функциональная стратификация каталанской лексики // Проблемы компьютерной лингвистики: Сборник научных трудов / Под ред. А.А. Кретова. — Вып. 4. — Воронеж, 2010. — С. 82-90.

3. Захаров В.П. Корпусная лингвистика: учебное пособие. — СПб., 2005.

4. Иванова Н.С. Опыт лингвистического исследования мерфизмов (на материале американского варианта английского языка) : автореф. дисс. … канд. филол. н. — Иркутск, 2009.

5. Кашкина А.В. Сравнительный анализ маркем в русской поэзии XVIII - первой трети XIX веков // Проблемы компьютерной лингвистики: Сборник научных трудов / Под ред. А.А. Кретова. — Вып. 4. — Воронеж, 2010. — С. 101-113.

6. Кретов А.А., Катов М.В., Фаустов А.А. Лингвостатистическая генеалогия в русской литературе XVIII — начала XX вв. // Проблемы компьютерной лингвистики: Сборник научных трудов / Под ред. А.А. Кретова. — Вып. 4. — Воронеж, 2010. — С. 114-125.

7. Кулева А.С. Усеченные прилагательные в языке русской поэзии: лексикографический аспект // Проблемы компьютерной лингвистики: Сборник научных трудов / Под ред. А.А. Кретова. — Вып. 4. — Воронеж, 2010. — С. 134-140.

8. Милованов Р.С. Параметрическое ядро лексики малого англо-русского словаря // Проблемы компьютерной лингвистики: Сборник научных трудов / Под ред. А.А. Кретова. — Вып. 4. — Воронеж, 2010. — С. 149-158.

9. Невзорова О.А., Колпакова Г.В. Автоматическое разрешение функциональной омонимии в русском языке: основные трудности и подходы к решению // Проблемы компьютерной лингвистики: Сборник научных трудов / Под ред. А.А. Кретова. — Вып. 4. — Воронеж, 2010. — С. 174-187.

10. Огаркова Н.В., Кретов А.А. ПО для исследования парадигматического параметра двуязычного словаря // Проблемы компьютерной лингвистики: Сборник научных трудов / Под ред. А.А. Кретова. — Вып. 4. — Воронеж, 2010. — С. 201-207.

11. Проценко Е.А. От лемматизированного конкорданса к электронному словарю (из опыта компьютерной лексикографии) // Проблемы компьютерной лингвистики: Сборник научных трудов / Под ред. А.А. Кретова. — Вып. 4. — Воронеж, 2010. — С. 226-238.

12. Рафаева А.В. Словари в системе СКАЗКА-2 // Проблемы компьютерной лингвистики: Сборник научных трудов / Под ред. А.А. Кретова. — Вып. 4. — Воронеж, 2010. — С. 248-262.

13. Рыков В.В. Корпус текстов как реализация объектно-ориентированной парадигмы // Труды Международного семинара Диалог-2002. — М.: Наука, 2002.

14. Селезнев Г.Д., Кретов А.А. Кластерный анализ массива маркем русских писателей // Проблемы компьютерной лингвистики: Сборник научных трудов / Под ред. А.А. Кретова. — Вып. 4. — Воронеж, 2010. — С. 272-279.

15. Семенова И.Д. Функциональная активность слов большого карачаево-балкарского словаря (предварительные данные) // Проблемы компьютерной лингвистики: Сборник научных трудов / Под ред. А.А. Кретова. — Вып. 4. — Воронеж, 2010. — С. 280-286.

16. Стекольникова Н.В. Метод дистрибутивного анализа и его применение при реконструкции инварианта фольклорного текста // Проблемы компьютерной лингвистики: Сборник научных трудов / Под ред. А.А. Кретова. — Вып. 4. — Воронеж, 2010. — С. 287-292.

17. Титов В.Т. Общая квантитативная лексикология романских языков (Монография). — Воронеж: Изд-во Воронеж. гос. ун-та, 2002. — 240 с.

18. Титов В.Т. Методические указания по выявлению параметрического ядра лексики (для филологов: студентов и аспирантов). — Воронеж, 2006.

19. Титов B.Т., Кретов А.А. Квантитативный подход к лексико-семантической типологии языков // Проблемы компьютерной лингвистики: Сборник научных трудов / Под ред. А.А. Кретова. — Вып. 4. — Воронеж, 2010. — С. 302-313.

20. Хроленко А.Т. Компьютерная лингвофольклористика в поисках «неявной» культуры // Проблемы компьютерной лингвистики: Сборник научных трудов / Под ред. А.А. Кретова. — Вып. 4. — Воронеж, 2010. — С. 323-330.

21. Шестакова Л.Л. Информационно-поисковая система «Словари русской поэзии серебряного века» // Проблемы компьютерной лингвистики: Сборник научных трудов / Под ред. А.А. Кретова. — Вып. 4. — Воронеж, 2010. — С. 331-340.

22. Biber D. Conrad S., Reppen R. Corpus Linguistics. Investigating language structure and use. — Cambridge University Press, 1998.

23. Tognini Bonelli E. Corpus Classroom Currency // Darbai ir Dienos, 24 / 2000. — Pp. 205-243. (Перевод Т.Л. Джепа).