главная
архив семинара
теория
глоссарий
библиография
организаторы
ссылки
контакты
гостевая
  Теория
Новости семинара

Состоялись:

19.05.08
А.В. Андреев.
Конструктивная логика как синтаксический формализм (ИЛИ РАН)

26.05.08
Е. Чухарев.
Цель, принципы и методы формирования и разметки корпуса спонтанной компьютерно-опосредованной
коммуникации

(РГПУ им. А.И. Герцена)
Архив новостей

Здесь представлен черновой вариант изложения основной проблематики корпусной лингвистики.

Описание основано на дипломной работе студентки СПбГУ филологического факультета Л.В. Северюхиной «Моделирование логико-понятийной области корпусной лингвистики» (рук. доц. В.П. Захаров), а так же на лекциях по корпусной лингвистике В.В. Рыкова, расположенных по адресу http://rykov-cl.narod.ru/c.html.

См. также:

КОРПУСНАЯ ЛИНГВИСТИКА И ЛЕКСИЧЕСКИЕ УЧЕНИЯ

Эмпирические данные использовались задолго до того, как появился предмет корпусной лингвистики. Сэмьюэл Джонсон, например, иллюстрировал свой словарь примерами из литературы, а в XIX веке в Оксфордском словаре были использованы цитаты, чтобы изучить и проиллюстрировать употребление слов. Корпусы, однако, изменили способ, которым пользовались лингвисты для изучения языка. Лингвист, имеющий доступ к корпусу, или другому набору, читаемых машиной текстов, может привести все примеры слова или словосочетания из миллионов слов текста за несколько секунд. Словари могут выпускаться и изменяться намного быстрее, чем раньше, таким образом, обеспечивая новой информацией о языке. Также, описания могут быть более полными и точными, благодаря тому, что изучено большое количество примеров. Примеры, выделенные из корпуса, могут быть собраны в значимые группы для анализа. Например, сортировка контекста слов по алфавиту с целью рассмотреть все частные случаи конкретного слова. Кроме того, благодаря тому, что корпусные данные содержат много метаинформации – автор, дата, стиль, региональные различия, часть речи и т.д. – легче связать употребления отдельных слов или словосочетаний являющихся типичными для того или иного стиля, регионального отличия и т.д. Не ограниченные (постоянно развивающиеся) мониторные корпусы играют огромную роль в строении словаря, поскольку позволяет лексикографам следить за новыми словами, проникающими в язык, или уже существующими словами, меняющими свое значение, или баланс их употребления в соответствии со стилем. Однако ограниченные корпусы также играют немалую роль в лексических учениях – в области количественного описания. Возможны быстрые надежные частотные расчеты и подразделение этих областей в различных измерениях в соответствии с различиями в языке, в котором есть данное слово. Наконец, возможность выбрать комбинации слов, а не само слово и наличие общих информационных средств, которые устанавливают отношение между вхождениями слов, значит, что мы можем распределять фразы и словосочетания более систематично, чем раньше. Фразеологическая единица может состоять из специальной терминологии или идиомы, и словосочетание является важной нитью к пониманию специфического значения слова.

КОРПУСНАЯ ЛИНГВИСТИКА И ГРАММАТИКА

Грамматические (синтаксические) исследования наряду с лексическими, являются самыми частыми типами исследования, для которых используют корпусы. Корпусы являют собой полезный инструмент для синтаксического исследования, благодаря:
– потенциалу представительного описания всего разнообразия языка
– их роли в качестве эмпирических данных для проверки гипотез, заимствованных из грамматической теории.
Многие грамматические учения , использующие корпусы, включили анализ количественных данных (например, учение Шмида 1993 года об относительных предложениях). Сейчас наблюдается интерес в математическом изучении грамматической частоты –например, Oostdijk и de Haan (1994) стремятся проанализировать частоту английских предложений различных типов. Однако, есть две группы исследователей которые использовали корпусы текстов для того, чтобы протестировать по существу рационалистскую грамматическую теорию, а не использовать ее только для описания или индуктивного обобщения теории. В Университете Nijmegen, например, первичные рационалистские формальные грамматики проверяются на реально существующем языке, найденном в компьютерных корпусах [Aarts 1991]. Формальная грамматика сначала разрабатывается с ссылкой на существующие грамматики языка. Затем грамматика загружается в компьютерный анализатор и пробегает по корпусу, чтобы проверить насколько хорошо она отвечает за данные в корпусе. Затем грамматика видоизменяется с учетом тех данных, которые она пропустила или загрузила неправильно.

СОПОСТАВЛЕНИЕ КОРПУСНОЙ И ТРАДИЦИОННОЙ ЛИНГВИСТИК

Корпусная лингвистика Традиционная лингвистика
1 Основное внимание – изучение речи Основное внимание – изучение языка
2 Цель – описание языка в том виде, как он проявил себя в речи, представленной в виде специально подобранного корпуса текстов Цель – описание и объяснение языка
3 В своих исследованиях опирается на данные корпуса текста В своих исследованиях идёт от теории к её объяснению и подтверждению в фактах речи
4 Предпочитает квантитативные методы Предпочитает квалитативные методы
5 Видит себя частью традиций, базирующихся на эмпирических методах Видит себя частью традиций, базирующихся на рационалистических методах
6 Текст рассматривается как некоторая физическая сущность Текст рассматривается как некоторая абстракция
7 Составление грамматики конкретных языков Изучает языковые универсалии
8 Основное внимание уделяется форме Основное внимание – не только форме, но и содержанию
9 Рассматривает тексты в глобальной перспективе Рассматривает тексты в локальной перспективе
10 Фокусирует своё внимание на как можно более широком взгляде на текст, неограниченном ни какими догмами Анализирует некоторую конкретную, искусственно ограниченную, проблемную область
11 В своих выводах опирается на наблюдение речевой деятельности, проявленной в виде текстов Опирается на интуицию в отборе речевого материала, в отборе эмпирических материалов своих исследований
12 Часто пользуется вероятностными методами и статистикой для первичной обработки речевого материала Предпочитает логические рассуждения
13 Проводится работа с лингвистическими данными (словоупотреблениями) в том виде, в каком они встречались в контексте Предпочитаются искусственные примеры, из изолированных от текста словоупотреблений
14 Предпочитает индуктивные методы обработки эмпирического словесного материала, считает их сутью научного метода Предпочитает дедуктивные методы обработки эмпирического словесного материала
15 Верит в научные открытия, основанные на обработке эмпирических данных Верит в открытия, основанные на процедурах, оценках, сравнениях и т.д., т.е., как результат многовековых исследований

КОРПУСНАЯ ЛИНГВИСТИКА

Корпусная лингвистика занимается разработкой общих принципов построения и использования лингвистических корпусов данных с использованием компьютерных технологий. Она использует три приема:
– автоматическое извлечение сведений о языке из корпусов;
– обработка информации;
– проверка и интерпретация обработанных данных.
Первые две ступени полностью алгоритмизированы, третья является спорной.

В.В. Рыков в свою очередь выделяет следующие стадии работы:
– необходимо представить структуру речевой действительности;
– выявить, какие материальные ограничения есть на составление корпуса;
– отбор текстов и составление корпуса текста;
– компеляция корпуса.

В основе корпусной лингвистике лежит то, что язык — это полностью социальное явление, и его можно описать данными основанными на опыте, т.е. в речевом акте. Это влечет за собой то, что мы не знаем, а иногда и стараемся не знать, как говорящий или слушающий понимает слова, предложения или тексты, которые он говорит или слышит. Как социальный феномен язык проявляет себя в текстах, которые можно записать, описать и проанализировать. Внутренние, немые тексты также являются текстами, но их нельзя пронаблюдать и, следовательно, они не являются социальным явлением. Большинство текстов встречаются в виде речевых актов, т.е. как взаимодействие между членами языкового общества.

Долгое время люди не могли записывать и тем самым фиксировать речевые акты, но в наше время при наличии разнообразной аппаратуры это сделать довольно просто, поэтому количество записанных речевых актов значительно выросло. При этом возникает проблема обработки всей информации. Следовательно, этот поток информации должен быть сжато выражен, к примеру, в виде отдельного явления, который можно описать. Параметрами могут быть язык, отрезок времени, район, внутренние или внешние свойства текстов и т.д.

Уникальная черта естественного языка состоит в том, что он динамичен. Существуют правила речевого акта, которые можно обсуждать, опровергать и отвергать, а также могут быть распространены новые правила. Также предметом обсуждения являются значения, несмотря на все попытки лексикографов стандартизировать их. Корпусная лингвистика описывает отдельные естественные языки, индивидуальные лингвистические качества. Поскольку отдельные элементы языка и речи характеризуются некоторой частотой, а следовательно, и вероятностью, произведения речи очевидно могут анализироваться и исследоваться с помощью методов математической статистики. Ученые-лингвисты не могли не заметить статистических характеристик элементов речи, поэтому родилось направление лингвостатистики.

Следовательно, корпусная лингвистика смотрит на полную картину, чтобы узнать соглашения языкового общества. Для корпусной лингвистики, язык – это виртуальное функционирующее явление, которое может быть зафиксировано и представлено в виде модели человеческой речи в текстах. Более кратко основную задачу компьютерной (корпусной) лингвистики формулирует В.В. Рыков:
Полное и системное отражение содержательного общения на языке. Основной особенностью направления исследования, которое можно назвать информационно-семиотическое направление лингвистических исследований, является подход к рассмотрению прикладных проблем лингвистики строго в коммуникативных процессах. При этом в центре внимания оказывается не язык (естественный), как система, и не проблема его формализации (имеющая самые различные толкования), а процесс содержательного общения на языке, и по возможности точное его описание, которое может быть использовано для решения научно-технических задач информатики.

Корпусная лингвистика сделала возможным уточнить результаты и выводы, проведённых ранее исследований речи и произвести новые, более широкие и системные по охвату эмпирического речевого материала лингвистические исследования.

В центре внимания корпусной лингвистики оказалась языковая личность, т.е., её речевая деятельность, массовая коммуникация, проблема её описания.

По мнению В.В. Рыкова, главной целью корпусной лингвистики являются:
– лингвистическое описание языковой системы (подход от конкретного изучения коммуникации людей),
– особый способ отражения речевого материала в корпусе текстов, который может использоваться в свою очередь другими лингвистическими дисциплинами.

КОРПУС ТЕКСТОВ

Прежде чем говорить про корпус текстов нужно понять, что такое корпус данных. Корпус данных представляет собой сформированную по определенным правилам выборку данных из области реализации языковой системы, которая содержит феномены, подлежащие лингвистическому описанию. Корпус данных имеет только одно измерение – речевое, поскольку сам по себе он не обладает потенцией производства своих составляющих. Последнее, однако, не означает, что корпус данных не может использоваться для реконструкции языка как системы. Наоборот, это одна из главных задач лингвистического исследования корпуса. Перед нами одно из глобальных противоречий, свойственное любому продукту языковой системы – от звука до текста. Лингвисту приходиться по отдельным результатам деятельности языка делать выводы о функционировании языка как целого, как системы.

Корпус текстов – это вид корпуса данных, единицами которого являются тексты или их достаточно значительные фрагменты, включающие, например, какие-то отрывки текстов данной проблемной области.

В принципе, любой набор более чем одного текста может быть назван корпусом (от лат. corpus – “body”). Часто отдельные тексты используются для разного вида литературного и лингвистического анализов. Однако, понятие корпуса как основы для электронной лингвистики все же отличается от проверки единичных текстов.

В.В. Рыков определяет корпус текстов как некоторое собрание текстов, в основе которых лежит логический замысел, логическая идея, объединяющая эти тексты. Логическая идея воплощается в правилах организации текстов в корпус; алгоритме и программе анализа корпуса текстов; сопряжённой с этим идеологии и методологии. По мнению Рыкова, корпус текстов принадлежит к четвёртой фактуре речи (тексты на машинном носителе).

В зависимости от поставленной цели выделяют несколько типов корпусов текстов:
1. по форме хранения:
– в звуковой форме;
– письменные;
– смешанные;
2. по языку представления текстов:
– одноязычные;
– многоязычные;
3. по жанровой принадлежности:
– литературные;
– диалектные;
– разговорные;
– публицистические;
– смешанные;
4. по способам доступа:
– свободно доступные;
– коммерческие;
– закрытые;
5. по назначению:
– исследовательские;
– иллюстративные;
6. по динамичности:
– динамические (мониторные);
– статические;
7. по наличию дополнительной информации:
– аннотированные (размеченные);
– неразмеченные.

В.В. Рыков приводит несколько иную классификацию корпусов текстов:
1. по степени организации и структурированности:
– электронный архив – это тексты на электронном носителе, но их форма представленая на машинном носителе не стандартизирована и не унифицирована;
– электронная библиотека – тексты здесь представлены однородным и стандартизированным образом;
– корпус текстов – форма стандартизирована и унифицирована, тексты предназначены для отражения части лингвистической реальности;
– субкорпус – это некоторая автономная часть корпуса.
2. по хронологическому признаку:
– синхронический;
– мониторный (отслеживает текущее состояние языка);
– диахронический.
3. по индексации:
– простой;
– аннотированный.
4. по языку:
– одноязычный;
– двуязычный;
– многоязычный.
5. по способу применения и использования корпуса:
– исследовательский;
– иллюстративный;
– параллельный.
6. по способу существования корпуса:
– динамический;
– статический.

При конструировании и применении корпусов единой методики для всех языков нет, так как различаются языки, традиции, технологические процессы. Но основные требования В.В. Рыков выделяет следующие:
1. Кто пользователь корпуса? (индивид, группа, лингвистическое общество).
2. Какова логическая идея, которая положена в основу корпуса?
3. С каким объёмом данных мы будем работать при составлении корпуса? На сколько это необходимо и реалистично?
4. Используем отрывки из текстов, полные тексты или то и другое.
5. Процедура отбора текстов в корпусе. Для разных целей по-разному:
– обследование речевого материала,
– сканирование текстов,
– окончательное формирование, составление корпуса.
6. Стандартизированное представление корпуса на уровне отраслевых стандартов, т.е., представление всего корпуса как продукта:
– аннотация всего текста в целом
– унифицированное представление словесного материала текста.
7. Аннотирование, индексирование словесного материала текста.

ПРИМЕНЕНИЕ КОРПУСОВ

Первоначальные лингвистические исследования, проводившиеся с помощью корпусов, сводились к подсчету частот встречаемости различных языковых элементов. Чаще всего этими элементами были слова, в других случаях – графемы, морфемы, словосочетания. Действительно, если в наличии имеется большой корпус, то самое очевидное, что с ним можно делать – подсчитывать разного рода частоты. Статистические методики используются в решении сложных лингвистических задач, таких как машинный перевод, распознавание и синтез речи, средства проверки орфографии и грамматики и т.д. Так, устойчивые словосочетания представляют собой с семантической точки зрения неделимую смысловую единицу, что очень важно учитывать в лексикографии, системах автоматической обработки текста. На материале корпуса статистическими методами можно определить, какие слова встречаются вместе регулярно и, таким образом, могут быть отнесены к устойчивым словосочетаниям.

По прошествии времени корпусы стали осознаваться как мощные информационные ресурсы, могущие быть использованными в рамках различных лингвистических направлений. Так, корпусы являются богатым источником данных для лексикографии. На их основе и с применением компьютера словари могут составляться и пересматриваться гораздо быстрее, чем раньше, таким образом фиксируя текущее состояние языка и не успевая устаревать за то время, которое проходит от момента начала работы над ними до момента выхода их из печати. Так, например, одна из главных целей создания Британского национального корпуса и Банка английского языка заключалась в применении последних в лексикографии. Словарь современного английского языка Collins COBUILD English Language Dictionary был создан с применением текстовой базы данных Бирмингемского университета. Во введении говорится, что впервые словарь был составлен посредством исследования репрезентативной группы английских текстов, достигающих в общей сложности объема в несколько миллионов слов. Особый вид корпусов, так называемые monitor corpora – открытые для пополнения новыми данными корпусы, позволяет лексикографам отслеживать неологизмы и изменение значений у уже известных слов.

С исследованиями по лексикографии тесно связаны исследования в области семантики. Наблюдая окружения той или иной лингвистической единицы в корпусе, можно установить определенные семантические признаки, характеризующие данную единицу. Часто слово входит сразу в несколько семантических категорий, поэтому следует говорить только о степени принадлежности слова к той или иной категории. Степень же может быть выявлена путем подсчета частот его распределения по разным категориям.

На корпусе тестируются системы автоматической обработки текста и проверяются различные лингвистические теории. Так, например, в университете Nijmegen, Нидерланды, на текстовых корпусах проверяются разрабатываемые там формальные грамматики. На основе грамматики создается программа синтаксического анализа, которая обрабатывает корпус. Результаты обработки показывают, насколько полно и точно грамматика описывает данные.

Таким образом, с помощью корпусов можно изучать самые разные языковые явления. Примеры возможных запросов к текстовой базе данных приводит В.М. Андрющенко. Вот некоторые из них:

– Каковы все (или наиболее типичные) контексты употребления слова (конструкции, словосочетания, явления)?
– Выдать весь словарь определенного автора или определенной системы.
– Собрать из текстов все ситуации определенной структуры и т.д.

ТИПЫ КОРПУСНОЙ РАЗМЕТКИ

Для выполнения многих перечисленных выше задач мало лишь наличие корпуса как такового. Требуется также, чтобы текст содержал в себе явным образом разного рода лингвистическую информацию. Так в корпусной лингвистике возникла идея размеченного корпуса. Действительно, уже на уровне статистических подсчетов можно получить более интересные результаты, если вместе с каждым словом хранится информация о его частеречной принадлежности: появляется возможность подсчитывать не просто частотность слов, а частотность представителей тех или иных частей речи. Лингвистическая разметка подразумевает присвоение словам особых кодов. Каждому коду соответствует определенный набор грамматических признаков, характеризующих данное слово. Коды также известны как тэги (от англ. tag – ярлык, метка), а сам процесс приписывания словам тэгов соответственно имеет название тэггинг (от англ. tagging).

В настоящее время не существует общепризнанных стандартов представления лингвистической и других видов информации в текстах. Специальный международный проект Text Encoding Initiative (TEI) предназначен для того, чтобы разработать стандартизированные средства разметки. Для этого применяется уже общепризнанный международный язык разметки документов SGML или его подмножество XML. Типы разметки, которые может содержать корпус, можно условно подразделить на лингвистические и внешне лингвистические. К последним относятся:
? разметка, отражающая особенности форматирования текста (заголовки, абзацы, отступы и т.д.);
? разметка, касающаяся сведений об авторе и тексте. Причем сведения об авторе могут включать не только его имя, но также и возраст, пол, годы жизни и многое другое, а сведения о тексте обычно содержат, кроме названия, еще и язык, на котором он написан, год и место издания и т.д. Наличие подобной информации позволяет значительно детализировать поиск в текстовых базах данных и, кроме того, предоставляет средства идентификации соответствующего документа.

Среди лингвистических типов разметки выделяются:
? Морфологическая. В иностранных источниках употребляется термин part-of-speech tagging, дословно – частеречная разметка, в действительности она включает не только признак части речи, но и признаки грамматических категорий, свойственных данной части речи. Это основной тип разметки в текстах, он рассматривается как основа для дальнейших этапов анализа – синтаксического и семантического. Схема морфологической разметки предполагает наличие, во-первых, набора тэгов, во-вторых, описания того, что каждый из них означает и, в-третьих, правил присвоения тэгов единицам текста. Размер наборов тэгов, применяемых в разных корпусах варьируется. Несомненно, чем больше набор тэгов, тем более детальный анализ текста осуществим с его помощью. Однако по мере увеличения объема корпусов наметилась тенденция к сокращению числа морфологических помет. Упрощенная система кодировки способствует избежанию лишних ошибок, непоследовательности, уходу от морфологической неоднозначности и, в конечном итоге, быстроте разметки больших массивов текста, содержащих миллионы слов;
? Синтаксическая. Является результатом синтаксического анализа или парсинга (от англ. parsing). Чаще всего в его основе лежит грамматика структур непосредственно составляющих. Графически синтагматические отношения между членами предложения изображаются, как известно, в виде дерева, а в тексте они представлены пaрами из открывающейся и закрывающейся квадратных скобок, которые обрамляют различные синтаксические конструкции – именные, глагольные и предложные словосочетания, придаточные предложения. Рядом как с открывающейся, так и с закрывающейся скобкой ставятся метки (коды), описывающие заключенную в них конструкцию. Одни пары скобок вложены в другие, элементом высшего уровня является предложение, обозначаемое символом S. Тексты, получившие синтаксическую разметку, известны как treebanks. На синтаксическом уровне, как и на морфологическом, проявляется тенденция к меньшей детализации схем грамматической разметки в целях увеличения скорости и последовательности анализа текста. Метод, который возник в результате этой тенденции, получил название skeleton parsing;
? Семантическая. Хотя для семантической, как и для других видов разметки, нет стандартной формы, чаще всего для ее представления используют код, состоящий из букв и цифр или только цифр, в котором первая буква или цифра обозначает общую семантическую категорию, в которую входит данное слово, а последующие символы – более узкие подкатегории, специализирующие его значение. В схемах семантической разметки предусмотрены те случаи, когда в качестве единицы смысла выступает не отдельное слово, а словосочетание. Все члены такого словосочетания получают один и тот же код, при этом для каждого из них дополнительно указываются его порядковый номер, а также общее число слов в идиоматическом выражении;
? Анафорическая. Из всех видов референции наибольшую сложность для автоматической обработки текста представляет местоименная. Так, большинство систем машинного перевода обрабатывает текст по отдельным предложениям, отчего страдает связность выходного текста. Таким образом, эффективность таких систем гораздо повысилась бы, если бы правильно определялась референция местоимений-заместителей. В частности, этому и призвана способствовать анафорическая разметка. Как правило, антецедент, в роли которого обычно выступает именное словосочетание, берется в пронумерованные скобки, а рядом с местоимением-заместителем ставится особый знак, отсылающий к антецеденту с соответствующим номером;
? Просодическая. В корпусах затранскрибированной звучащей речи применяются метки, описывающие ударение и интонацию. Просодической часто сопутствует так называемая дискурсная разметка, которая служит для обозначения пауз хезитации, повторов, оговорок и т. д.

Аннотирование корпусов осуществляется программными средствами. Во-первых, это экономичнее с точки зрения временных и трудозатрат, чем если бы разметка проводилась вручную. Во-вторых, что более важно, это связано с поиском решений в области автоматической обработки текста. Тогда как для некоторых видов разметки, в частности анафорической, просодической, создание автоматических систем пока представляется очень сложным, и основная часть работы проводится вручную, то для морфологического и синтаксического анализа существуют различные программные средства, которые принято называть соответственно тэггеры (taggers) и парсеры (parsers). Большинство таких систем все же требует ручного постредактирования, так как в случаях морфологической омонимии и синтаксической неоднозначности программа предлагает несколько вариантов решения, из которых нужный выбирает исследователь. Между тем корпусы нового поколения включают десятки миллионов слов, поэтому выдвигается принцип разработки систем, которые бы исключали вмешательство человека, самостоятельно выполняя тот объем работы, который они могут выполнить. И даже ставится задача полностью автоматизировать процесс разметки потенциально не имеющего границ текста.

ПРИМЕРЫ КОРПУСОВ

В течение последних десятилетий во многих странах ведется работа над созданием корпусов текстов на национальных языках. Наиболее интенсивно идет строительство корпусов английского языка, первые из которых появились еще в 60-е годы: это уже упомянутые выше Brown University Corpus и Lancaster/Oslo-Bergen Corpus (LOB). Текстовое содержимое каждого из них включает примерно один миллион словоупотреблений и снабжено морфологической разметкой. Помимо этого, Lancaster/Oslo-Bergen Corpus имеет в своем составе два подкорпуса - Leeds-Lancaster Treebank и Lancaster Parsed Corpus, - снабженных синтаксической разметкой. Самым крупным в настоящее время является также уже упомянутый выше Британский Национальный Корпус (BNC), объем которого достигает ста миллионов словоупотреблений. Корпус начал создаваться в 90-х годах, примерно на 90% он состоит из письменного материала и на 10% – из речевых записей. Содержимое корпуса размечено морфологически. Кроме названных, существуют и другие корпуса английского языка, перечень которых можно найти на Интернет-сайте Ланкастерского университета.

Из текстовых корпусов, созданных для других европейских языков, стоит упомянуть о корпусе Института немецкого языка в Маннгейме. Это крупнейшее собрание текстов и речевых записей на немецком языке, включающее около 1903 миллионов словоупотреблений. Корпус содержит основанную на SGML морфосинтаксическую разметку, разработанную в соответствии с рекомендациями TEI. Автоматизированная система COSMAS II, которой снабжен немецкий корпус, позволяет осуществлять поиск среди содержимого корпуса по морфологическим признакам словоформ. Весьма представителен чешский корпус текстов, содержащий около 100 миллионов словоупотреблений. Лингвистическое программное обеспечение, сопровождающее корпус, составляют программа построения конкорданса, то есть программа, позволяющая получить все примеры употребления той или иной словоформы вместе с контекстами, в которых она встречается, включая частоту вхождения словоформы в корпус, и морфологический анализатор, который помимо собственно морфологического может выполнять также и контекстный анализ, служащий для разрешения грамматической омонимии.

Что касается русского языка, то репрезентативного корпуса для него нет. Существуют отдельные собрания текстов, которые можно рассматривать как корпуса различных языковых подмножеств. Данные собрания сосредоточены в разных электронных библиотеках, некоторые из которых отличает научный подход к формированию своих фондов: глобальный охват и полнота представления материалов, высокие филологические и технологические стандарты публикаций. К числу таких библиотек относятся, например, Русская виртуальная библиотека (РВБ) и Фундаментальная электронная библиотека (ФЭБ). В РВБ публикуются классические и современные произведения русской литературы по авторским источникам с приложением справочно-комментаторского аппарата. ФЭБ представляет собой полнотекстовую информационную систему по произведениям русской словесности XVI-XX вв. и русского фольклора, а также литературоведческим и историко-биографическим работам. ФЭБ состоит из электронных научных изданий, каждое из которых посвящено отдельному автору, жанру или произведению. И та, и другая библиотеки оснащены определенными программно-лингвистическими средствами. К ним относятся системы лемматизированного поиска на базе поисковой машины ЯНДЕКСа. Кроме того, РВБ снабжена программой со встроенным модулем порождения словоформ русского языка, которая позволяет строить индексы словоформ и синтагм для заданного множества документов. Тексты РВБ содержат разметку, описывающую их структуру (главы, разделы, абзацы и т.д.). Разметка осуществлена средствами SGML в соответствии со схемой разметки электронных документов, разработанной в рамках проекта TEI. Однако в лингвистическом отношении ресурсы РВБ и ФЭБ, как и других библиотек, представляют собой «сырой», то есть неразмеченный, текст. Поэтому основными задачами, стоящими в настоящее время перед отечественной корпусной лингвистикой являются, во-первых, формирование репрезентативного корпуса текстов (и речевых записей), в котором были бы представлены все функционально-стилистические слои русского языка, и во-вторых, создание в корпусе лингвистической разметки, в первую очередь морфологической, для того, чтобы его можно было использовать в языковых исследованиях.

наверх
 
© Корпусная лингвистика, Институт лингвистических исследований РАН, 2008
    Руководитель проекта: Виктор Захаров