Корпус русского литературного языка

Размещенный на данном сайте Корпус русского литературного языка задуман как универсальный инструмент, обеспечивающий более эффективную работу всех, кто связан по роду своей деятельности с современным русским литературным языком или просто интересуется состоянием и функционированием этого языка. Корпус должен влиться в семью уже существующих национальных корпусов других языков – таких, как British National Corpus, National American Corpus, Tresor de la langue francaise и др.

Корпус языка – это собрание определенным образом отобранных (с опорой на филологическую экспертизу) текстов на данном языке, которые введены в компьютер и хранятся в электронном виде, пригодные для поиска в них лексических, грамматических, стилистических единиц и явлений, интересующих пользователя.

Русский литературный язык – это язык, используемый в русской художественной литературе, публицистике, язык обучения и преподавания в начальных, средних и высших учебных заведениях, язык, на котором говорит образованная часть русского общества (не содержащий диалектизмов, просторечия и т.п.). В настоящий Корпус русского языка входят (пока) только письменные тексты (опубликованные признанными – официально зарегистрированными – издательствами).

Национальный корпус – это корпус, который обеспечивает максимально полное отражение лексики и грамматики языка. Настоящий Корпус русского литературного языка отражает употребление слов, словоформ, грамматических конструкций, словосочетаний русского литературного языка, начиная с середины 20 в. и до настоящего времени. Полнота корпуса достигается тогда, когда отсутствие в нем слова, словоформы, грамматической конструкции, более или менее устойчивого словосочетания означает, что эти единицы или явления:

  • принадлежат к сугубо индивидуальному (присущему только лишь данному автору) словоупотреблению и не встречаются в текстах других авторов;
  • являются ошибкой, ненормативным употреблением;
  • являются анахронизмом, явно устаревшим словоупотреблением;
  • являются не ассимилированным (т.е. еще не вошедшим в русский язык) заимствованием.

Предварительная версия Корпуса, размещенная на данном сайте, содержит ок. 1 млн словоупотреблений. Это 218 текстов объемом от 105 до 13700 словоупотреблений, принадлежащих 180 авторам. Тексты примерно в равных объемах представляют художественную литературу (прозу), публицистику, драму, и научную (научно–популярную) литературу. В текстах все словоформы несут знак ударения; везде, где это необходимо, используется буква «ё». В перспективе предполагается довести объем Корпуса до 100 –150 млн словоупотреблений.

Отсутствие в Корпусе слова и т.п. может реализоваться в двух вариантах:

  • реальное отсутствие, когда текст, содержащий устаревшее, не соответствующее нормам литературного языка и т.п. слово, по тем или иным причинам не вошел в состав Корпуса;
  • текст с ненормативным, неассимилированным и т.п. словом содержится в Корпусе, но само слово, находясь за рамками русского литературного языка, помечается как UNC (от англ. unclassified) и не учитывается в каких бы то ни было операциях, осуществляемых на основе Корпуса.

Цели и задачи Корпуса:

  • служить надежным источником фактического материала для составления словарей, грамматик, учебников, справочных пособий;
  • обеспечивать возможность проверки лингвистических гипотез на максимально представительном материале;
  • выполнять функции справочного пособия для выяснения вопросов о современном русском литературном словоупотреблении, т.е. служить эффективным помощником для всех, работающих со словом (лингвисты, литературоведы, журналисты, писатели, переводчики, преподаватели русского языка и др.);
  • служить базой для компьютерного моделирования речевой деятельности.

Поиск в Корпусе русского литературного языка обеспечивается специальной программой, которая дает возможность:

  • обнаружить любое заданное слово (словоформу) во всех или специально оговоренных текстах;
  • при необходимости дать статистику употребления слова (словоформы) вообще или в определенных текстах, контекстах и т.д.;
  • устанавливать конкордансы – слова и словосочетания, употребляющиеся совместно с заданным словом (словоформой, словосочетанием);
  • выяснять любые статистические характеристики лексики и грамматики языка (например, устанавливать, сколько раз в текстах, вошедших в состав Корпуса, встречается слово женщина в винительном падеже);
  • выводить сравнительные характеристики словоупотребления, относящиеся к разным временным периодам (после середины 20 в.).

Филологическая экспертиза призвана обеспечить выполнение трех основных задач:

  • определение целесообразности включения данного текста в состав Корпуса;
  • обеспечение сбалансированности массивов текстов, входящих в Корпус, с точки зрения представленности разных жанров, авторов и т.п.;
  • снабжение каждого текста, вошедшего в Корпус, паспортизацией, или метаразметкой.

Паспортизация (метаразметка) текста – это придание каждому тексту, вошедшему в Корпус, максимально полного библиографического описания (автор/авторы, редактор/редакторы, издательство, место и год издания, указание на первую публикацию в случае переиздания, страницы, наличие иллюстраций, библиографии и т.п.).

На базе Корпуса создан (частотный) словарь словоформ русского языка. Все без исключения словоформы как Корпуса, так и словаря снабжены набором морфологических дескрипторов, создающих морфологическую разметку словаря и текста.

Словарь словоформ – это словарь, единицей которого является словоформа, т.е. слово в той или иной грамматической форме, например, писал (глагол изъявительного накл., прош. вр., муж. р. , ед. ч. и т.п.). В словарь входят все и только те словоформы, которые находятся в текстах Корпуса. Во всех словоформах проставлено ударение; там, где в исходной публикации текста не использовалась буква ё, эта буква восстановлена. При каждой словоформе указан ее ранг частотности.

Морфологический дескриптор – это помета при словоформе текста или словаря, которая указывает на соответствующую грамматическую (морфологическую) характеристику словоформы, например, sg., т.е. «единственное число». Все морфологические дескрипторы имеют вид 2-4-буквенных сокращений, произведенных от соответствующих терминов английского языка. Для словоформ, принадлежащих к данной части речи, набор дескрипторов, используемых для характеристики словоформы, представляет собой множество постоянного состава. Например, хотя глаголы в настоящем/будущем времени не обладают формой рода, при них ставится помета «0» в соответствующей позиции описателя, а для глаголов в прошедшем времени «0» ставится в позиции пометы «лицо». Последовательность употребления символов, соответствующих дескрипторам, также всегда одна и та же. Если дескриптор не совместим с данной словоформой, его позиция в линейном перечне дескрипторов замещается «нулем».

Морфологическая разметка представляет собой приписывание каждому слову (каждой словоформе) как в словаре, так и в тексте набора морфологических дескрипторов. Морфологически идентичные словоформы обладают идентичными наборами морфологических дескрипторов. В перспективе предполагается введение синтаксической разметки.

Синтаксическая разметка – это отражение синтаксической структуры предложения в текстах путем, например, приписывания каждой словоформе или словосочетанию их синтаксической функции в терминах избранной синтаксической теории (например, 1-й актант, 2-й актант и т.д. для именных словоформ и конструкций).

Ранг частотности словоформы – это специальный индекс, который проставляется в словаре при каждой словоформе, указывая на частоту употребления данной словоформы в текстах Корпуса.

Конкорданс:
первоначальное значение термина – перечень (обычно алфавитный) слов, входящих в текст или множество текстов (сочинения данного автора и т.п.), с указанием всех случаев употребления каждого слова в тексте/текстах. В корпусной лингвистике специальные программы-конкордансеры (в русской литературе иногда – программы-конкордансы) дают возможность установить контексты заданного типа и объема для любой языковой единицы, входящей в корпус; например, дать перечень всех слов, следующих за данной словоформой до конца предложения, во всех случаях употребления этой словоформы в одном, двух или всех текстах корпуса. Множество таких перечней также называют конкордансом.

 
E-mail Home