Корпус русского литературного языка задуман как представленный в электронной форме массив морфологически аннотированных текстов на русском литературном языке.

В настоящее время (апрель 2009 года) корпус содержит тексты со сбалансированным жанровым составом (художественная проза – не менее 30%, публицистика – не более 30%, научная литература (аналитика и обзоры, научно-популярная) – не более 20%, а также драматические произведения (как некоторое приближение к разговорному языку) – около 20%), насчитывающие чуть больше 1 млн. словоупотреблений. Во всех текстах восстановлена в правах буква "ё" и проставлены словесные ударения. В корпус включаются тексты с начала 50-х гг. XX века до настоящего времени.

На базе корпуса создан частотный словарь словоформ. Идет подготовка морфологически аннотированного варианта текстов корпуса.

С точки зрения его статуса и типа Корпус русского литературного языка создается как аналог таких известных корпусов, как Британский национальный корпус, Национальный американский корпус, Национальный корпус чешского языка и др.

В перспективе корпус должен обладать максимальной репрезентативностью: если за пределами корпуса встречается слово, в нем не представленное, то это либо новая, еще не вошедшая в употребление лексическая единица, либо ошибка. Для достижения этой цели предполагается постепенно довести объем корпуса до 100 – 150 млн. словоупотреблений со сбалансированным жанровым составом.

Наличие Корпуса литературного русского языка – необходимая предпосылка для создания новой академической грамматики и академического словаря русского языка, которые послужили бы базой для разработки семейства грамматик и словарей разной ориентации, в том числе школьных, а также самых разных пособий и справочников. Корпус русского литературного языка может служить пособием для исследователей, работающих в области грамматики, лексикографии, прикладной лингвистики, типологии с включением русского языка в качестве объекта исследования. Корпус будет также ценным источником информации для работников СМИ и тех, чья профессиональная деятельность нуждается в «языковой поддержке».

 
E-mail Home