Агентство Лангуст [переход на главную]

15/06/2004 В Сеть пришел Национальный корпус русского языка

Впервые в Интернете в свободном доступе открыт Национальный корпус русского языка объёмом более 20 млн. слов.

Что такое Корпус?

Национальный корпус - это собрание текстов в электронной форме, представляющих данный язык на определенном этапе (или этапах) его существования и отображающих данный язык во всем многообразии жанров, стилей, территориальных и социальных вариантов и т.п.

Национальный корпус создается лингвистами (специалистами по так называемой корпусной лингвистике, быстро развивающейся современной области языкознания) для научных исследований и обучения языку. Большинство крупных языков мира уже имеет свои национальные корпуса (различающиеся по полноте и уровню научной обработки текстов). Общепризнанным образцом является, в частности, Британский национальный корпус (BNC): на него ориентированы многие другие современные корпуса. Среди корпусов славянских языков выделяется Чешский национальный корпус, созданный в Карловом университете Праги.

Национальный корпус имеет две важные особенности.

Зачем нужен национальный корпус?

Национальный корпус предназначен в первую очередь для обеспечения научных исследований лексической и грамматической структуры языка, а также тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов - от одного до двух столетий. Современные компьютерные технологии многократно упрощают и ускоряют процедуры лингвистической обработки больших массивов текстов. Раньше исследователь мог лишь просматривать тексты и вручную выписывать из них нужные примеры; эта предварительная (но абсолютно неизбежная) деятельность была очень трудоемкой и не позволяла обрабатывать большие массивы материала. Теперь ограничений на объем анализируемого материала и скорость поиска информации в нем по существу нет, а это означает, что в распоряжении исследователя оказываются колоссальные массивы текстов самого разного типа. Это не замедлило сказаться на развитии наших знаний о языке: возможность массовой - в том числе статистической - обработки текстов, недоступная прежде, позволила обнаружить в структуре и развитии языка такие закономерности, о существовании которых наука раньше или не подозревала, или лишь смутно догадывалась, но не могла строго обосновать. Теперь подлинно научные описания грамматического строя языков, а также авторитетные академические словари - практически все без исключений - составляются на основе корпусов этих языков. Учет корпусных данных оказывается крайне желательным (если не строго обязательным) и при многих других более специальных научных исследованиях.

С этой точки зрения основными потребителями национальных корпусов являются, конечно, их создатели, то есть исследователи-лингвисты самого разного профиля. Однако круг пользователей корпуса вовсе не ограничивается профессиональными исследователями языка. Надежные статистические данные о языке определенной эпохи или определенного автора могут интересовать литературоведов, историков и представителей многих других областей гуманитарного знания. Важное значение национальные корпуса имеют и для преподавания языка в качестве родного или иностранного; всё больше учебников и учебных программ купить книги и пособия для изучения иностранных языков в наше время оказываются ориентированы на корпус. Быстро и эффективно проверить с помощью корпуса особенности употребления незнакомого слова или грамматической формы у авторитетных авторов сможет и иностранец, и школьник, и учитель, и журналист, и писатель. Таким образом, национальный корпус обращен ко всем, кто в силу профессии, по необходимости или из простой любознательности ищет ответ на вопросы об устройстве и функционировании языка, то есть фактически к большинству образованных носителей этого языка и ко всем, изучающим его в качестве иностранного.

Как будет развиваться Национальный корпус?

Создаваемый сейчас Национальный корпус русского языка будет охватывать, прежде всего, период от начала XIX до начала XXI века: этот период представляет как классический литературный, так и современный разговорный русский язык. В корпус включаются оригинальные (непереводные) произведения художественной литературы (проза и драматургия, в дальнейшем также поэзия), имеющие культурную значимость, а также представляющие интерес с точки зрения языка. Но Национальный корпус ни в коей мере не является только корпусом языка художественной литературы. Помимо художественных текстов, в корпус в большом количестве включаются и другие образцы письменного (а для современного этапа - и устного) языка: мемуары купить биографии и мемуары, эссеистика, публицистика, научно-популярная и научная литература, публичные выступления, частная переписка, дневники, документы и т.п.

Работа над Национальным корпусом осуществляется большой группой лингвистов из Москвы, Санкт-Петербурга и других городов России в рамках программы «Филология и информатика» РАН (поддержку оказал также Российский гуманитарный научный фонд). Эта работа продолжается, в дальнейшем предполагается существенно увеличить количество входящих в Корпус текстов и расширить их состав.

← Вернуться
хостинг для сайтов © Langust Agency 1999-2024, ссылка на сайт обязательна