18/02/2014 То, что вы, возможно, не знали о словарях в лекции «Словари: мифы и реальность»
Впервые опубликовано на сайте Хабр
На сайте Хабр была опубликованы материалы лекции «Словари: мифы и реальность» о лингвистических словарях .
Ниже материалы лекции приведены частично.
Словари - одно из самых древних и самых известных достижений мировой лингвистики.
Но насколько распространённые представления о словарях соответствуют реальности? Кто составляет словари? Как это делалось прежде и что изменилось в новую, компьютерную эпоху? Всё ли знают словари - а если нет, то кто знает лучше их? Всегда ли стоит доверять словарям, можно ли обойтись совсем без них и что ждёт словари в будущем?
Как возникли и развивались словари
Первые подобия словарей появились в XXV веке до н.э. у шумеров. Это были так называемые глоссы: на полях рукописей выписывались значения незнакомых слов. Ну а первый известный нам полноценный словарь, представляющий собой отдельную книгу, появился в Китае в XX веке до н.э. Называется он Erya и состоит из 2094 словарных статей. Всего в нём растолковываются 13 113 иероглифов, написанных на 19 пянях - связках из 20-30 бамбуковых планок, размером 1 см на 20-40 см. Современные наиболее полные словари китайского языка содержат толкования около 60 000 иероглифов, а образованные носители китайского языка за свою жизнь выучивают в среднем около 10 000 иероглифов. Так что, несмотря на древность, словарь Erya можно назвать достаточно полным. Так как в китайском языке нет алфавита, словарные статьи в нём упорядочены по тематике: термины родства, жилища, утварь, музыкальные инструменты, небесные тела, территории, возвышенности, горы, воды, травы, деревья, насекомые, рыбы, птицы, дикие животные, домашние животные.
Примерно в 100 году н.э. появился Shuōwén Jiězì - первый словарь, где иероглифы были разбиты по ключам: группировка производится по базовым графическим элементам иероглифов, что упрощает поиск толкований иероглифов в тех случаях, когда даже примерное значение слова неизвестно. Словарь содержит 9353 иероглифов, известен его автор: Сюй Шень.
Самый ранний из дошедших до нас рукописных славянских словарей - это так называемый азбуковник. Он был создан в 1282 в качестве приложения к Кормчей книге и содержал толкования 174 слов. Ну а самый первый печатный словарь был издан в 1596 году в качестве приложения к грамматике Лаврентия Зизания.
В нём содержится перевод 1061 слова со старославянского языка на древнерусский .
Расцвет лексикографии
На протяжении большей части истории своего существования, словари были литературой исключительно для профессионалов, и среди простых людей не пользовались особой популярностью, да и не были особенно доступны. Тот бум словарей, который наблюдается сейчас, стал проявляться только в середине двадцатого века, когда стало понятно, что словарь не просто книга, в которой разъясняются непонятные слова, а в некотором роде проводник культуры. Один из опросов, проводившихся в 90-е годы в Великобритании, показал, что хотя бы один толковый словарь есть в 90% британских семей. Больше, чем поваренные книги (70%) и Библия (80%) .
Возникли целые семейства словарей, составляемые едиными коллективами авторов по единым принципам:
Random House Webster, Barnhart, American Heritage (США);
Oxford, Chambers, Collins, Hamlyn, Longman, Macmillan (Великобритания);
словари Академии наук (СССР, Россия).
Среди толковых словарей русского языка можно выделить:
БАС - Словарь современного русского литературного языка в семнадцати томах. М.-Л.: Изд-во АН СССР, 1950-1965.
МАС - Словарь русского языка в четырёх томах. / Под ред. А. П. Евгеньевой. М.: Русский язык, 1981-1984.
СОШ - Ожегов С.И., Шведова Н.Ю. Толковый словарь русского языка. Изд. 4-е. М.: Русский язык, 1997.
БТС - Большой толковый словарь русского языка / Сост. С. А. Кузнецов. СПб., 1998.
СШ - Толковый словарь русского языка с включением сведений о происхождении слов / Отв. ред. Н. Ю. Шведова. М., 2007.
НБАС - Большой академический словарь русского языка. Гл. ред. А. С. Герд. СПб., 2012.
Как составляются словари
Первый этап составления словаря - сбор словника, набор слов, которые будут в него входить. Далее нужно составить определения всех этих слов. Делать это, базируясь только на своих знаниях (интроспекция) - не самый эффективный способ, хотя какая-то часть работы производится и таким образом. Более полную картину можно получить путём опросов носителей языка. Также информация получается при помощи экспериментов на носителях языка. И четвёртый метод - это корпусные исследования.
До тех пор, пока компьютеры не обрели широкого применения, определения записывались на карточки, из них составлялись картотеки. Труднее всего было находить примеры применения слов в художественной литературе. Академик А. А. Зализняк высказывался об этом следующим образом: «Нынешним молодым людям уже трудно представить себе, что эта работа делалась вручную. „Это же немыслимый абсурд - делать такую работу без компьютера“, - доводилось мне слышать. В действительности рабочим инструментом были четыре хлебных лотка, раздобытых в соседней булочной; в каждый входило по 25 тысяч карточек из тонкой бумаги».
С распространением компьютера появилась возможность составлять корпуса языка: наборы текстов доступных для поиска и грамматической разметки. Теперь найти самые разные варианты применения того или иного слова можно буквально за пару секунд. Это произвело настоящую революцию в работе над словарями.
Корпус отличается от электронной библиотеки тем, что в нём отсутствует доступ к полным текстам, его нельзя просто читать. Но при этом там есть мощный полнофункциональный поиск, ориентированный именно на лингвистические исследования. Самый большой корпус русскоязычных текстов - это национальный корпус русского языка. Он включает в себя более 500 миллионов слов. В нём содержатся самые разные тексты, включая примеры устной речи, которые раньше были совсем уж труднодоступны.
Чего не хватает словарям
Если рассматривать словарные определения близких по смыслу слов в отрыве от них, не всегда можно точно определить, какое именно слово имеется в виду. Определения на естественном языке могут быть слишком туманными и общими. Но если описывать слова каким-нибудь формальным языком, не допускающим двусмысленности, человеку читать такие определения будет очень неудобно. Над поиском компромисса, который устранил бы эту проблему, работают многие учёные. Например, Анна Вежбицка. Она занимается созданием универсального семантического метаязыка. Анна считает, что существует небольшое ядро базовых универсальных значений - семантических примитивов. Они выражаются во всех языках и понятны каждому. И уже с их помощью можно описывать все остальные слова. Текущая версия этого языка содержит около 60 слов:
I, YOU, SOMEONE, PEOPLE, SOMETHING, BODY
KIND, PART; THIS, THE SAME, OTHER
ONE, TWO, SOME, ALL, MANY, FEW
GOOD, BAD; BIG, SMALL
THINK, KNOW, WANT, FEEL, SEE, HEAR
SAY, WORDS, TRUE
DO, HAPPEN, MOVE, TOUCH
BE, THERE IS, HAVE; LIVE, DIE
WHEN, NOW, BEFORE, AFTER, A LONG TIME, A SHORT TIME, FOR SOME TIME, MOMENT
WHERE, HERE, ABOVE, BELOW, FAR, NEAR, SIDE, INSIDE
NOT, MAYBE, CAN, BECAUSE, IF
VERY, MORE; AS
Как видно, тут есть самые распространённые местоимения, числительные, логические связки и глаголы, выражающие основные действия. Чтобы описать какое-то сложное понятие, можно прибегать к использованию логических цепочек, которые в совокупности укажут на одно конкретное слово. Рассмотрим это на примере слова excited:
X felt something because X thought something
sometimes a person thinks:
I know now: something very good will happen
I want it to happen
I can't think about other things now
when this person thinks this this person feels something good
X felt something like this
because X thought something like this
Или на примере слова ashamed:
X felt something because X thought something
sometimes a person thinks:
people can know something bad about me
I don't want people to know this
if people know this they can't not think smt bad about me
when I think about it, I can't not think the same
when this person thinks this person feels smth bad
X felt something like this
because X thought something like this
Метаязык должен содержать небольшое, но достаточное число единиц. Однако толкования из одних только элементарных значений слишком трудны для понимания. Можно пойти на компромисс: включать в определения и более сложные слова, комбинированные из нескольких примитивов, при этом, не допуская синонимии и омонимии.
© Иомдин Борис Леонидович, кандидат филологических наук, старший научный сотрудник Института русского языка им. В. В. Виноградова РАН, доцент Института лингвистики РГГУ, доцент факультета филологии Высшей школы экономики.
Впервые опубликовано на сайте Хабр