Семинар «Теория и практика авторской лексикографии»

[Титульная страница семинара]

3 февраля на очередном заседании семинара с докладом «Статистический словарь языка Достоевского» выступил доктор филологических наук, профессор Анатолий Янович Шайкевич.

Дав краткий обзор истории составления частотных словарей в мировой и отечественной практике, докладчик определил основную задачу «Статистического словаря языка Достоевского» – представить лексику Достоевского в количественном виде, повторив и обогатив опыт уникального конкорданса к Шекспиру.

«Статистический словарь языка Достоевского» опирается на 30-томное академическое издание Ф. М. Достоевского и в основном следует принципам классификации текстов, принятым в этом издании, т. е. включает три основных жанра: «Художественная литература», «Критика и публицистика» и «Письма». Эти три жанра в совокупности и составляют корпус текстов Достоевского, послуживший базой для всех статистических таблиц Словаря. Общий объем корпуса – 2889 тыс. графических слов (145980 разных графических слов), в том числе: «Художественная литература» – 1835 тыс. слов (110744 разных графических слов), «Критика и публицистика» – 524 тыс. слов (59446 разных графических слов), «Письма» – 531 тыс. слов (43689 разных графических слов).

По мнению А. Я. Шайкевича, термин «графическое слово» является более правильным, чем общепринятый термин «словоформа». Один раз встретившееся у Достоевского слово взяточка-то-с заслуживает названия «графическое слово», но вряд ли будет идентифицировано лингвистами как особая «словоформа». Точно так же графическое слово ви-но-ват, встретившееся три раза, едва ли кем-либо будет объявлено особой словоформой. С другой стороны, встретившаяся последовательность по...за...буду... («Белые ночи») в словаре графических слов будет отражена как три слова, в словаре лемм – прибавит единицу к частоте слова позабыть.

Характеризуя лингвистические единицы, отраженные в статистических таблицах, А. Я. Шайкевич отметил, что в Словаре представлены как исходные графические слова, так и результаты всевозможных процедур над ними (слияние разных грамматических форм слова, слияние вариантов, расщепление, объединение в одну единицу двух и более графических слов, следующих друг за другом). Прежде всего речь идет об орфографических вариантах (адрес и адресс, прощание и прощанье), в которых могли проявляться орфографические нормы времени или пристрастия издателей.

Словарь включает различные типы статистических таблиц. Преобладающий тип такой таблицы содержит текстовую часть, включающую лингвистические объекты: графические слова, лексемы, леммы, и цифровую часть, состоящую из одного или нескольких столбцов. Как правило, строки лемм в таблице упорядочены по обычному алфавитному принципу. Исключениями являются обратные частотные словари, в которых единицы упорядочены по алфавиту, как если бы они читались справа налево.

Развернутый вариант Словаря представлен в электронном виде.

Отдельно докладчик остановился на перспективах использования «Статистического словаря языка Достоевского», в частности как источника для сопоставительных исследований по языку произведений русской прозы.

В заключение А. Я. Шайкевич ответил на многочисленные вопросы участников семинара (В. К. Щербина, Т. В. Скулачевой, Е. Л. Ковачич, Л. Л. Шестаковой и др.).