Семинар «Теория и практика авторской лексикографии»ё | Институт русского языка им. В. В. Виноградова РАН

Семинар «Теория и практика авторской лексикографии»

31 октября 2017 года на очередном заседании семинара с докладом «Словарь языка Чехова. Проект электронной версии на основе базы данных» выступили д.ф.н. А. Я. Шайкевич и Н. А. Ребецкая (ИРЯ РАН).

Ставится задача создать авторский словарь нового типа, сочетающий в себе традиционное бумажное представление результатов с электронной базой данных в системе MS Access. Материалом базы данных станут все тексты Чехова, вошедшие в академическое собрание сочинений писателя в 30 томах (2 млн словоупотреблений).
К настоящему моменту завершено создание конкорданса по всем художественным произведениям автора с группировкой контекстов по разным значениям (разрешение полисемии осуществлено в соответствии со словарем С.И. Ожегова).

Конкорданс конвертируется в базу данных, таблицы которой включают следующие поля: лексема (заголовок словарной статьи), адрес (номер фрагмента, поставленный в соответствие с названием произведения, номером тома и страницы), контекст (фрагмент длиной 40 слов), номер значения (в случае полисемии), показ значения (факультативно), общая частота, частота значения.

В программной оболочке C++Builder создана программа работы с базой данных. Она позволяет последовательно просматривать записи, расширять контексты, делать выборку по лексеме, морфеме, в том числе с чередованиями, сохранять массивы в текстовом и RTF формате, благодаря чему можно увидеть одновременно более одной записи, получать списки значений при лексеме, просматривать полный текст произведения, в состав которого входит лексема.

Предусматривается подключение зоны комментариев, статистических таблиц и списков, опции выборки по зоне значения. Доклад включает описание формы представления электронного словаря, демонстрацию работы программы на различных примерах.