|
11 ноября на очередном заседании семинара с докладами на общую тему «Конкорданс к полному собранию сочинений и писем М. В. Ломоносова: первые шаги» выступили д. ф. н. М. Б. Бергельсон, д. ф. н. И. А. Пильщиков, А. Е. Поляков.
В докладе М. Б. Бергельсон уточнялись понятия и термины, связанные с разработкой полного электронного Конкорданса к корпусу текстов М. В. Ломоносова, представляющему собой филологически корректную электронную версию академического Полного собрания сочинений и писем М. В. Ломоносова в 11-ти томах (1950–1983). Этот конкорданс задуман как сетевой продукт, находящийся в свободном интернет-доступе (с возможностью перевода в бумажную форму дифференциальных словарей, сформированных на его основе). Обсуждение фокусировалось на типологическом контексте, в который должен быть помещен этот словарный продукт, и проблемах, связанных с формулировкой требования полноты, как в области создания корпуса, так и возникающих при обработке корпуса, то есть собственно при составлении Конкорданса.
Основной тезис доклада состоял в том, что современная (авторская) лексикография, базирующаяся на применении компьютерных технологий и автоматизированных способов обработки больших текстовых массивов, понимает полноту как полноту тезаурусного типа и основывает на принципе полноты главное различие между конкордансом и словарем как родовым термином. Различие между конкордансом и толковым словарем заключается в том, что конкорданс не предполагает установления структуры (филиации) значений регистрируемых слов и не обязательно включает толкование этих значений.
Доклад И. А. Пильщикова был посвящен общефилологическим аспектам создания Ломоносовского Конкорданса. Поскольку всякий конкорданс есть особого рода лингвистически препарированный указатель к конкретному корпусу текстов, перед составителями встает проблема отбора филологически корректных текстов данного автора. Для электронного корпуса последнее означает оптимальное соответствие выбранному печатному изданию, для печатного — соответствие тем задачам, которые ставит перед собой конкорданс: представить ломоносовское словоупотребление во всей его широте и во всей полноте его языковой специфики.
Из имеющихся изданий Ломоносова 11-томное академическое издание в наибольшей степени пригодно для намеченных целей, однако по целому ряду параметров оказывается неудовлетворительным и оно. Академическое издание непоследовательно отражает ломоносовское правописание: для разных томов был выбран различный орфографический режим, что привело к неоднородности корпуса, положенного в основу Конкорданса. Однако остальные издания еще менее пригодны с текстологической и лингвистической точек зрения, а попытка исправить 11-томное издание стала бы попыткой подготовки нового критического издания; между тем такая задача явно выходит за рамки обсуждаемого проекта. Докладчик отметил, что с похожими проблемами столкнулся Г. О. Винокур, анализировавший ситуацию с 16-томным академическим Полным собранием сочинений А. С. Пушкина, ставшим основой для Словаря языка Пушкина.
Неоднородность возникает и вследствие диахронической изменчивости текста, имеющей авторское, а не редакторское происхождение. Так, нам известен полный текст поздней редакции Хотинской оды, но неизвестен полный текст ее ранней редакции; таким образом учитывать обе редакции как отдельные самостоятельные тексты невозможно. Этот пример не единичен.
При работе над Конкордансом необходимо разработать практические решения, которые хотя бы отчасти «амортизируют» недостатки выбранного корпуса текстов.
Доклад А. Е. Полякова был посвящен принципам разметки и сегментации текстов для корпуса, а также их дальнейшей лингвистической обработки. Было показано, что электронный текст часто имеет нелинейную структуру, а состоит из фрагментов различных типов (заголовки, сноски, стихи, цитаты, формулы, цифры, части слов), которые нередко требуют специальной обработки и особой формы представления в конкордансе.
В докладе была вкратце описана структура словарной статьи конкорданса (заголовочное слово и его варианты; грамматические пометы; суммарная частота по всем текстам с возможностью разбиения по типам текстов/жанрам; толкование — при необходимости различить омонимы, отметить отличие значения регистрируемого слова от современного и в некоторых других случаях; примеры словоупотребления с адресами и гиперссылками). Были указаны принципиально новые возможности, которые дает электронная форма: это динамическая выборка и сортировка примеров по различным критериям (жанр текста, дата написания, грамматические признаки); прямой переход от примера на соответствующее место в тексте; получение статистических параметров для всего корпуса или любой выборки; генерация печатных словарей различных типов (алфавитный, частотный, жанровый, частеречный).
Докладчик продемонстрировал примеры автоматического грамматического анализа, проведенного с помощью разработанного им морфологического парсера для русского языка, который может быть настроен на особенности языка XVIII в.
В заключение А. Е. Поляков представил участникам семинара свой недавно вышедший лексикографический труд — первый том «Словаря языка А. С. Грибоедова».
|