|
Доклад посвящен географическим названиям в словаре поэта. Исследование построено на основе компьютерной обработки большого числа текстов русской поэзии для уяснения основных тенденций функционирования географических названий в истории русской поэзии с XVIII по XX век.
Материалом послужил поэтический корпус в составе НКРЯ. Общий объём корпуса – около 11 миллионов словоупотреблений.
До сих пор географические названия в русской поэзии изучались единично с точки зрения их функционирования в отдельных текстах или творчестве отдельных авторов. Наш подход предполагает исследование в масштабах всей русской поэзии в рамках концепции distant reading (Moretti 2005, Moretti 2013). Результат должен показать картину тенденций использования географических названий в русской поэзии как целой системе.
Для извлечения географических названий из поэтических текстов нами было использовано две технологии. В качестве первого инструмента использована проприетарная коммерческая система textocat, основанная на машинном обучении и тренированная на нехудожественных текстах. Создатели системы утверждают, что точность выявления именованных сущностей (в том числе географических названий) находится на уровне 75%. Логично предположить, что на поэтических текстах, язык которых может сильно отличаться от прозы, такая технология будет работать хуже. Действительно, на текстах русской поэзии выявленная точность составила всего 19,3%.
Второй подход — это собственный инструмент извлечения географических названий из текстов на основе словаря названий. Мы вынуждены были использовать собственный инструмент, так как для русского языка на текущий момент отсутствует готовое открытое решение для извлечения географических сущностей. В качестве базового списка для словаря были взяты географические названия из Википедии.
Поскольку словарный метод оказался более эффективным, в дальнейшем мы основывались на данных, полученных именно этим способом.
Ниже мы приводим данные о частотности упоминания разных городов в русской поэзии. Сосредоточимся на европейских городах и отразим частотность на карте (см. презентацию).
Как видно благодаря визуализации, наиболее поэтические города с точки зрения русских поэтов сосредоточены в России вокруг Москвы и Санкт-Петербурга, но больше всего равномерно распределённых «поэтических» городов на Украине и в северной Италии. Украина на протяжении всей рассматриваемой истории русской поэзии была частью России, но собственно российская часть карты демонстрирует большие пустоты в смысле распределения поэтических городов, в то время как поэтические города покрывают практически всю территорию Украины.
Особенное внимание привлекает Крым, кажется, наиболее нагруженный поэтическими городами пятачок пространства. Вообще, надо сказать, что именно побережья южноевропейских морей собирают на себе города, больше всего интересовавшие русских поэтов.
За исключением столичных городов вроде Варшавы и Праги континентальная Восточная Европа не выявляет заметного интереса русских поэтов. Можно также наблюдать большие «просветы» во Франции и в Германии, а также почти полностью проигнорированную Скандинавию, города которой не оставили в истории русской поэзии своего заметного следа.
Ещё одно заметное распределение пролегает в области противопоставления германского и романского. Русские поэты, очевидно, считают более поэтическими города романских Италии, Франции, Испании и Бельгии, чем Великобритании, Германии и Нидерландов. Хотя, возможно, такое распределение связано не столько с языком, сколько с вероисповеданием: русские поэты предпочитают католические страны протестантским, а Ватикан находится на 17 месте по частотности упоминания стран в русских стихах.
В наибольшей степени используют географические названия поэты XX века. На первом месте по этому признаку идёт Маяковский. По тому, насколько одни поэты похожи на других по упоминаемым топонимам, также лидируют поэты XX века.
Карты для 35 поэтов можно скачать тут
|