03 октября 2015

Введение в словарный и семантический анализ документов (на примере предвыборных программ кандидатов в президенты Беларуси)



11 октября 2015 г. в Беларуси состоятся очередные президентские выборы. На высшую должность претендуют четыре кандидата, каждый из которых, естественно, опубликовал свою предвыборную программу в СМИ. Это хороший случай, чтобы продолжить начатую ранее тему и продемонстрировать дополнительные методы анализа текстовой информации. В частности, мы попытаемся ответить на следующие вопросы:

1) Насколько сходны программы кандидатов по своему словарному составу?
2) В чем именно заключается основная идея (или идеи) каждого документа?

Программы каждого кандидата без труда можно найти в Сети (файлы c текстом каждой программы, а также R-код для воспроизведения приведенных здесь примеров, доступны на GitHub):
Помимо перечисленных выше четырех документов в анализ были включены также программы А. Лукашенко за 2006 (lu06) и 2010 (lu10) годы. Включение этих дополнительных документов представляет интерес с точки зрения изучения эволюции тематики предвыборных обещаний действующего главы Беларуси.