• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Компьютерные технологии при анализе газет «красных» и «белых»

Digital humanities и отечественная история

Коллаж: c2dh.uni.lu / svyazepoh.ru

Коллектив пермского кампуса НИУ ВШЭ и Пермского государственного университета уже третий год реализует грантовый проект РФФИ по анализу дискурсов «красных» и «белых». В ноябре этого года исследователи приняли участие в международной конференции ассоциации «История и компьютер» в МГУ. Они представили автоматизированные методы анализа газетных публикаций и поделились опытом обучения нейросетевых моделей на историческом материале. В настоящей статье Сергей Корниенко и Никита Маткин рассказывают об оцифровке газетных публикаций, о том, какие современные технологии применяются в истории и как можно научить компьютер понимать семантику текста.

О корпусе

В период Гражданской войны 1918–1922 годов на всей территории страны выходило более 3000 периодических изданий разной политической направленности. Периодика становится важным инструментом политической пропаганды, с помощью идеологических маркеров и выборочной подачи информации стороны конструировали в газетах собственное представление о войне. При взятии городов стороны возвращали ранее закрытые периодические издания, из-за чего количество периодики становилось еще больше. Изучение такого объема газетных публикаций является существенной проблемой для исследователя, так как возникает необходимость поиска и отбора статей. Ручной анализ текста сможет раскрыть характерные черты только одного издания, а вот для представления всей полноты картины необходимо использовать компьютерные технологии Digital Humanities. Однако для автоматического анализа нужно представить текст в машиночитаемом виде, то есть не только оцифровать газеты, но и сохранить их в формате электронного текста.

Исследовательские коллективы пермского кампуса НИУ ВШЭ и Пермского государственного университета с 2014 года реализуют проект «Пермская губернская периодика: 1914–1922», целью которого является сохранение газетных публикаций этого периода. Авторы оцифровали и выложили в открытый доступ 25 периодических изданий, распространяемых по всему Восточному фронту: в Перми, Екатеринбурге, Новосибирске, Омске и других городах Сибири и Урала. На данный момент это наиболее полный корпус газет, описывающий ситуацию на Восточном фронте Гражданской войны, выложенный в открытый доступ.

При оцифровке газеты сохраняется скан-копия источника. Тексты сохраняются в формате pdf (текст под изображением), поэтому их необходимо предварительно считать и распознать. Распознавание текста – это трудозатратный и долгий процесс: некоторые газеты находятся в плохой сохранности, шрифт мелкий, буквы сливаются друг с другом, а в самом тексте много опечаток. В связи с этим исследователи тратят большое количество времени на редактирование материала. На данном этапе наиболее полно отредактированы публикации 12 периодических изданий разной политической направленности. Работа по наполнению корпуса новыми газетными публикациями, оцифровке и переводу в электронный текст продолжается.

Для качественной работы необходимо использовать дополнительные возможности, которыми располагают профессиональные программы для оцифровки и распознавания текста. В частности, программа FineReader дает возможность проводить распознавание с обучением, в результате чего создается пользовательский эталон, который позволяет повысить качество получаемого электронного текста. Применение двойного формата pdf дает возможность пользователям самостоятельно редактировать необходимые, но плохо распознанные фрагменты текста на основе его изображения.

О контент-анализе

При таком большом количестве публикаций возникает необходимость использования методов Digital Humanities. Один из важных трендов гуманитарной области – применение подходов «дальнего» чтения. При «пристальном» чтении исследователи изучают конкретные тексты, выявляют их закономерности и характерные черты. В «дальнем» чтении ученые дистанцируются от объекта исследования, устанавливая общие закономерности для всей выборки. В дальнейшем мы можем проверить эти закономерности на основе самого контекста, то есть методом «пристального» чтения. Такой подход требует от исследователя дополнительных компетенций в области программирования и анализа данных. В нашем исследовании мы разработали специальный инструмент для контент-анализа текстов, написанный на языке программирования Python. Преимущества инструмента заключаются в автоматическом анализе текста, уменьшении монотонной работы и возможности добавления необходимых для исследования модулей. На данном этапе инструмент позволяет лемматизировать текст, очищать от стоп-слов, подсчитывать самые частотные n-граммы, то есть сочетания по n слов, выявлять локации, персон и организации, а также строить сети упоминаний. В дальнейшем к этому набору функций планируется добавить стилометрический и семантический анализ.

Исследователь загружает в программу тексты в табличном виде, а на выходе получает список лемм, таблицы частотности n-грамм и списки локаций, персон и организаций, в том числе с их связями. В дальнейшем можно разбить частотные слова по темам и подсчитать их встречаемость в самом контексте. Так можно выявить наиболее частые темы в разных газетах или корпусах газет.

О сетевом анализе

Метод сетевого анализа позволяет определить характерные связи между словами или между именными сущностями (организациями, локациями или персонами). Так как сетевой анализ впервые применен на корпусе публикаций Гражданской войны, мы столкнулись с рядом проблем, требующих дальнейшего разрешения. Тем не менее эти проблемы нам не помешали апробировать инструменты сетевого анализа и получить предварительные выводы.

Для апробации метод сетевого анализа применен на публикации в газете «Красный Урал». Вначале мы построили сеть всего дискурса на основе встречаемости слов в одном предложении. В результате получился большой клубок из 7024 узлов и 24 416 связей. Современные программы для визуализации сетей, такие как Gephi и NetDraw, достаточно долго справляются с большим объемом данных, но позволяют визуализировать сеть и выполнить математические подсчеты. Низкие показатели в средней степени, плотности и средней длине пути свидетельствуют о достаточно ограниченном наборе слов, используемых в текстах. В газетах работали непрофессиональные журналисты, не имевшие образования и богатого словарного запаса. Низкий показатель коэффициента модулярности свидетельствует о невысокой доли кластеризации, то есть темы текстов сконцентрированы в основном вокруг одного события – Гражданской войны.

Сеть слов в газете «Красный Урал»
Сеть слов в газете «Красный Урал»

В ходе исследования мы провели сетевой анализ организаций, встречающихся на страницах «Красного Урала». Для начала нужно было понять, как извлекать организации из большого количества текстов. В компьютерной лингвистике такой процесс называется «автоматическое распознавание именных сущностей». Для этого есть готовые библиотеки на Python, такие как spaCy и Natasha. Нейросетевые модели, заложенные в них, обучены на современных газетных публикациях, что создает погрешность при извлечении. При извлечении персон и локаций погрешность была достаточно высокой, требуется долгая последующая ручная обработка или настройка модели. При выявлении организаций была низкая погрешность с незначительной ручной обработкой, поэтому анализ был проведен на сети организаций.

В итоге получилось визуализировать сеть из 154 узлов и 996 связей. В центре сети находятся «Советы» и «Красная армия» как ключевые организации в тексте. У такой сети высокий коэффициент кластеризации, в ней выделяются отдельные группы организаций, не встречающихся с ядром. Сетевой анализ позволяет собрать из текста информацию о связях организаций и сделать визуализацию их взаимодействий.

Сеть организаций в газете «Красный Урал»
Сеть организаций в газете «Красный Урал»

О стилометрии

Работая с текстами в ходе проекта, мы стали задаваться вопросами кластеризации публикаций: «красные» и «белые» корпуса оказались очень неоднородными. Например, издания, печатавшиеся еще до революции и возобновившие выпуск, сильно отличаются от впервые созданных. «Красные» газеты схожи во многом благодаря новому языку, свойственному новой власти, однако обладают спецификой в зависимости от уровня и направленности издания. Возникла идея сравнить подкорпуса с точки зрения авторского стиля.

Для реализации такого исследования большое значение имеют не ключевые слова, а, напротив, незаметные маркеры авторского стиля: длина предложений, использование служебных слов. Мы реализовали небольшое стилометрическое исследование: разделили тексты подкорпусов на равные фрагменты, сравнили их между собой и обнаружили, что корпус «красных» газет обладает большим единством стиля, чем корпус «белых». Так, газета «Красный Урал» с достаточно большим объемом подкорпуса попадает в общий кластер с известиями, выпускаемыми Советами различных уровней, однако стилистически подкорпус этой газеты достаточно однородный: его фрагменты расположены очень плотно на дендрограммах. Среди «белых» газет мы выявили больше различий, и особенно показательны издания «Свободная Пермь» и «Современная Пермь». Поскольку вторая газета представляет собой продолжение первой, неудивительно, что между ними есть значительное сходство, однако «Современная Пермь» при кластеризации продемонстрировала больше отличий от «красных» газет, чем все прочие, включая и ее предшественницу.

Мы продолжаем исследовать авторский стиль и планируем усилить дальнейшую работу в этом направлении. В частности, увеличиваем объем корпуса, чтобы реализовать новый метод классификации подкорпусов.

О нейросетевом моделировании

Нейросети активно применяются в разных областях науки. Одной из передовых технологий в компьютерной лингвистике является векторное представление слов, или эмбеддинги. На основе корпуса текстовых источников можно обучить модель Word2Vec, что позволит получить для каждого слова числовой вектор, значения которого заданы контекстом. Таким образом, схожие по семантике слова будут иметь схожие числовые векторы.

Векторное представление слов
Векторное представление слов

Мы видим, что у схожих по смыслу слов близкие числовые значения. С помощью математических методов мы можем вычислить сходство этих векторов и выявить близкие по смыслу слова. Таким образом, мы задаем семантику слова не на основе нашего опыта, а на основе непосредственного контекста его употребления.

В исследовании мы обучили модель Word2Vec на корпусе «красных» публикаций. Для апробации метода мы извлекли из текста топонимы и создали их визуализацию в 2-мерном пространстве.

Векторное пространство топонимов
Векторное пространство топонимов

Из полученной визуализации видно, что выделяются отдельные кластеры топонимов, связанные с боевыми действиями. Слева расположен кластер городов Западного фронта, справа внизу сформирован кластер иностранной поддержки, есть кластеры, связанные с отдельными городами на восточном направлении боевых действий, кластеры с мировыми столицами и индустриальные кластеры. Для многих топонимов смысл в тексте задавался не их географическими или социальными особенностями, а расположением войск противника или союзника. Если посмотреть на близкие по смыслу слова, то мы увидим список идеологических маркеров, направленных не на сам город, а на противника. Можно сделать вывод, что смысловая окраска городов в данном контексте задается от политической ситуации и от идеологем, которые используются в отношении этих топонимов.

Векторное моделирование позволяет нам воссоздать смысл слова по контексту, а это очень полезно для истории, так как язык – динамическая структура и смыслы слов постоянно меняются.

Со стороны Высшей школы экономики в реализации проекта участвуют Сергей Корниенко, Динара Гагарина, Илиана Исмакаева, Анна Сенина и Никита Маткин. Исследование подготовлено при поддержке гранта РФФИ №20-09-00443 «Идейно-политические и агитационно-пропагандистские дискурсы “белых” и “красных” в информационном противоборстве на Восточном фронте Гражданской войны (по материалам газетной периодики 1918–1922 гг.)».

Комментарии

Исследовать авторский стиль было очень интересно! За каждой газетой скрывается коллектив журналистов и редакторов, и, хотя конкретные авторы статей в газетах часто не подписаны, с помощью стилометрии мы можем обнаружить их след: увидеть работу человека во времени, найти схожие тексты и даже выделить пересечения между разными газетными изданиями – взаимовлияние авторских стилей. Цифровые технологии дают возможность посмотреть на газеты как на массовые источники и одновременно увидеть за ними отдельных личностей – авторов с их индивидуальностью. Несмотря на то что мы делим их на два идеологических лагеря, стилометрия позволяет работать с источниками в конкретном историческом моменте. Например, увидеть, как возобновившие выпуск дореволюционные газеты – «белые» – оказываются в чем-то близки к «красным», в то время как новые «белые» издания дистанцируются от газет своих противников.

Анна Сенина, преподаватель кафедры гуманитарных дисциплин

Говоря о применении цифровых технологий для научного исследования, необходимо иметь в виду, что это, как правило, не только обещает новые результаты, но и поднимает уровень его доказательности. Применение цифровых технологий создает возможность видеть и при необходимости повторить тот путь, которым получены результаты.

Сергей Корниенко, профессор кафедры гуманитарных дисциплин

 

28 декабря, 2022 г.