Л. Н. Толстой в сознании человека цифровой эпохи
146 исследования удается получить алгоритм, способный с 98 % точностью клас- сифицировать незнакомые ему тексты. Крупные IT-компании используют ана- лиз тональности с целью оценки настроения пользователей. Cет Cтивенс-Да- видовиц в книге «Все лгут. Поисковики, Big Data и Интернет знают о вас всё» [3] рассказывает о том, как разработчики социальных сетей оценивают «вало- вое национальное счастье страны» по сообщениям и комментариям, оставляе- мым пользователями, и получают ценные результаты. Анализ больших данных и использование машинного обучения может по- мочь выявить недоступные прежде для изучения закономерности и провести сложные междисциплинарные исследования, формализуя и цифровизируя под- ходы, используемые в гуманитарных науках. Проведем анализ эмоциональной тональности текста рассказа Л. Н. Тол- стого «После бала» и рассмотрим полученные результаты. Для создания эффективного алгоритма, производящего оценку тональности текста, выбран перечень 10 000 самых частотных слов русского языка, сформи- рованного на основе текстов Национального корпуса русского языка по состоя- нию на 28.08.2022 г. Слова помещены в таблицу и маркированы согласно их эмо- циональному потенциалу по шкале от 0 до 10, где 0 означает предельно негативную информацию (например, лексемы с ядерными семами: «убийство», «война», «страдание»), а 10 – максимально позитивную информацию (например, лексемы с ядреными семами: «радость», «улыбка», «любовь»), слова с нейтраль- ным эмоциональным потенциалом получали оценку 5 (таблица 1). Таблица 1 Примеры слов с разными эмоциональными потенциалами 0 Катастрофа, преступник, убийца 1 Мрачный, трагический, противный 2 Дурной, неприятность, боевик 3 Украсть, жалкий, сбить 4 Нарушить, бессмысленный, стрельба 5 Я, он, дом, математика 6 Успокоить, ветеран, поэт 7 Хохотать, волшебный, поздравлять 8 Совершенный, возрождение, душа 9 Блестящий, счастье, прекрасный 10 Добро, благо, любовь Для корректного использования полученной таблицы требуется произвести первичную машинную обработку изучаемого текста. Процесс цифрового преоб- разования можно разделить на 3 этапа (рис. 1): 1) удаление знаков препинания; 2) нормализация с помощью pymorphy2 (постановка слов в начальную форму для возможности поиска точных соответствий в перечне самых частотных слов);
Made with FlippingBook
RkJQdWJsaXNoZXIy ODQ5NTQ=