Л. Н. Толстой в сознании человека цифровой эпохи

148 По популярности слова «сказать» можно сделать вывод о том, что б о льшую часть произведения составляет диалог, также в облаке можно видеть слова «тан- цевать», «любовь», «полковник», «мазурка», по которым можно судить о содер- жании рассказа. В дополнение построим график (рис. 3), чтобы формально оценить «слож- ность языка» текста. На оси абсцисс отмечена длина выбранного списка частот- ных слов, отсортированного в порядке уменьшения частоты использования слова, по оси ординат – доля слов текста произведения «После бала», попадаю- щая в этот список. Подобные графики можно использовать для визуальной оценки сложности «авторского стиля» и языка текста в целом, так как чем быст- рее растет доля слов, попавших в список самых частотных, и чем выше нахо- дится кривая графика, тем с большей долей вероятности слова в тексте будут понятны большинству читателей, не требуя дополнительного толкования и ком- ментирования. Рис. 3. Доля слов текста произведения «После бала», попадающая в первую 1000, 2000, …, 10 000 самых частотных слов русского языка Произведем построение графического плана рассказа «После бала», сопо- ставив его с текстом произведения. С помощью алгоритма машинного обучения сгладим «шумы», возникающие в процессе преобразования, изобразив результат в виде кривой графического плана (рис. 4).

RkJQdWJsaXNoZXIy ODQ5NTQ=