Preview

Шаги/Steps

Расширенный поиск

Identifying Latin authors through maximum-likelihood Dirichlet inference: A contribution to model-based stylometry

Аннотация

В статье предлагается новый алгоритм для определения авторов латинских прозаических текстов, основанный на Дельте Берроуза и распределении Дирихле. Для демонстрации эффективности алгоритма проводится анализ фрагментов текстов 36 авторов классического и средневекового периода. Наш алгоритм показывает результаты, сопоставимые с результатами, полученными за счет применения Random Forest, одного из самых мощных универсальных классификационных алгоритмов. Преимущество нашего алгоритма заключается в том, что он требует очень мало времени и вычислительных ресурсов для обучения, его легко имплементировать на любом языке программирования общего назначения и его тривиально параллелизовать. Кроме того, поскольку алгоритм основан на эксплицитной модели порождения текста, параметры натренированной модели поддаются интерпретации: точность распределения (сумма его параметров) прямо соответствует стилистической гомогенности текстов соответствующего автора.

Об авторах

Д. С. Николаев
Стокгольмский университет


М. В. Шумилин
Институт мировой литературы им. А. М. Горького РАН


Рецензия

Для цитирования:


Николаев Д.С., Шумилин М.В. Identifying Latin authors through maximum-likelihood Dirichlet inference: A contribution to model-based stylometry. Шаги/Steps. 2021;7(1):183-198.

For citation:


Nikolaev D., Shumilin M. Identifying Latin authors through maximum-likelihood Dirichlet inference: A contribution to model-based stylometry. Shagi / Steps. 2021;7(1):183-198.

Просмотров: 6


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2412-9410 (Print)
ISSN 2782-1765 (Online)