Identifying Latin authors through maximum-likelihood Dirichlet inference: A contribution to model-based stylometry
https://doi.org/10.22394/2412-9410-2021-7-1-183-198
Аннотация
В статье предлагается новый алгоритм для определения авторов латинских прозаических текстов, основанный на Дельте Берроуза и распределении Дирихле. Для демонстрации эффективности алгоритма проводится анализ фрагментов текстов 36 авторов классического и средневекового периода. Наш алгоритм показывает результаты, сопоставимые с результатами, полученными за счет применения Random Forest, одного из самых мощных универсальных классификационных алгоритмов. Преимущество нашего алгоритма заключается в том, что он требует очень мало времени и вычислительных ресурсов для обучения, его легко имплементировать на любом языке программирования общего назначения и его тривиально параллелизовать. Кроме того, поскольку алгоритм основан на эксплицитной модели порождения текста, параметры натренированной модели поддаются интерпретации: точность распределения (сумма его параметров) прямо соответствует стилистической гомогенности текстов соответствующего автора.
Об авторах
Д. С. НиколаевМ. В. Шумилин
Рецензия
Для цитирования:
Николаев Д.С., Шумилин М.В. Identifying Latin authors through maximum-likelihood Dirichlet inference: A contribution to model-based stylometry. Шаги/Steps. 2021;7(1):183-198. https://doi.org/10.22394/2412-9410-2021-7-1-183-198
For citation:
Nikolaev D., Shumilin M. Identifying Latin authors through maximum-likelihood Dirichlet inference: A contribution to model-based stylometry. Shagi / Steps. 2021;7(1):183-198. https://doi.org/10.22394/2412-9410-2021-7-1-183-198