Identifying Latin authors through maximum-likelihood Dirichlet inference: A contribution to model-based stylometry
Аннотация
В статье предлагается новый алгоритм для определения авторов латинских прозаических текстов, основанный на Дельте Берроуза и распределении Дирихле. Для демонстрации эффективности алгоритма проводится анализ фрагментов текстов 36 авторов классического и средневекового периода. Наш алгоритм показывает результаты, сопоставимые с результатами, полученными за счет применения Random Forest, одного из самых мощных универсальных классификационных алгоритмов. Преимущество нашего алгоритма заключается в том, что он требует очень мало времени и вычислительных ресурсов для обучения, его легко имплементировать на любом языке программирования общего назначения и его тривиально параллелизовать. Кроме того, поскольку алгоритм основан на эксплицитной модели порождения текста, параметры натренированной модели поддаются интерпретации: точность распределения (сумма его параметров) прямо соответствует стилистической гомогенности текстов соответствующего автора.
Для цитирования:
Николаев Д.С.,
Шумилин М.В.
Identifying Latin authors through maximum-likelihood Dirichlet inference: A contribution to model-based stylometry. Шаги/Steps. 2021;7(1):183-198.
For citation:
Nikolaev D.,
Shumilin M.
Identifying Latin authors through maximum-likelihood Dirichlet inference: A contribution to model-based stylometry. Shagi / Steps. 2021;7(1):183-198.
Просмотров:
6