QUANTIFICATION OF LARGE TEXT ARRAYS DESTRUCTIVENESS IN SOCIAL MEDIA
Цель исследования состоит в разработке методики, позволяющей выявлять деструктивность больших текстовых массивов в социальных медиа. Проведен анализ существующих подходов к определению деструктивного характера текстовых данных, дано описание их преимуществ и недостатков. Описан метод определения деструктивности текста с использованием векторных представлений слов. Рассмотрено формирования векторных представлений слов и оценена возможность их применения при решении задач идентификации текстового контента. Обосновано применение алгоритмов Word2vec и FastText. Предложены ключевые слова и выражения векторных представлений слов, определяющих три класса текстов: реабилитация нацизма, радикальный ислам, антисемитизм. Реализованы модели выявления деструктивности контента больших текстовых массивов с использованием нейтральных новостных корпусов текстов и текстов, содержащих возможный деструктивный контент. Произведена интерпретация результатов анализа текстовых массивов и обоснована Word2vec как наиболее подходящая модель векторного представления слов. Сделан вывод о направлениях использования полученных результатов в аналитической деятельности государственных органов, общественных организаций и социальных медиа для выявления противоправного контента. The aim of the study is to develop a method that allows us to identify the destructiveness of large text arrays in social media. The analysis of existing approaches to determining the destructive nature of text data is carried out, and their advantages and disadvantages are described. A method for determining the destructiveness of a text using vector representations of words is described. The formation of vector representations of words is considered and the possibility of their application in solving problems of identifying text content is evaluated. The application of the Word2vec and FastText algorithms is justified. Keywords and expressions of vector representations of words defining three classes of texts are proposed: rehabilitation of Nazism, radical Islam, and anti-Semitism. Models are implemented to identify the destructiveness of the content of large text arrays using neutral news text corpora and texts containing possible destructive content. The results of the analysis of text arrays are interpreted and Word2vec is justified as the most suitable model for the vector representation of words. The conclusion is made about the directions of using the obtained results in the analytical activities of state authorities, public organizations and social media to identify illegal content.