Features of calculating the information entropy of the text in case of attacking the linguistic stegosystem by semantic compression
Наукові журнали Національного Авіаційного Університету
View Archive InfoField | Value | |
Title |
Features of calculating the information entropy of the text in case of attacking the linguistic stegosystem by semantic compression
Особенности вычисления информационной энтропии текста в условиях проведения атаки семантического сжатием на лингвистическую стегосистему Особливості обчислення інформаційної ентропії тексту в умовах проведення атаки семантичним стисненням на лінгвістичну стегосистему |
|
Creator |
Тарасенко, Ярослав Володимирович; Черкаський державний технологічний університет, Україна
Півень, Олег Борисович; Черкаський державний технологічний університет, Україна |
|
Subject |
Information security
linguistic steganography; counteraction the steganography methods; information entropy; semantic compression; semantic compression limit; semantic redundancy; steganalysis; textual steganography; removal of the stegomessage УДК 003.26 (045) Информационная безопасность лингвистическая стеганография; противодействие методам стеганографии; информационная энтропия; семантическое сжатие; предел семантического сжатия; семантическая избыточность; стегоанализ; текстовая стеганография; удаление стегосообщения УДК 003.26 (045) Інформаційна безпека лінгвістична стеганографія; протидія методам стеганографії; інформаційна ентропія; семантичне стиснення; межа семантичного стиснення; семантична надлишковість; стегоаналіз; текстова стеганографія; видалення стегоповідомлення УДК 003.26 (045) |
|
Description |
The article deals with the improvement of well-known methods for calculating the entropy of the text, and the description of the information entropy of the text calculating peculiarities in case of the semantic compression attack on the linguistic stegosystem, implemented in the cognominal program complex. The problem of determining the natural language text entropy in the context of further discursive analysis and semantic redundancy removal is formalized. Additional parameters that contribute to determining the semantic entropy of meaningful and artificially generated text for a semantic compression attack on the linguistic stegosystem, the container of which is textual information of natural (English) language are entered. The entropy variety for different language styles is substantiated and its changing according to the style is explained due to the need of adding specialized terminology dictionaries to the general terminology dictionary. In addition to the calculation features of conditional and unconditional entropy in case of using the software complex for attack the linguistic stegosystem, the dictionary size used in it and the prescribed grammar rules size are given, which are the additional parameters determining the entropy calculation in a particular case. The maximum entropy calculation for meaningless texts and the amount of information of a single word or a grammatical form calculation in case of maximum and real entropy are shown. In addition, the calculation of the semantic compression limit is given and the task of determining the semantic information redundancy is formalized. Thus, it becomes possible to determine the quality of the compression attack, carried out on the basis of the software complex use. The obtained results can be used in further research to improve the means of conducting an attack, which will increase its efficiency by maximally approximating the semantic compression limit.
В статье, на основе известных методов вычисления энтропии текста, производится их усовершенствование и описываются особенности исчисления информационной энтропии текста в условиях проведения атаки семантическим сжатием на лингвистическую стегосистему, реализованную в одноименном программном комплексе, формализуется задача определения энтропии текста естественного языка в контексте дальнейшего дискурсного анализа и удаления семантической избыточности. Вводятся дополнительные параметры, способствующие определению семантической энтропии осмысленного и искусственно сгенерированного текста для проведения атаки семантическим сжатия на лингвистическую стегосистему, контейнером для которой выступает текстовая информация естественного (английского) языка. Обосновывается различие энтропии для разных стилей языка и объясняется ее увеличение с изменением стиля благодаря необходимости добавления к использованному словарю общей терминологии специализированных словарей. Кроме особенностей расчета условной и безусловной энтропии, в случае использования программного комплекса проведения атаки на лингвистическую стегосистему, приведен расчет мощности использованного в нем словаря и прописанных правил грамматики, являющихся дополнительными параметрами, которые обусловливают вычисления энтропии в конкретном случае. Приводится расчет максимальной энтропии (для неосмысленного текста) и количества информации, которую несет одно слово или грамматическая форма в случае максимальной и реальной энтропии. Кроме того, приводится вычисление предела семантического сжатия и формализована задача определения избыточности смысловой информации. Таким образом, становится возможным определение качества атаки сжатием, проводимой на основе использования соответствующего программного комплекса. Полученные результаты могут быть использованы в дальнейших исследованиях для совершенствования средств проведения атаки, что позволит повысить ее эффективность за счет максимального приближения к границе семантического сжатия. У статті, на основі відомих методів обчислення ентропії тексту проводиться їх удосконалення та описуються особливості обчислення інформаційної ентропії тексту в умовах проведення атаки семантичним стисненням на лінгвістичну стегосистему, реалізовану в однойменному програмному комплексі, формалізується задача визначення ентропії тексту природньої мови в контексті подальшого дискурсного аналізу та видалення семантичної надлишковості. Вводяться додаткові параметри, що сприяють визначенню семантичної ентропії осмисленого та штучно згенерованого тексту для проведення атаки семантичним стиснення на лінгвістичну стегосистему, контейнером для якої виступає текстова інформація природньої (англійської) мова. Обґрунтовуються розбіжності ентропії для різних стилів мови та пояснюється її збільшення зі зміною стилю завдяки потребі додавання до використаного словнику загальної термінології спеціалізованих словників. Крім особливостей розрахунку умовної та безумовної ентропії у випадку використання програмного комплексу проведення атаки на лінгвістичну стегосистему, наведено розрахунок потужності використаного у ньому словнику та прописаних правил граматики, що і є додатковими параметрами, які зумовлюють обчислення ентропії в конкретному випадку, наводиться розрахунок максимальної ентропії (для неосмисленого тексту) та кількості інформації, що несе одне слово чи граматична форма у випадку максимальної та реальної ентропії. Крім того, наводиться обчислення межі семантичного стиснення та формалізовано задачу визначення надлишкової смислової інформації. Таким чином, стає можливим визначення якості проведення атаки стисненням, що проводиться на основі використання відповідного програмного комплексу. Отримані результати можуть бути використані в подальших дослідженнях для удосконалення засобів проведення атаки, що дозволить підвищити її ефективність за рахунок максимального наближення до межі семантичного стиснення. |
|
Publisher |
National Aviation University
|
|
Contributor |
—
— — |
|
Date |
2018-10-11
|
|
Type |
—
— — |
|
Format |
application/pdf
|
|
Identifier |
http://jrnl.nau.edu.ua/index.php/Infosecurity/article/view/12954
10.18372/2225-5036.24.12954 |
|
Source |
Безпека інформації; Том 24, № 2 (2018); 124-129
Безопасность информации; Том 24, № 2 (2018); 124-129 Ukrainian Scientific Journal of Information Security; Том 24, № 2 (2018); 124-129 |
|
Language |
en
|
|
Relation |
http://jrnl.nau.edu.ua/index.php/Infosecurity/article/downloadSuppFile/12954/34029
|
|