Què és L'entropia De Fitxers

Què és L'entropia De Fitxers
Què és L'entropia De Fitxers

Vídeo: Què és L'entropia De Fitxers

Vídeo: Què és L'entropia De Fitxers
Vídeo: What is entropy? - Jeff Phillips 2024, De novembre
Anonim

Qualsevol fitxer informàtic està format per bytes. Un byte pot prendre valors de 0 a 255. L'entropia d'informació és un paràmetre estadístic que mostra la probabilitat d'aparició de determinats bytes en un fitxer.

Què és l'entropia de fitxers
Què és l'entropia de fitxers

Podeu avaluar visualment el grau d’entropia mitjançant un histograma: la distribució de la probabilitat de repetir els mateixos bytes en un fitxer. A partir de l’entropia del fitxer, podem endevinar quin tipus de fitxer tenim al davant, veient només el seu histograma.

Per a la demostració, agafem tres fitxers de diferents tipus i comparem els seus histogrames. Deixeu que el primer sigui un fitxer de text (*. TXT). El seu histograma es mostra a la figura:

гистограмма=
гистограмма=

El fitxer de text només conté text. Cada caràcter del text es codifica amb determinats bytes d’acord amb la taula de codificació. Tot i que hi ha un gran nombre de tipus de codificació, és obvi que hi ha un nombre limitat de caràcters alfanumèrics, que sol ser inferior a 255. Per tant, només algunes àrees estan ocupades al primer histograma i alguns bytes no ho són en absolut.

El fitxer següent serà en format PDF:

гистограмма=
гистограмма=

Aquest fitxer conté tots els bytes possibles, ja que el PDF es codifica de manera diferent als fitxers de text. Emmagatzema molta informació del servei: format, tipus de lletra, imatges, etc. Però el seu histograma mostra que alguns dels bytes es produeixen amb una probabilitat aproximadament igual, mentre que d’altres, molt més sovint que altres. Per tant, les múltiples ràfegues nítides de l'histograma i, en general, tenen un aspecte bastant "irregular", tot i que ocupen tota l'amplada disponible.

I l’últim fitxer es comprimeix en format 7Z:

гистограмма=
гистограмма=

Aquest histograma té dues característiques principals: en primer lloc, tots els bytes es troben al fitxer comprimit amb una probabilitat més o menys igual (una vora superior bastant plana) i, en segon lloc, pràcticament no hi ha espai lliure per sobre de l’histograma, cosa que indica una absència gairebé completa de redundància d'aquest fitxer. Per tant, podem concloure que l'algorisme de l'arxivador d'alguna manera especial "barreja" els bytes del fitxer per aconseguir la seva màxima distribució uniforme.

Per tant, l’entropia en informàtica, com en física, és una mesura del trastorn del sistema, en aquest cas, el trastorn en la distribució de bytes al fitxer. L'entropia permet jutjar el grau de compressió del fitxer i, indirectament, sobre el seu tipus.

Recomanat: