Алгоритмы, структуры данных
5c8b6e8c

Хаpактеpистики сжатия.


Таблица 3 представляет сравниваемые методы сжатия. DIGM - простое кодирование с применением диад, основанное на работе Шнайдермана и Ханта[94] и интересное главным образом своей скоростью. LZB в среднем дает лучшее сжатие среди семейства алгоритмов LZ77, а LZFG - среди LZ78. HUFF - это адаптированный кодировщик Хаффмана применяющий модель 0-го порядка. Остальные методы адаптивно создают вероятностные модели, применяемые в сочетании с арифметическим кодиpованием. DAFC применяет модель, переключаемую между 0-м и 1-м порядками. ADSM использует контекст 1-го порядка с рядом кодируемых символов. PPMC [69] основан на методе, предложенном Клири и Уиттеном [16], применяющим более длинные контексты, и является одним из лучших контекстно-ограниченных методов моделирования. WORD - это контекстно-ограниченная модель, в которой вместо символов используются слова. DMC строит модели с ограниченным числом состояний [19], а MTF есть метод новизны, применяющий стратегию move-to-front [67], котоpый является усовершенствованием метода, предложенного Бентли и другими [10]. Почти все методы имеют параметры, обычно воздействующие на скорость работы и требуемые объемы памяти. Мы выбрали значения, которые дают хорошее сжатие без необязательно больших запросах ресурсов ЭВМ.

Таблица 3. Экспериментельно оцениваемые схемы сжатия.

СхемаАвторыЗаданные параметры
DIGMSnyderman and Hunt [1970]- Без параметров.
LZBBell [1987]N = 8192 Количество символов в окне.
p = 4 Минимальная длина соответствия.
LZFGFiala and Greene [1989]M = 4096 Максимальное число фраз в словаре.
HUFFGallager [1978]- Без параметров.
DAFCLangdon and Rissanen [1987]Contexts = 32 Количество контекстов в модели 1-го порядка.
Threshold =50 Количество появлений символа, прежде, чем он станет контекстом.
ADSMAbramson [1989]- Без параметров.
PPMCMoffat [1988b]m = 3 Максимальный размер контекста. Неограниченная память.
WORDMoffat [1987]- Без параметров.
DMCCormack and Horspool [1987]t = 1 Предпосылка изменений на текущем пути для клонирования.
T = 8 Предпосылка изменений на остальных путях для клонирования.
MTFMoffat [1987]size = 2500 Количество слов в списке.
<


Рисунок 7 характеризует образцы текстов, которые обрабатывались вышеуказанными методами. Они включают книги, статьи, черно-белые изобpажения и прочие виды файлов, распространенные в системах ЭВМ. Таблица 4 содержит полученные результаты, выраженные в битах на символ. Лучшее для каждого файла сжатие от- мечено звездочкой.

TextTypeFormatContentSizeSample
bibbibliographyUNIX "refer" format, ASCII725 references for books and papers on Computer Science111.261 characters%A Witten, I.H.; %D 1985; %T Elements of computer typography; %J IJMMS; %V 23
book1fiction bookUnformatted ASCIIThomas Hardy: "Far from the Madding Crowd"768.771 charactersa caged canary - all probably from the window of the house just vacated. There was also a cat in a willow basket, from the partly-opened lid of which she gazed with half-closed eyes, and affectionately-surveyed the small birds around.
book2non-fiction bookUNIX "troff" format, ASCIIWitten: "Principles of computer speech"610.856 charactersFigure 1.1 shows a calculator that speaks. .FC "Figure 1.1" Whenever a key is pressed the device confirms the action by saing the key's name. The result of any computation is also spoken aloud.
geogeophysical data32 bit numbersSeismic data102.400 charactersd3c2 0034 12c3 00c1 3742 007c 1e43 00c3 2543 0071 1543 007f 12c2 0088 eec2 0038 e5c2 00f0 4442 00b8 1b43 00a2 2143 00a2 1143 0039 84c2 0018 12c3 00c1 3fc2 00fc 1143 000a 1843 0032 e142 0050 36c2 004c 10c3 00ed 15c3 0008 10c3 00bb 3941 0040 1143 0081 ad42 0060 e2c2 001c 1fc3 0097 17c3 00d0 2642 001c 1943 00b9 1f43 003a f042 0020 a3c2 00d0 12c3 00be 69c2 00b4 cf42 0058 1843 0020 f442 0080 98c2 0084
newselectronic newsUSENET batch fileA variety of topics377.109 charactersIn article <18533@amdahl.amdahl.com> thon@uts.amdahl.com (Ronald S. Karr) writes:
>Some Introduction:
>However, we have conflicting ideas concerning what to do with sender
>addresses in headers.
We do, now, support the idea that a pure !-path >coming it can be left as a !-path, with the current hostname prepended
obj1object codeExecutable file for VAXCompilation of "progp"21.504 characters0b3e 0000 efdd 2c2a 0000 8fdd 4353 0000 addd d0f0 518e a1d0 500c 50dd 03fb 51ef 0007 dd00 f0ad 8ed0 d051 0ca1 dd50 9850 7e0a bef4 0904 02fb c7ef 0014 1100 ba09 9003 b150 d604 04a1 efde 235a 0000 f0ad addd d0f0 518e a1d0 500c 50dd 01dd 0bdd 8fdd 4357 0000 04fb d5ef 000a 7000 c5ef 002b 7e00 8bdd 4363 0000 addd d0f0 518e a1d0 500c 50dd 04fb e7ef 0006 6e00 9def 002b 5000 5067 9def 002b 5200 5270 dd7e
obj2object codeExecutable file for Apple Macintosh"Knowledge Support System" program246.814 characters0004 019c 0572 410a 7474 6972 7562 6574 0073 0000 0000 00aa 0046 00ba 8882 5706 6e69 6f64 0077 0000 0000 00aa 0091 00ba 06ff 4c03 676f 00c0 0000 0000 01aa 0004 01ba 06ef 0000 0000 0000 00c3 0050 00d3 0687 4e03 7765 00c0 0000 0000 00c3 0091 01d3 90e0 0000 0000 0015 0021 000a 01f0 00f6 0001 0000 0000 0000 0400 004f 0000 e800 0c00 0000 0000 0500 9f01 1900 e501 0204 4b4f 0000 0000 1e00 9f01 3200 e501
paper1technical paperUNIX "troff" format, ASCIIWitten,Neal and Cleary:"Arithmetic coding for data compression"53.161 charactersSuch a \fIfixed\fR model is communicated in advance to both encoder and decoder, after which it is used for many messages.
.pp
Alternatively, the probabilities the model assigns may change as each symbol is transmitted, based on the symbol frequencies seen \fIso far\fR in this
paper2technical paperUNIX "troff" format, ASCIIWitten: "Computer (In)security"82.199 charactersPrograms can be written which spread bugs like an epidemic. They hide in binary code, effectively undetectable (because nobody ever examins binaries). They can remain dormant for months or years, perhaps quietly and imperceptibly infiltrating their way into the very depths of a system, then suddenly pounce,
picblack and white facsimile picture1728x2376 bit map 200 pixels per inchCCITT facsimile test, picture 5 (page of textbook)513.216 characters 
progcprogramSource code in "C", ASCIIUnix utility "compress" version 4.039.611 characters compress() { register long fcode; register code_int i = 0; register int c; register code_int ent;

proglprogramSource code in LISP, ASCIISystem software71.646 characters (defun draw-aggregate-field (f) (draw-field-background f) ; clear background, if any (draw-field-border f) ; draw border, if any (mapc 'draw-field (aggregate-field-subfields f)) ; draw subfields (w-flush (window-w (zone-window (field-zone f)))) t) ; flush it out

progpprogramSource code in Pascal, ASCIIProgram to evaluate compression performance of PPM49.379 characters if E > Maxexp then {overflow-set to most negative value} begin S:=MinusFiniteS; Closed:=false; end

transtranscript of terminal session"EMACS" editor controlling terminal with ASCII codeMainly screen editing, browsing and using mail93.695 characters WFall Term\033[2'inFall Term\033[4'\033[60;1HAuto-saving...\033[28;4H\033[ 60;15Hdone\033[28;4H\033[60;1H\033[K\0\0\033[28;4HterFall Term\033[7' Term \033[7'\033[12'\t CAssignment\033[18'lAssignment\033[19'aAssignment\033 [20'Sassignment\033[21'sAssignment\033[22'Assignment\033[8@\0t \033[ 23'pAssignment\033[24'reAssignment\033[26'sAssignment\033[27'eAssignment

<



Рисунок 7. Описание образцов текстов, использованных в экспериментах.

Таблица 4. Результаты опытов по сжатию ( биты на символ )

ТекстРазмерDIGMLZBLZFGHUFFDAFCADSMPPMCWORDDMCMTF
bib1112616.423.172.905.243.843.87*2.112.192.283.12
book17687715.523.863.624.563.683.80*2.482.702.512.97
book26108565.613.283.054.833.923.952.262.51*2.252.66
geo1024007.846.175.705.70*4.645.474.785.064.775.80
news3771096.033.553.445.234.354.35*2.653.082.893.29
obj1215047.924.264.036.065.165.00*3.764.504.565.30
obj22468146.413.142.966.305.774.41*2.694.343.064.40
paper1531615.803.223.035.044.204.09*2.482.582.903.12
paper2821995.503.433.164.653.853.842.45*2.392.682.86
pic5132168.001.01*0.871.660.901.031.090.890.941.09
progc396116.253.082.895.264.434.20*2.492.712.983.17
progl716466.302.111.974.813.613.67*1.901.902.172.31
progp493796.102.081.904.923.853.73*1.841.922.222.34
trans936956.782.12*1.765.584.113.881.771.912.112.87
В среднем2244026.463.182.954.994.023.95*2.482.762.743.24
Опыт показывает, что более изощренные статистические модели достигают лучшего сжатия, хотя LZFG имеет сравнимую характеристику. Худшую характеристику имеют простейшие схемы - диады и кодирование Хаффмана.


Содержание раздела