Compresión de texto simple/eficiente

¿Cuál es el algoritmo de compresión más simple pero eficiente?Compresión de texto simple/eficiente

Deflate, lzma, etc. no son opciones válidas. Necesito algo que compila muy pequeño, como: RLE, LZX, Huffman, etc ..

Nota: Los datos son el 95% de texto ASCII
Editar: Los datos son ~ 20 kb en el momento, pero esperamos que crezca hasta 1 MB

Edit2:
Otras opciones interesantes
Smaz https://github.com/antirez/smaz
FastLZ http://fastlz.org/

Fuente

2010-06-09 arthurprs

¿Cuánto texto está comprimiendo? Comprimir 12 caracteres es muy diferente a 12 MB de caracteres. – Daniel

Deflate es la forma canónica de usar Huffman ... te estás contradiciendo a ti mismo allí. –

Gracias por la nota Billy – arthurprs

suena como LZO fue diseñado para satisfacer sus necesidades:

descompresión es muy simple y rápido.

No requiere memoria para la descompresión.

La compresión es bastante rápida.

Fuente

2010-06-09 01:17:49

Funciona como un encanto, el tamaño de datos comprimidos es ~ 58% de la original – arthurprs

Actualización: Hice algunas optimizaciones en la estructura de archivos, ahora el tamaño comprimido es ~ 40% del original – arthurprs

podría intentar http://scz-compress.sourceforge.net/

Fuente

2010-06-09 01:19:06

Parece realmente prometedor, definitivamente voy a echar un vistazo. – arthurprs

mayoría de los esquemas del diccionario va a hacer muy bien. Cualquiera de los LZ. Usamos un varient LZ77 en sistemas integrados para muchas de nuestras cosas simples de compresión y funciona muy bien con casi ningún gasto de memoria. ¿Qué tipo de sistema se está comprimiendo y qué se está descomprimiendo? Eso determinará el tipo de compresor con el que puede salirse con la suya.

Fuente

2010-06-09 02:19:22

Encontré 2 implementaciones muy buenas, http://src.opensolaris.org/source/xref/onnv/onnv-gate/usr/src/uts/common/os/compress.c y http: //michael.dipperstein .com/lzw/la primera es realmente pequeña y la compresión es excelente – arthurprs

This benchmark tiene muchas comparaciones. Compruébalo ya que también muestra los algoritmos utilizados en el proceso de compresión.

Fuente

2010-06-09 07:06:06 INS

Ver también este enlace: http://cs.fit.edu/~mmahoney/compression/rationale.html – INS

Algo basado en BWT probablemente sería bueno para este caso. http://en.wikipedia.org/wiki/Burrows%E2%80%93Wheeler_transform
Comprime el texto mucho mejor que LZ, y es fácil de implementar desde cero, y hay buenas bibliotecas.
http://libbsc.com
http://encode.ru/threads/104-libBWT?p=22903&viewfull=1#post22903
http://code.google.com/p/libdivsufsort/

O, alternativamente, hay PPMD  que se utiliza para la compresión de texto en rar/winzip/7-zip, etc, pero es más complicado.
http://www.compression.ru/ds/ppmdj1.rar
http://www.compression.ru/ds/ppmsj.rar (uso de memoria más rápido/pequeño)
http://www.ctxmodel.net/files/PPMd/ppmd_Jr1_sh8.rar (puerto alternativo)

Fuente

2011-02-16 21:57:49 Shelwien

Gracias, opciones muy interesantes, especialmente basadas en BWT . – arthurprs

Sin embargo, LZma resulta mejor que el bzip2 basado en BWT. – user611775

En archivos de 900k +, tal vez. Pero no mencioné bzip2 de todos modos, y los codificadores vinculados son mejores. – Shelwien

Compresión de texto simple/eficiente

Respuesta

Cuestiones relacionadas