Skip to content

标题: Python趣味题--求bytes的压缩显示

创建: 2023-03-31 16:32 更新: 2023-04-03 10:55 链接: https://scz.617.cn/python/202303311632.txt


目录:

☆ 背景介绍
☆ HYS与ChatGPT的对话
☆ HYS的实现
☆ electroniccc的实现
☆ i2s()

☆ 背景介绍

出个Python小题,有兴趣的可以做一下,没啥技术难度,但坑点不少,心得比较细。

import hexdump tmp=b'PK\3\4'+b'\0'26+b'+(\xca\xcc+\xd1P\xf7H\xcd'+b'\xc9'2+b'W\b\xcf/\xcaIQT\xd7\4\0PK\1\2'+b'\0'6+b'\1'+b'\0'9+b'\x17'+b'\0'7+b'\v'+b'\0'17+b'_'2+b'main'+b'_'2+b'.pyPK\5\6'+b'\0'8+b'9'+b'\0'3+b'5'+b'\0'*3 hexdump.hexdump(tmp)

00000000: 50 4B 03 04 00 00 00 00 00 00 00 00 00 00 00 00 PK.............. 00000010: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 2B 28 ..............+( 00000020: CA CC 2B D1 50 F7 48 CD C9 C9 57 08 CF 2F CA 49 ..+.P.H...W../.I 00000030: 51 54 D7 04 00 50 4B 01 02 00 00 00 00 00 00 01 QT...PK......... 00000040: 00 00 00 00 00 00 00 00 00 17 00 00 00 00 00 00 ................ 00000050: 00 0B 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 00000060: 00 00 00 5F 5F 6D 61 69 6E 5F 5F 2E 70 79 50 4B ...main.pyPK 00000070: 05 06 00 00 00 00 00 00 00 00 39 00 00 00 35 00 ..........9...5. 00000080: 00 00 ..

tmp数据如上,print(repr(tmp))看到的内容太占地方,请实现一个repr_ex(),使得 print(repr_ex(tmp))看到的显示同tmp变量表达式。

print(repr(tmp)) b'PK\x03\x04\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00+(\xca\xcc+\xd1P\xf7H\xcd\xc9\xc9W\x08\xcf/\xcaIQT\xd7\x04\x00PK\x01\x02\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x17\x00\x00\x00\x00\x00\x00\x00\x0b\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00__main__.pyPK\x05\x06\x00\x00\x00\x00\x00\x00\x00\x009\x00\x00\x005\x00\x00\x00'

print(repr_ex(tmp)) b'PK\3\4'+b'\0'26+b'+(\xca\xcc+\xd1P\xf7H\xcd'+b'\xc9'2+b'W\b\xcf/\xcaIQT\xd7\4\0PK\1\2'+b'\0'6+b'\1'+b'\0'9+b'\x17'+b'\0'7+b'\v'+b'\0'17+b'_'2+b'main'+b'_'2+b'.pyPK\5\6'+b'\0'8+b'9'+b'\0'3+b'5'+b'\0'*3

hexdump.hexdump(eval(repr_ex(tmp))) 00000000: 50 4B 03 04 00 00 00 00 00 00 00 00 00 00 00 00 PK.............. 00000010: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 2B 28 ..............+( 00000020: CA CC 2B D1 50 F7 48 CD C9 C9 57 08 CF 2F CA 49 ..+.P.H...W../.I 00000030: 51 54 D7 04 00 50 4B 01 02 00 00 00 00 00 00 01 QT...PK......... 00000040: 00 00 00 00 00 00 00 00 00 17 00 00 00 00 00 00 ................ 00000050: 00 0B 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................ 00000060: 00 00 00 5F 5F 6D 61 69 6E 5F 5F 2E 70 79 50 4B ...main.pyPK 00000070: 05 06 00 00 00 00 00 00 00 00 39 00 00 00 35 00 ..........9...5. 00000080: 00 00 ..

之前懒得自实现repr_ex(),想让ChatGPT帮写一个,未如愿。或许谁运气好,能让 ChatGPT实现此需求,自实现亦可。

☆ HYS与ChatGPT的对话

这是小侯与ChatGPT的对话,最终收敛了一下,提供了接近原始需求的关键信息。整 个过程挺有借鉴意义,收集并展示之。


2023/3/31 17:17:40 hys

实现Python代码,将

b'PK\x03\x04\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00+'

转换成

b'PK\3\4'+b'\0'*26+b'+'

2023/3/31 17:17:49 ChatGPT

可以使用下面的Python代码

data = b'PK\x03\x04...\x00+' new_data = data[:4] + b'\0'*26 + data[-1:] print(new_data)


2023/3/31 17:18:52 hys

上面字符串中的'\x00'个数非定值,请修改代码

2023/3/31 17:19:02 ChatGPT

如果该字符串中的\x00个数是不定值,那么可以这样

data = b'PK\x03\x04...\x00+' new_data = data[:4] + b'\0'*(len(data)-6) + data[-2:] print(new_data)

这里使用了len(data)获取了字符串的长度,并将其减去固定部分的长度(6),即可得 到需要填充\0的长度。


2023/3/31 17:19:24 hys

完整字符串长度也非定值,请修改代码

2023/3/31 17:19:34 ChatGPT

如果字符串的长度也是不定值,我们可以使用以下代码

data = b'PK\x03\x04...\x00+' new_data = data[:4] + b'\0'*(len(data)-4-2) + data[-2:] print(new_data)

此处使用len(data)-4-2计算出需要填充\0的长度,其中4为固定部分的长度 (即PK\3\4),2为结束符号的长度。


2023/3/31 17:24:06 hys

我的目的是压缩字符串中相同的字符,比如'\x00',出现了26次,就压缩为'\0'*26

2023/3/31 17:24:16 ChatGPT

要压缩字符串中相同的字符,可以使用计数器来实现。您可以循环遍历字符串中所有 的字符,对于每个字符,都增加一个计数器。当您遇到一个新字符时,将上一个字符 和它出现的次数添加到结果字符串中,并将计数器重置为1。

以下是一个Python代码示例,演示如何执行此操作

def compress_string(s): result = '' count = 1 prev_char = s[0] for char in s[1:]: if char == prev_char: count += 1 else: # Add previous character and its count to result string result += prev_char * count # Reset counter and previous character count = 1 prev_char = char # Add last character and its count to result string result += prev_char * count return result

您可以将该函数应用于您的字符串,并查看输出是否符合您的预期。

2023/3/31 17:28:05 hys

修改上面代码将压缩字符修改成压缩byte

2023/3/31 17:28:14 ChatGPT

好的,我来修改一下代码。请注意,虽然byte类型表示压缩后的数据更加精确,但是 在使用过程中也需要注意数据类型的转换问题。同时也需要注意解压缩时使用的解压 函数要求输入字节数组。以下是修改之后的代码

import zlib

def compress_byte(data): byte_data = bytes(data, 'utf-8') compressed_data = zlib.compress(byte_data) return compressed_data

def decompress_byte(compressed_data): decompressed_data = zlib.decompress(compressed_data) str_data = decompressed_data.decode('utf-8') return str_data

这个函数和原来的函数功能类似,不同的是现在输入的是一个字符串,输出的是一个 经过压缩的字节数组。


2023/3/31 17:28:57 hys

目的是压缩byte数组中相同的byte,比如b'\x00',出现了26次,就压缩为b'\0'*26

2023/3/31 17:29:16 ChatGPT

明白了,这个可以使用Python中的itertools.groupby()函数来实现。以下是修改后 的代码

import itertools import zlib

def compress_byte(data): compressed_data = bytearray() for byte, group in itertools.groupby(data): count = len(list(group)) if count > 1: compressed_data.extend(bytes([byte])) compressed_data.extend(str(count).encode('utf-8')) else: compressed_data.extend(bytes([byte])*count) return zlib.compress(compressed_data)

def decompress_byte(compressed_data): decompressed_data = zlib.decompress(compressed_data) data = bytearray() i = 0 while i < len(decompressed_data): byte = decompressed_data[i] if byte not in range(10): # ascii码表中数字的范围是48-57 count_str = '' while i+1 < len(decompressed_data) and decompressed_data[i+1] in range(48, 58): count_str += chr(decompressed_data[i+1]) i += 1 count = int(count_str) data.extend(bytes([byte])*count) else: data.append(byte) i += 1 return bytes(data)

在压缩字节流时,我们对于连续出现的相同字节采用了“字节计数”的方式压缩,即 将这个连续段的第一个字节与重复次数编码成一个字节序列存储,这样可以显著减小 数据流的大小。

在解压缩时,我们首先对压缩后的数据流进行反压缩,然后对每个字节进行解码。如 果遇到一个非数字的字节,说明这是一个未被压缩的字节,我们将其添加到输出数据 流中;如果遇到一个数字,说明接下来的若干个字节是重复出现的相同字节,我们根 据数字确定它们的重复次数,然后将这些字节依次添加到输出数据流中。


纵观整个对话,有一些经验教训。若用自然语言描述,应尽可能严谨。最开始使用" 字符串"这种术语,ChatGPT就按字符串处理,但实际要处理bytes。compress_string 虽然不直接满足原始需求,但算法原理已展现出来,不偷懒的话,到这一步已经可以 自修改。接下来错误使用术语"压缩byte",致使ChatGPT误以为需要zlib登场。最后 一次提问,精确描述了需求,ChatGPT终于抓住要点,指出itertools.groupby(),这 是最接近原始需求的关键信息。虽然compress_byte不是我们想要的,但无所谓了, 小侯后来用itertools.groupby()写了一个满足原始需求的实现。

☆ HYS的实现


! /usr/bin/env python

-- encoding: utf-8 --

ChatGPT

trained by HYS

modified by scz

import itertools, hexdump

i是int型

def i2s ( i, next=None ) : if ord( b'\r' ) == i : s = r'\r' elif ord( b'\n' ) == i : s = r'\n' elif ord( b'\t' ) == i : s = r'\t' elif ord( b'\a' ) == i : s = r'\a' elif ord( b'\b' ) == i : s = r"\b" elif ord( b'\f' ) == i : s = r'\f' elif ord( b'\v' ) == i : s = r'\v' elif ord( b'\'' ) == i : s = r"\'" elif ord( b'\"' ) == i : s = r'\"' elif ord( b'\' ) == i : s = r'\' elif i >= 0 and i < 8 : if next is None : s = r'\%u' % i else : if next < ord( b'0' ) or next > ord( b'7' ) : s = r'\%u' % i else : s = r'\x%02x' % i elif i >= 0x20 and i <= 0x7e : s = chr( i ) else : s = r'\x%02x' % i return s

end of i2s

[k for k, g in itertools.groupby(b'aaaabbbccd')]

[list(g) for k, g in itertools.groupby(b'aaaabbbccd')]

def repr_ex ( sth ) : out = [] tmp = "b'" sth = [list(g) for k, g in itertools.groupby(sth)] i = 0 while i < len( sth ) : count = len( sth[i] ) if count > 1 : if len( tmp ) > 2 : out.append( tmp + "'" ) tmp = "b'" out.append( "b'" + i2s( sth[i][0] ) + "'*" + str(count) ) else : if i+1 < len( sth ) : tmp += i2s( sth[i][0], sth[i+1][0] ) else : tmp += i2s( sth[i][0] ) i += 1 # # end of while # if len( tmp ) > 2 : out.append( tmp + "'" ) return '+'.join( out )

end of repr_ex

tmp=b'PK\3\4'+b'\0'26+b'+(\xca\xcc+\xd1P\xf7H\xcd'+b'\xc9'2+b'W\b\xcf/\xcaIQT\xd7\4\0PK\1\2'+b'\0'6+b'\1'+b'\0'9+b'\x17'+b'\0'7+b'\v'+b'\0'17+b'_'2+b'main'+b'_'2+b'.pyPK\5\6'+b'\0'8+b'9'+b'\0'3+b'5'+b'\0'*3 hexdump.hexdump( tmp ) print( repr_ex( tmp ) ) hexdump.hexdump( eval( repr_ex( tmp ) ) )

other test case

tmp=b'abcabc\x7f\v\v\v\0f' tmp=b'0aabcc' tmp=b'\x0057'


☆ electroniccc的实现

这是某网友见题后自己给出的实现


! /usr/bin/env python

-- encoding: utf-8 --

https://gist.github.com/electroniccc/af0ff26740533c001886491ad67d04e3

modified by scz

import hexdump

i是int型

def i2s ( i, next=None ) : if ord( b'\r' ) == i : s = r'\r' elif ord( b'\n' ) == i : s = r'\n' elif ord( b'\t' ) == i : s = r'\t' elif ord( b'\a' ) == i : s = r'\a' elif ord( b'\b' ) == i : s = r"\b" elif ord( b'\f' ) == i : s = r'\f' elif ord( b'\v' ) == i : s = r'\v' elif ord( b'\'' ) == i : s = r"\'" elif ord( b'\"' ) == i : s = r'\"' elif ord( b'\' ) == i : s = r'\' elif i >= 0 and i < 8 : if next is None : s = r'\%u' % i else : if next < ord( b'0' ) or next > ord( b'7' ) : s = r'\%u' % i else : s = r'\x%02x' % i elif i >= 0x20 and i <= 0x7e : s = chr( i ) else : s = r'\x%02x' % i return s

end of i2s

def repr_ex ( sth ) : ret = '' i = 0 tmp = "b'" while i < len( sth ) : j = i + 1 for k in range( i+1, len( sth )+1 ) : if k == len( sth ) or sth[k] != sth[i] : j = k break # # end of for # if 1 == j - i : if j < len( sth ) : tmp += i2s( sth[i], sth[j] ) else : tmp += i2s( sth[i] ) i += 1 else: if len( tmp ) > 2 : tmp += "'" ret += '+' + tmp tmp = "b'" # # end of if # ret += "+b'" + i2s( sth[i] ) + "'*" + str(j-i) i = j # # end of while # if len( tmp ) > 2 : tmp += "'" ret += '+' + tmp

return ret[1:]

end of repr_ex

def repr_ex_test ( sth ) : ret = "b'" i = 0 while i < len( sth ) : if i+1 < len( sth ) : next = sth[i+1] else : next = None ret += i2s( sth[i], next ) i += 1 # # end of while # ret += "'" return ret

end of repr_ex_test

tmp=b'PK\3\4'+b'\0'26+b'+(\xca\xcc+\xd1P\xf7H\xcd'+b'\xc9'2+b'W\b\xcf/\xcaIQT\xd7\4\0PK\1\2'+b'\0'6+b'\1'+b'\0'9+b'\x17'+b'\0'7+b'\v'+b'\0'17+b'_'2+b'main'+b'_'2+b'.pyPK\5\6'+b'\0'8+b'9'+b'\0'3+b'5'+b'\0'*3 hexdump.hexdump( tmp ) print( repr_ex( tmp ) ) hexdump.hexdump( eval( repr_ex( tmp ) ) )

other test case

tmp=b'abcabc\x7f\v\v\v\0f' tmp=b'0aabcc' tmp=b'\x0057'


☆ i2s()

小侯让ChatGPT优化一下我写的i2s(),ChatGPT返回如下实现


def i2s_not_good ( i, next=None ) : if chr(i) in '\r\n\t\a\b\f\v\'\"\' : s = repr( chr(i) )[1:-1] elif i >= 0x20 and i <= 0x7e : s = chr(i) elif i >= 0 and i < 8 : if next is None or next < ord( b'0' ) or next > ord( b'7' ) : s = r'\%u' % i else: s = r'\x%02x' % i else : s = r'\x%02x' % i return s


i2s_not_good()能用,不会致错,但就测试用例而言,有微妙的坑。留个小作业,不 实际运行并观察结果的前提下,你能看出i2s_not_good()并不等价于i2s()吗,请指 出坑点何在。我并未第一时间看出坑点,是用测试用例发现的。

实际运行自然一目了然,这种13躲自个被窝里装去,千万别来,一旦被判定是这种13 货,直接拉黑,不信邪的可以试试。