^{Đây là một bài trong series Cùng giải Cryptopals!.
Các bạn nên tự làm hoặc vừa đọc vừa làm thay vì đọc lời giải trực tiếp.}

Do bài Viblo bị giới hạn 70000 ký tự nên mình phải chia đôi part 8 thành 2 phần.

Cẩn thận nhé, phần này rất rất dài, và khó hơn các phần trước rất nhiều.

Challenge 63: Key-Recovery Attacks on GCM with Repeated Nonces

Bài này sẽ rất khó. Để làm/hiểu được bài này cần rất nhiều kiến thức về number theory và abstract algebra.

Đầu tiên chúng ta viết code cho $\mathrm{GF}(2^{128})$ . Vừa dễ sử dụng với polynomials, vừa có thể dùng các phép toán builtin. Trong đó, modulo được sử dụng 0x100000000000000000000000000000087 chính là $2^{128} + 2^7 + 2^2 + 2^1 + 2^0$ , polynomial được sử dụng cho field extension.

def _deg(x): assert x >= 0 return x.bit_length() if x > 0 else -1 class GF2p128: def __init__(self, val=0, m=0x100000000000000000000000000000087): self.val = val self.m = m def __hash__(self): return hash((self.val, self.m)) def __str__(self): return "GF2^128(" + str(self.val) + ')' def __repr__(self): return bin(self.val)[2:] def __add__(self, obj): assert self.m == obj.m, "Cannot add/sub numbers of different polynomial generators!" return GF2p128(self.val ^ obj.val, self.m) __sub__ = __add__ def __mul__(self, obj): if type(obj) is int: return self if obj % 2 else GF2p128(0, self.m) assert self.m == obj.m, "Cannot multiply numbers of different polynomial generators!" a, b, m = self.val, obj.val, self.m p = 0 while a: if a & 1: p ^= b a >>= 1 b <<= 1 if _deg(b) == _deg(m): b ^= m return GF2p128(p, m) def __pow__(self, power): if power < 0: return self.inv() ** -power a = self p = GF2p128(1, self.m) while power: if power & 1: p *= a a *= a power >>= 1 return p def __truediv__(self, obj): return self * obj ** -1 def __eq__(self, obj): if type(obj) is int: return self.val == obj if type(obj) is GF2p128: return self.m == obj.m and self.val == obj.val return False def __divmod__(self, obj): # in GF(2) only. GF(2^128) has no mod. assert self.m == obj.m, "Cannot divmod numbers of different polynomial generators!" q, r, b, m = 0, self.val, obj.val, self.m while _deg(r) >= _deg(b): d = _deg(r) - _deg(b) q = q ^ (1 << d) r = r ^ (b << d) return GF2p128(q, m), GF2p128(r, m) def inv(self): # Using EGCD m, n = self, GF2p128(self.m) m_coeff = (GF2p128(1), GF2p128(0)) n_coeff = (GF2p128(0), GF2p128(1)) while True: q, r = divmod(m, n) if r == 0: return n_coeff[0] m, n = n, r # q = m - n * r m_coeff, n_coeff = n_coeff, tuple(map(lambda x: x[0] - q * x[1], zip(m_coeff, n_coeff))) def inv_prime(self): ''' Using Fermat's little theorem. Use the EGCD one because benchmarks. inv normal: 4.990437030792236 inv prime : 95.93351244926453 ''' return pow(self, 2 ** 128 - 2)

Tiếp theo là hàm AEAD GCM. Hàm này sẽ nhận một tin nhắn và các data phụ, và trả về tin nhắn đã mã hoá + MAC cho mã hoá đó và data phụ.

def gmac(key, msg, aad, nonce): ''' Input: @key: key to be encrypted/GMAC @msg: message to be encrypted @aad: additional associated data @nonce: 96-bit of nonce to XOR at the end ''' authkey = AES_encrypt(key, b'\x00' * 16) authkey = GF2p128(int.from_bytes(authkey, 'big')) if msg is None: iv = encrypted = b'' else: iv = generate_key(8) encrypted = iv + AES_encrypt(key, msg, 'ctr', iv) content = aad + b'\x00' * (-len(aad) % 16) + \ encrypted + b'\x00' * (-len(encrypted) % 16) + \ pack('>2Q', len(aad), len(encrypted)) g = GF2p128(0) for i in range(0, len(content), 16): b = GF2p128(int.from_bytes(content[i : i + 16], 'big')) g += b g *= authkey s = AES_encrypt(key, nonce + b'\x00\x00\x00\x01') s = GF2p128(int.from_bytes(s, 'big')) g += s mac = int.to_bytes(g.val, 16, 'big') if msg is None: return mac else: return encrypted, mac

Để crack được authentication key, chúng ta cần một data structure để lưu polynomials. Sau là các hàm cơ bản, code không khó nhưng tốn thời gian debug. ^[1]

class Polynomial: # coeffs are larger-order-first # order (p, e) is the p^e prime power order of the coeff field def __init__(self, coeff=None, num_class=None, order=None): if coeff is None: assert num_class is not None, "Cannot infer number type!" self.coeff = [num_class(0)] else: self.coeff = coeff[:] if num_class is None: self.num_class = type(coeff[0]) assert len(self.coeff) > 0, "Cannot infer number type!" else: self.num_class = num_class if type(order) is int: self.order = (order, 1) elif order is None: if self.num_class is GF2p128: self.order = (2, 128) else: self.order = None else: self.order = order # inplace self._reduce() def __str__(self): return self.num_class.__name__ + ' polynomial: ' + (' + '.join( reversed([f'{v if (v.val != 1 or i == 0) else ""}{("x" + ("^" + str(i) if i > 1 else "")) if i > 0 else ""}' \ for (i, v) in enumerate(reversed(self.coeff)) if v.val > 0]) ) if self.deg() > 0 else str(self.coeff[0])) __repr__ = __str__ def __eq__(self, obj): return len(self.coeff) == len(obj.coeff) and \ all([x == y for (x, y) in zip(self.coeff, obj.coeff)]) def copy(self, coeffs=None): return Polynomial(self.coeff if coeffs is None else coeffs, self.num_class, self.order) def __hash__(self): return hash((tuple(self.coeff), self.num_class, self.order)) def deg(self): return len(self.coeff) - 1 def __call__(self, val): ret = self.num_class() for coeff in self.coeff: ret *= val ret += coeff return ret def _reduce(self): # remove leading zeros for i in range(len(self.coeff)): if self.coeff[i] != self.num_class(0): break del self.coeff[:i] return self def __add__(self, obj): assert type(self) == type(obj), "Can only add Polynomials with Polynomials!" longer, shorter = (self.copy(), obj) \ if self.deg() == max(self.deg(), obj.deg()) \ else (obj.copy(), self) diff = longer.deg() - shorter.deg() for i in range(shorter.deg() + 1): longer.coeff[diff + i] += shorter.coeff[i] return longer._reduce() def __sub__(self, obj): assert type(self) == type(obj), "Can only subtract Polynomials with Polynomials!" retval = self.copy() maxdeg = max(self.deg(), obj.deg()) # pads result retval.coeff = [self.num_class(0)] * (maxdeg - self.deg()) + retval.coeff diff = maxdeg - obj.deg() for i in range(obj.deg() + 1): retval.coeff[diff + i] -= obj.coeff[i] return retval._reduce() def __mul__(self, obj): if type(obj) is self.num_class: return Polynomial([x * obj for x in self.coeff], order=self.order) assert type(self) is type(obj), "Can only multiply Polynomials with Polynomials!" total_deg = self.deg() + obj.deg() coeffs = [self.num_class()] * (total_deg + 1) for idx1, val1 in enumerate(self.coeff): for idx2, val2 in enumerate(obj.coeff): coeffs[idx1 + idx2] += val1 * val2 return self.copy(coeffs) def __pow__(self, power, mod=None): ret = self.copy() ret.coeff = [ret.num_class(1)] acc = self.copy() while power > 0: if power & 1: ret *= acc if mod is not None: ret %= mod power >>= 1 acc *= acc if mod is not None: acc %= mod return ret def __truediv__(self, obj): if type(obj) is self.num_class: return self.copy([x / obj for x in self.coeff]) quotient, remainder = divmod(self, obj) assert remainder == self.copy([self.num_class(0)]), 'Remainder not 0 in truediv!' return quotient def __floordiv__(self, obj): assert type(obj) is type(self) return divmod(self, obj)[0] def __mod__(self, obj): return divmod(self, obj)[1] def __divmod__(self, obj): assert type(self) is type(obj), "Can only divide Polynomials with Polynomials!" if self.deg() < obj.deg(): return self.copy([self.num_class(0)]), self divider = self.copy() divided = obj << (divider.deg() - obj.deg()) coeffs = [] while divided.deg() >= obj.deg() and divided != self.copy([self.num_class(0)]): if divider.deg() < divided.deg(): coeff = self.num_class(0) else: coeff = divider.coeff[0] / divided.coeff[0] divider -= divided * coeff divided >>= 1 coeffs.append(coeff) return Polynomial(coeffs, self.num_class, self.order), divider def __lshift__(self, shift): retval = self.copy() retval.coeff += [self.num_class(0)] * shift return retval def __rshift__(self, shift): if shift > self.deg(): return Polynomial(num_class=self.num_class, order=self.order) if shift == 0: return self return Polynomial(self.coeff[:-shift], self.num_class, self.order)

Chúng ta viết hàm chuyển polynomial về monic (khi coefficient ở leading term là 1):

def monic(self): lead_coeff = self.coeff[0] return Polynomial([x / lead_coeff for x in self.coeff], self.num_class, self.order), lead_coeff

Hàm Extended Euclidean Algorithm để tìm GCD:

def egcd(self, obj): # returns GCD, (coeff 1, coeff 2) m, n = self, obj zero = self.copy([self.num_class(0)]) one = self.copy([self.num_class(1)]) m_coeff = (one, zero) n_coeff = (zero, one) if m == zero: return n, n_coeff if n == zero: return m, m_coeff while True: q, r = divmod(m, n) assert r.deg() < n.deg() or r.deg() < 1 assert q * n + r == m if r == Polynomial(num_class=self.num_class, order=self.order): n, coeff = n.monic() return n, (n_coeff[0] * coeff, n_coeff[1] * coeff) m, n = n, r # q = m - n * r m_coeff, n_coeff = n_coeff, tuple(map(lambda x: x[0] - q * x[1], zip(m_coeff, n_coeff)))

Hàm sinh ra đạo hàm, vì chúng ta sẽ cần lúc tính square-free factorization:

def derivative(self): retval = self.copy() for i in range(self.deg()): retval.coeff[i] *= (self.deg() - i) return retval >> 1

Cả 3 hàm trong đề bài đều có thể tìm được ở link Wikipedia này. Đây là hàm square-free factorization: đầu vào là một polynomial, và đầu ra là các factor kèm multiplicity, sao cho mỗi factor không còn ước bình phương nào nữa. Ý tưởng khá là hay: nếu chúng ta có factorization $f = \Pi_i f_i^{e_i}$ với $f_i$ là các ước polynomial tối giản (nguyên tố), thì đạo hàm sẽ là $f'=\sum_je_jf_j^{e_j-1}\Pi_{i\ne j}f_i^{e_i}$ , và tất cả các số hạng trong tổng trên (và tổng trên, và cả $f$ ) sẽ đều có một ước chung là $\Pi_i f_i^{e_i-1}$ . Từ đó, chúng ta sẽ có $f/\gcd(f, f')=\Pi_i f_i$ .

def sqr_free_factor(self): one = self.copy([self.num_class(1)]) c = self.egcd(self.derivative())[0] w = self / c i = 1 r = dict() # get all factors in w while w != one: y = w.egcd(c)[0] fac = w / y if fac != one: if fac in r: r[fac] += i else: r[fac] = i w = y c = c / y i += 1 # get the rest from f if c != one: c = c.characteristic_root() #definition beloww for k, v in c.sqr_free_factor().items(): if k in r: r[k] += v * self.order[0] else: r[k] = v * self.order[0] return r

Để tính được $p$ -th root của một polynomial, hãy đọc câu trả lời này trên Math.SE. Thực sự khá là thú vị.

def characteristic_root(self): # https://math.stackexchange.com/a/1579112/402767 p, e = self.order retval = self.copy() retval.coeff = [] for i in range(self.deg() + 1): if i % p: assert self.coeff[i] == self.num_class(0) else: retval.coeff.append(self.coeff[i] ** (p ** (e - 1))) return retval

Hàm different-degree factorization: đầu vào là một polynomial $f$ , và đầu ra là các cặp đôi ước nhỏ $g$ của $f$ , và degree $d$ của các ước nhỏ tối giản của $g$ . Để hiểu được cụ thể thì khá khó, bạn có thể đọc link Wikipedia để tạm hiểu được ý tưởng.

def diff_deg_factor(self): i = 1 s = set() f = self one = self.copy([self.num_class(1)]) p, e = self.order q = p ** e x = (one << 1) acc = pow(x, q, f) while f.deg() >= 2 * i: g = f.egcd(acc - x)[0] if g != one: s.add((g, i)) f /= g i += 1 # recalculate acc = pow(acc, q, f) if f != one: s.add((f, f.deg())) if len(s) == 0: return {(f, 1)} return s

Hàm Cantor-Zassenhaus, như đã được hướng dẫn. Để hiểu, bạn hãy đọc kỹ vài lần đoạn giải thích trong đề bài và link Wikipedia trên. Đầu vào của hàm này là cặp polynomial $f$ và degree của ước của nó $d$ , và đầu ra sẽ là các ước $g$ có degree $d$ của $f$ .

def random_polynomial(self): retval = self.copy() if retval.num_class is GF2p128: mod = retval.coeff[0].m for i in range(retval.deg() + 1): retval.coeff[i] = GF2p128(randrange(0, 2 ** 128), mod) else: raise NotImplementedError retval._reduce() return retval def eq_deg_factor(self, degree): # Cantor-Zassenhaus algorithm for equal-degree factorization. f, d = self, degree p, e = self.order r = f.deg() // d factors = {f} one = self.copy([self.num_class(1)]) while len(factors) < r: h = f.random_polynomial() g = h.egcd(f)[0] if g == one: g = (pow(h, (p ** (e * d) - 1) // 3, f) - one) % f for u in factors: if u.deg() > d: gcd_gu = g.egcd(u)[0] if gcd_gu != one and gcd_gu != u: factors = (factors - {u}) | {gcd_gu, u / gcd_gu} return factors

Và một hàm tổng hợp để tìm tất cả các factor kèm multiplicity:

def get_factors(self): retval = dict() for poly1, mult in self.sqr_free_factor().items(): subfactor = poly1.diff_deg_factor() for poly2, degree in subfactor: for poly3 in poly2.eq_deg_factor(degree): if poly3 in retval: retval[poly3] += mult else: retval[poly3] = mult return retval

Chúng ta viết code sinh ra GMAC: nội dung cần MAC để trong AAD, và không encrypt gì cả:

key = b'_@.com'
nonce = urandom(12)
def gcm_mac(data): return gmac(key, None, data, nonce) msg1 = b'katarenai'
gmac1 = gcm_mac(msg1)
msg2 = b'nemurenai'
gmac2 = gcm_mac(msg2)
msg3 = b'toroimerai'
gmac3 = gcm_mac(msg3) authkey = int.from_bytes(AES_encrypt(key, b'\x00' * 16), 'big') def get_private_candidates(msg1, gmac1, msg2, gmac2): # build the blocks msg1 += b'\x00' * (-len(msg1) % 16) + pack('>2Q', len(msg1), 0) msg2 += b'\x00' * (-len(msg2) % 16) + pack('>2Q', len(msg2), 0) blocks1 = [GF2p128(int.from_bytes(msg1[i : i + 16], 'big')) for i in range(0, len(msg1), 16)] blocks2 = [GF2p128(int.from_bytes(msg2[i : i + 16], 'big')) for i in range(0, len(msg2), 16)] blocks1.append(GF2p128(int.from_bytes(gmac1, 'big'))) blocks2.append(GF2p128(int.from_bytes(gmac2, 'big'))) p = Polynomial(blocks1) + Polynomial(blocks2) return set([(x.coeff[1] / x.coeff[0]).val for x in p.get_factors() if x.deg() == 1])

Có tất cả mọi thứ rồi thì chúng ta chạy thôi:

print('Getting candidate 1...')
candidates1 = get_private_candidates(msg1, gmac1, msg2, gmac2)
print('Getting candidate 2...')
candidates2 = get_private_candidates(msg2, gmac2, msg3, gmac3)
print('Getting candidate 3...')
candidates3 = get_private_candidates(msg1, gmac1, msg3, gmac3)
candidates = candidates1 & candidates2 & candidates3
assert len(candidates) == 1
for recovered in candidates: break
assert recovered == authkey
print('OK!')

Ở ví dụ trên mình sử dụng tin nhắn trong 1 block; bạn có thể test với các tin nhắn dài hơn nhiều để xem nó hoạt động nhé.

Food for thought

Có authentication key rồi thì sao? Chúng ta có có private key xịn đâu? Nonce vẫn random mà.

Có thể chúng ta không có private key xịn, nhưng chúng ta có thể làm rất nhiều thứ với authentication key. Thứ nhất, với mỗi lần sử dụng GCM, authentication key không thay đổi (vì nó chỉ phụ thuộc vào secret key). Với authentication key đó, và data AAD/encrypted, chúng ta có thể lấy được nonce bằng cách cộng trừ dần dần. Từ đó, chúng ta có thể forge tin nhắn fake bằng bitflips, như hướng dẫn của 2 bài tiếp theo.

^[1] Để debug, mình sẽ tặng bạn thêm một class $\mathrm{GF}(3)$ để có thể test xem các hàm đã đúng chưa. Hãy tạo các polynomial với các coefficients thuộc field này cho đơn giản dễ tính.

class GF3: def __init__(self, val=0): self.val = val def __add__(self, obj): return GF3((self.val + obj.val) % 3) def __hash__(self): return hash(self.val) def __sub__(self, obj): return GF3((self.val - obj.val) % 3) def __mul__(self, obj): return GF3((self.val * (obj if type(obj) is int else obj.val)) % 3) def __truediv__(self, obj): return self * obj ** -1 def __pow__(self, exp): if exp < 0: assert self.val > 0, "Cannot invert 0!" return GF3(pow(self.val, abs(exp), 3)) def __str__(self): return str(self.val) __repr__ = __str__ def __eq__(self, obj): return self.val == obj.val

Challenge 64: Key-Recovery Attacks on GCM with a Truncated MAC

Bài này thực sự vừa khó hiểu vừa khó code. Mình mất hơn 2 tuần chỉ tắc ở bài này vì code không chạy. Ngoài ra, trong code có sử dụng trange của package tqdm để hiện thanh quá trình, và Parallel của package joblib để tính toán song song.

Việc dễ nhất làm trước là các hàm cơ bản sẽ dùng. Nên chú ý ở đây mình chuyển từ số sang vector theo phong cách hơi ngược đời: đặt lower-order bits lên trước vector, nên code tạo khá nhiều bug

def block2gf(block): assert len(block) == 16 return GF2p128(int.from_bytes(block, 'big')) def gf2vec(val: GF2p128): ret = np.empty((128,), dtype=np.int8) val = val.val for i in range(128): ret[i] = val & 1 val >>= 1 return ret sqr_mat = np.empty((128, 128), dtype=np.int8)
for i in range(128): sqr_mat[:, i] = gf2vec(GF2p128(1 << i) ** 2) def gf2mat(val: GF2p128): ret = np.empty((128, 128), dtype=np.int8) acc = GF2p128(1) for i in range(128): ret[:, i] = gf2vec(val * acc) acc.val <<= 1 return ret def vec2gf(vec: np.array): ret = 0 for bit in reversed(vec): ret <<= 1 ret |= int(bit) return GF2p128(ret) def vec2block(vec: np.array): ret = 0 for bit in reversed(vec): ret <<= 1 ret |= int(bit) return int.to_bytes(ret, 16, 'big')

Tiếp theo là hàm lấy nullspace của một vector space sử dụng Gaussian elimination để lấy row-reduced echelon form. Để giải thích khái niệm này nếu bạn không biết gì về đại số tuyến tính thì rất khó, nên mình sẽ chỉ nói vừa đủ thôi: row echelon form là khi ma trận có hình dạng là upper rectangular:

13 23 0 16 8 0 0 12 7 0 0 0 0 8 6 0 0 0 0 10

Reduced là khi giá trị nonzero đầu tiên của các hàng trong ma trận là 1 (thay vì 13, 12, 8, 10 như ví dụ trên). Tuy nhiên, chúng ta đang làm việc với $\mathrm{GF}(2)$ , nên các giá trị khác 0 chỉ có thể là 1, và chúng ta không phải reduce tay. Còn Gaussian elimination được sử dụng để tìm ma trận nghịch đảo trực chuẩn của một ma trận đầu vào; vậy làm thế nào chúng ta có thể lấy được nullspace? Bởi vì chúng trực chuẩn, và nếu ma trận đầu vào có rank $k$ , thì "nghịch đảo" ^[2] của nó cũng chỉ có rank $k$ thôi, và các hàng còn lại là những vector không nằm trong row space nhưng vẫn độc lập và vuông góc (theo tính chất trực chuẩn). Do vuông góc nên khi nhân với các row vector sẽ cho giá trị 0, và sẽ tạo ra column nullspace theo định nghĩa.

Code của Gaussian elimination để lấy nullspace như sau:

def gaussian_nullspace(mat): mat = mat.T target = np.eye(mat.shape[0], dtype=np.int8) idx = 0 rank = 0 for idx in trange(mat.shape[1], desc='Calculating the nullspace', leave=False): if rank == min(mat.shape): break row_idx = np.flatnonzero(mat[rank:, idx]) + rank if len(row_idx) == 0: continue if row_idx[0] != rank: # swap mat[[rank, row_idx[0]]] = mat[[row_idx[0], rank]] target[[rank, row_idx[0]]] = target[[row_idx[0], rank]] # now subtract from the rest for idx_ in row_idx[1:]: mat[idx_, :] = (mat[idx_, :] - mat[rank, :]) % 2 target[idx_, :] = (target[idx_, :] - target[rank, :]) % 2 rank += 1 # transpose so column combination is easier target = target[rank:, :].T # remove zero vector if exists target = target[:, np.any(target, axis=0)] return target

Từ các vector bitflip chúng ta cần sinh ra ma trận $A_d$ ; trong đó mình viết thêm một hàm phụ sẽ lấy $A_d$ tương ứng với vector bitflip one-hot tại một điểm bất kỳ:

def get_Ad(blocks): # higher order/beginning of blocks first, based on Horner's method # remember that this only deals with 2^i-th blocks. acc = np.zeros((128, 128), dtype=np.int8) if len(blocks.shape) == 1: blocks = np.reshape(blocks, (n, 128)) for i in range(blocks.shape[0]): acc = ((gf2mat(vec2gf(blocks[i,:])) + acc) @ sqr_mat) % 2 return acc def get_Ad_loc(i): payload = np.zeros((n, 128), dtype=np.int8) payload[divmod(i, 128)] = 1 return get_Ad(payload)

Và hàm để lấy dependency matrix: ma trận này cho biết rằng với mỗi một vị trí bitflip, thì ma trận $A_dX$ sẽ thay đổi thế nào; và $X$ là vector space có chứa authentication key chúng ta cần tìm (ban đầu là identity matrix).

def get_dependency_matrix(no_of_zero_rows, X): # rows = bits in Ad*X, col = bits in blocks def get_col(bit_idx): return (get_Ad_loc(bit_idx)[:no_of_zero_rows, :] @ X).flatten() % 2 return np.stack(Parallel(n_jobs=cpu_count)(delayed(get_col)(row_idx) for row_idx in trange(n * 128, desc='Fetching dependency matrix', leave=False)), axis=1)

Và một hàm để sửa ciphertext theo các bitflip có trên: đây là giản đồ với dòng trên là số mũ của từng coefficient tương ứng với từng block, và dòng dưới là index của block đó:

[...] [...] [...] [...] [...] size nonce
2^n+1 2^n 2^2 3 2^1 0 1 ... 2^n-2 2^n-1

Từ đó chúng ta tính được công thức tính block index và bit index cần sửa với mỗi một bitflip:

def patch_encrypted(cipher, corrections): # break dowwn the cipher blocks = [cipher[i:i+16] for i in range(0, len(cipher), 16)] corrections = np.reshape(corrections, (-1, 128)) for i in range(corrections.shape[0]): idx = -2 * 2 ** i + 1 blocks[idx] = vec2block(gf2vec(block2gf(blocks[idx])) ^ corrections[-i-1]) return b''.join(blocks)

Hàm check xem GMAC có đúng không: trong code không nhận AAD do bài này không cần.

def gmac_ok(key, cipher, signature, nonce): authkey = AES_encrypt(key, b'\x00' * 16) authkey = GF2p128(int.from_bytes(authkey, 'big')) content = cipher + b'\x00' * (-len(cipher) % 16) + pack('>2Q', 0, len(cipher)) g = GF2p128(0) for i in range(0, len(content), 16): b = GF2p128(int.from_bytes(content[i : i + 16], 'big')) g += b g *= authkey s = AES_encrypt(key, nonce + b'\x00\x00\x00\x01') s = GF2p128(int.from_bytes(s, 'big')) g += s return int.to_bytes(g.val, 16, 'big')[-trunc_size // 8:] == signature

Và hàm xóc đĩa tìm một nullspace vector mà sẽ forge được một message fake theo MAC có sẵn. Chú ý, hàm try_nullvec cần phải để ở một file riêng để import vào mới có thể sử dụng multiprocessing để xóc nhiều đĩa một lúc, theo một cái bug có từ lâu đời.

found = Value('b')
def set_value(val): with found.get_lock(): found.value = val def try_nullvec(gmac_ok, basis, encrypted, signature): while True: if found.value: break nullvec = (basis @ np.random.randint(2, size=basis.shape[1])) % 2 if not nullvec.any(): continue # remove get_Ad_nullvec if gmac_ok(key, patch_encrypted(encrypted, nullvec), signature, nonce): # if not ((get_Ad(nullvec)[:trunc_size] @ authkey) % 2).any(): set_value(1) return nullvec

Để ý mình đã comment dòng này ra:

if not ((get_Ad(nullvec)[:trunc_size] @ authkey) % 2).any():

Dòng này gần như tương tự với check GCM-MAC, tuy nhiên sử dụng luôn tính toán bằng vector nên sẽ nhanh hơn nhiều so với hàm trên. Tuy nhiên, do server thực tế đương nhiên sẽ không tính MAC bằng cách check xem các bitflips có tạo GMAC hợp lệ không (LOL), nên mình không dùng (mà chỉ để đó để test thôi).

Và sau đó thì chạy code và chờ nẫu ruột thôi!

key = b'harem_enthusiast'
authkey = gf2vec(block2gf(AES_encrypt(key, b'\x00' * 16))) # accumulator through the iterations
X = np.eye(128, dtype=np.int8)
pool = Pool(cpu_count) while X.shape[1] > 1: print('[+]', X.shape[1], 'basis vectors left.') print('Generating new message...') msg = generate_key(2 ** n * 16 - 8) nonce = generate_key(12) encrypted, signature = gmac(key, msg, b'', nonce) # get the last 32 bit signature = signature[-trunc_size // 8:] assert len(encrypted) == 2 ** n * 16 no_of_zero_rows = min(n * 128 // X.shape[1], trunc_size) - 1 print('Zeroing out', no_of_zero_rows, 'rows.') dependency = get_dependency_matrix(no_of_zero_rows, X) nullspace = gaussian_nullspace(dependency) print('Rolling the dice until dawn...') set_value(0) tic = time() nullvec = pool.starmap( try_nullvec, [(nullspace, encrypted, key, signature, nonce)] * cpu_count ) toc = time() # format_time formats number of seconds to readable format print('That took', format_time(toc - tic)) for i in nullvec: if i is not None: nullvec = i break new_nullspace = (get_Ad(nullvec)[no_of_zero_rows:trunc_size] @ X) % 2 new_domain = gaussian_nullspace(new_nullspace) X = (X @ new_domain) % 2 assert (authkey == X.T).all()
print('\n[!] Authentication key recovered successfully!\n')

Các bạn có thể thấy dòng này hơi khó giải thích:

no_of_zero_rows = min(n * 128 // X.shape[1], trunc_size) - 1

Mình sẽ chia ra 2 phần giải thích riêng:

Số rows bị về 0 phải bé hơn $\lfloor 128n/|V_d|\rfloor$ : nếu không, ma trận dependency sẽ full rank khiến column nullspace sẽ là space rỗng, và chúng ta không thể forge tin nhắn giả mới.
Số rows phải bé hơn số bit của MAC, vì nếu không chúng ta không thể rút gọn số basis vector của vector space chứa authentication key:

new_nullspace = (get_Ad(nullvec)[no_of_zero_rows:trunc_size] @ X) % 2

Để ý rằng do chúng ta zero hết các bit MAC, nên không có tí thông tin mới nào cả (cắt $A_d$ đến rỗng luôn), và nullspace của ma trận rỗng sẽ là identity $I$ , nên không giới hạn được gì về domain cả.

Mình thử thành công với chữ ký ngắn (16-bit MAC, $2^8$ -block messages) trong tầm 18', chữ ký khá dài (24-bit MAC, $2^{16}$ -block messages) trong vòng hơn 6 tiếng, và chữ ký dài (32-bit MAC, $2^{17}$ -block messages) thì sau 33 tiếng vẫn còn chưa xong được loop đầu tiên (với 12 core chạy song song!)

^{Ai khóc nỗi đau này.}

Xác suất để ra được một forgery là $2^{16}$ , và thử tuần tự không tốt hơn xóc đĩa, vì đằng nào cũng có tận $2^{128} - 1$ lựa chọn cho bitflips. Kể cả cho rằng tận dụng được tối đa 12 core, với mỗi lần thử GMAC forgery mất 10s (vì tính MAC lúc nào cũng lâu để tránh bruteforce như thế này này), thì ước lượng mỗi lần thử của chúng ta mất $2^{16} \times 10 / 12 / 60 / 60 =$ tận hơn 15 tiếng — đó là chưa tính việc có core this core that (các core lẻ yếu hơn), và chạy song song không nhanh cấp số nhân do không hoàn hảo/còn code quản lý tiến trình song song, v.v... Nhân phẩm kém như mình thì còn chậm nữa: với tin nhắn $2^{16}$ -bit và 24-bit MAC, mình mất tận 30' cho một lần xóc đĩa, thì ước lượng trong trường hợp này mình sẽ mất $0.5\times 2^8 =$ tận 128 tiếng (!) Nói chung là toang. ^[3]

Ngoài ra, có một số điều bạn có thể làm để tăng tốc code của bạn:

Thực ra bạn không cần sinh ra tin nhắn mới mỗi lần chạy (và việc sinh lại ra tin nhắn mới khá lâu, tầm 1-2'). Vì vậy, bạn có thể dịch đoạn code đó ra ngoài while loop cho nhanh hơn; mình để đó để cho đúng tinh thần của đề bài thôi. Còn nếu bạn vẫn muốn tạo message mới mỗi lần, bạn có thể song song hoá code đó.
Sau mỗi iteration, bạn sẽ giảm được số chiều của vector space chứa authentication key, và từ đó số diff bit của MAC bạn có thể đặt về 0 tăng lên, và tốc độ xóc đĩa của bạn tăng lên chóng mặt. Tuy nhiên, khi số bits đó tăng đến mức tối đa (bằng số bit của MAC trừ 1), thì khoảng thời gian sinh ra dependency matrix và nullspace chiếm đa số thời gian, đâu đó gấp ~10 lần khoảng thời gian xóc đĩa. Đồng thời, mỗi một loop iteration với lượng 0-bit tối đa đó chỉ giảm được một chiều trong authentication key vector space; trong khi nếu bạn chỉ zero ít hơn vậy và tăng thời gian xóc đĩa lên, thì số chiều giảm xuống lại tăng lên theo cấp số nhân (vì 1 quá ít). Vì vậy, bạn có thể tạm thống kê ra, đặt bao nhiêu diff bit của MAC về 0 sẽ cho bạn kết quả tối ưu về thời gian.
Học viết code NVCC. Bruteforce bằng OpenCL hoặc NVCC code với GPU sẽ nhanh hơn rất rất nhiều. Nhất là khi máy mình có 2080Ti. Nhưng mình không biết viết NVCC.

^[2] Thực tế thì một ma trận không full rank sẽ không có nghịch đảo, nhưng sẽ vẫn có giả nghịch đảo, nên mới sử dụng ngoặc kép như vậy.

^[3] Sử dụng code check forgery bằng authkey và nhân ma trận thì với setup $2^{17}$ -bit message + 32-bit GMAC mất 6 tiếng 45 phút để tìm ra forgery đầu tiên, và chỉ 11' cho forgery ở iteration 2.

Challenge 65: Truncated-MAC GCM Revisited: Improving the Key-Recovery Attack via Ciphertext Length Extension

Do bài trước mình đã quá buồn với vấn đề thời gian nên bài này mình sẽ giới hạn độ phức tạp một cách đáng kể: giới hạn mỗi tin nhắn chỉ có $2^4-1$ block (512 bits có thể nghịch), mỗi tin nhắn có block cuối không đủ, và GMAC chỉ lấy 1 byte cho dễ forge. Đồng thời, tin nhắn ban đầu cần ngắn hơn giới hạn chấp nhận của verification system, vì nếu bằng thì dùng code của bài trước là xong.

Đầu tiên, chúng ta sửa code Gaussian Eliminination chút để lấy được cả inverse matrix (để tính particular solution sau này):

def gaussian_elimination(mat): target = np.eye(mat.shape[0], dtype=np.int8) idx = 0 rank = 0 for idx in range(mat.shape[1]): if rank == min(mat.shape): break row_idx = np.flatnonzero(mat[:, idx]) if (row_idx < rank).all(): continue if rank not in row_idx: rank_idx = bisect(row_idx, rank) # swap mat[[rank, row_idx[rank_idx]]] = mat[[row_idx[rank_idx], rank]] target[[rank, row_idx[rank_idx]]] = target[[row_idx[rank_idx], rank]] row_idx[rank_idx] = rank # now subtract from the rest for idx_ in row_idx: if idx_ == rank: continue mat[idx_, :] = (mat[idx_, :] - mat[rank, :]) % 2 target[idx_, :] = (target[idx_, :] - target[rank, :]) % 2 rank += 1 # get the nullspace nullspace = target[rank:, :].T # inverse inverse = target[:rank, :].T return inverse, nullspace

Thay vì chỉ kéo dài block cuối như đề bài, chúng ta kéo dài đến độ dài tối đa cho phép của verification system cho nó ngầu:

# n defined like chall64
block_count = 2 ** n - 1

Và code bê gần như nguyên từ challenge 64, có chút chỉnh sửa:

# authkey space
X = np.eye(128, dtype=np.int8) while X.shape[1] > 1: # capture a new packet msg = generate_key(randrange(block_count * 16 - 8)) nonce = generate_key(12) encrypted, signature = gmac(key, msg, b'', nonce) signature = signature[-trunc_size // 8:] # pad the message to be full width lengthened = encrypted + bytes(-len(encrypted) % 16) lengthened = bytes(block_count * 16 - len(lengthened)) + lengthened t = (gf2mat(block2gf(pack('>2Q', 0, len(encrypted)))) - gf2mat(block2gf(pack('>2Q', 0, len(lengthened))))) % 2 no_of_zero_rows = min(n * 128 // X.shape[1], trunc_size - 1) print(X.shape[1], 'basis vector left, forcing', no_of_zero_rows, 'rows.') dependency = get_dependency_matrix(no_of_zero_rows, X) inverse, nullspace = gaussian_elimination(dependency) bitflips = (inverse @ (t[:no_of_zero_rows] @ X).flatten()[:inverse.shape[1]] % 2) % 2 if nullspace.size == 0: maxtry = 1 else: maxtry = 1024 found = False while maxtry: if gmac_ok(patch_encrypted(lengthened, bitflips), signature, nonce): found = True break coeff = np.random.randint(2, size=nullspace.shape[1]) bitflips = (bitflips + nullspace @ coeff) % 2 maxtry -= 1 # if not success, try with a new packet if not found: continue new_nullspace = ((get_Ad(bitflips) + t)[no_of_zero_rows:trunc_size] @ X) % 2 _, new_domain = gaussian_elimination(new_nullspace) X = (X @ new_domain) % 2

Chúng ta sẽ phân tích từng đoạn code khác challenge trước:

Code mod cipher để có độ dài tối đa server cho phép:

# pad the message to be full width
lengthened = encrypted + bytes(-len(encrypted) % 16)
lengthened = bytes(block_count * 16 - len(lengthened)) + lengthened

Cipher trong hàm GMAC bình thường đã được pad đuôi bằng \x00 byte cho đủ block, nên chúng ta cũng làm vậy. Ngoài ra, chúng ta pad tất cả các block trước bằng 0: để ý khi tính MAC, chúng ta convert block ra số nguyên $c_i$ rồi nhân với authentication key $h$ , và các block đến trước thì nhân với số mũ của $h$ cao. Vì vậy, nếu chúng ta pad trái $k$ empty block thì công thức của MAC sẽ thay đổi (không tính thay đổi trong block độ dài của content) là $\sum_{i=1}^k0\times h^{l+i}=0$ .

Code tính thay đổi coefficent của $h$ do thay đổi cipher length:

t = (gf2mat(block2gf(pack('>2Q', 0, len(encrypted)))) - gf2mat(block2gf(pack('>2Q', 0, len(lengthened))))) % 2

Khá là tiện lợi khi đây là block bậc $2^0=1$ , tác dụng của nó sẽ đến ở dưới.

Số dòng chúng ta sẽ ép cho bằng $t$ ở trên:

no_of_zero_rows = min(n * 128 // X.shape[1], trunc_size - 1)

Code phần này khác ở phần trước rằng term đầu tiên trong hàm min không còn phần trừ 1: trước chúng ta cần nullspace không rỗng để ra được vector bitflip hợp lệ (khác vector 0), tuy nhiên bây giờ do chúng ta phải tính cả particular solution (thay vì chỉ mỗi homogeneous solution) nên không có vector nullspace vẫn có thể thoả mãn. Tuy nhiên, hãy để ý rằng giả sử chúng ta đang ép 4 rows bằng $t$ nhưng signature có 8 bit, chúng ta sẽ phải cầu trời sao cho vận may cho chúng ta particular solution hợp lệ (forgery thành công) với xác suất $2^{-4}$ . Với kích cỡ signature lớn hơn và độ dài tin nhắn ngắn hơn thì xác suất này càng ngày càng thấp, và bạn có thể xem xét việc cứ trừ 1 khỏi term này. Nếu làm vậy, chúng ta vẫn không chắc liệu có thể chắc chắn có được solution hợp lệ, nhưng có thêm degree of freedom thì có nhiều cơ hội xóc đĩa ăn được hơn.

Tìm particular solution cho forgery:

inverse, nullspace = gaussian_elimination(dependency)
bitflips = (inverse @ (t[:no_of_zero_rows] @ X).flatten()[:inverse.shape[1]] % 2) % 2

Sử dụng Gaussian Elimination chúng ta sẽ có được (pseudo)inverse của ma trận dependency, và chỉ cần nhân nó với kết quả mong muốn sẽ có được particular solution. Tương tự như bài trên, thì $t$ ở đây là kết quả $A_d$ chúng ta mong muốn, và với bước đã thu hẹp vector space chứa $h$ là $X$ , thì chúng ta phải map $t$ với $X$ như chúng ta đã map $A_d$ với $X$ .

Check kích cỡ nullspace để xem cần xóc không:

if nullspace.size == 0: maxtry = 1
else: maxtry = 1024

Nếu nullspace rỗng thì chúng ta không thể làm gì ngoài việc cầu nguyện là particular solution tương ứng với một valid bitflips. Nếu nullspace không rỗng, chúng ta có thể sample vector trong nullspace như bài trước, rồi cộng với particular solution để ra một solution khác vẫn thoả mãn. Đây là cách lấy các solution khác nhau: general solution là một particular solution bất kỳ + 1 vector bất kỳ trong nullspace. maxtry ở đây là số lần server/verifier cho query với một ciphertext bất kỳ.

Tương tự bài trước xóc đĩa tìm nghiệm:

while maxtry: if gmac_ok(patch_encrypted(lengthened, bitflips), signature, nonce): found = True break coeff = np.random.randint(2, size=nullspace.shape[1]) bitflips = (bitflips + nullspace @ coeff) % 2 maxtry -= 1
# if not success, try with a new packet
if not found: continue

Update domain của authentication key $h$ :

new_nullspace = ((get_Ad(bitflips) + t)[no_of_zero_rows:trunc_size] @ X) % 2
_, new_domain = gaussian_elimination(new_nullspace)
X = (X @ new_domain) % 2

Điểm duy nhất khác nhau của phần này với bài trước là chúng ta có cộng $t$ với $A_d$ . Điều này là do bài trước chúng ta không sửa length block nên để MAC không đổi chỉ cần check các block chúng ta sửa thôi ( $A_dX=0$ ). Tuy nhiên, lần này thay đổi length block gây thêm thay đổi là $t$ nữa, nên chúng ta phải cancel out.

Xong xuôi tất cả rồi thì check xem ăn được key chưa nào:

assert (X.T == authkey).all()
print('OK')

Challenge 66: Exploiting Implementation Errors in Diffie-Hellman

Khi lập trình bài này, để lưu giá trị key, mình đã gặp đúng vấn đề được nói tới của bài này một cách oái oăm =)) Chẳng là, với finite field order 125-bit thì giá trị của private key cũng tầm đó, trong khi bình thường int type có mỗi 31-bit, và dài nhất là unsigned long long cũng chỉ có 64-bit. Thế nên lúc mình ban đầu code nó cứ đến 31-32 bit là lỗi làm mình vò đầu bứt tai

Bắt đầu code nào! Đầu tiên là các class liên quan:

class SomeCarryError(BaseException): pass class BrokenCurve(WeierstrassCurve): def __init__(self, fail_freq=2**64): super().__init__( a = -95051, b = 11279326, p = 233970423115425145524320034830162017933, g = (182, 85518893674295321206118380980485522083), q = 29246302889428143187362802287225875743, order = (29246302889428143187362802287225875743 << 3) ) self.fail_freq = fail_freq def point(self, x, y): return BrokenPoint(self, x, y) def generate_keypair(self): while True: try: return super().generate_keypair() except SomeCarryError: ... class BrokenPoint(WeierstrassPoint): def __add__(self, obj): # if the star aligns, fail if (self.x + obj.x) % self.curve.fail_freq == 0: raise SomeCarryError ret = super().__add__(obj) ret.__class__ = self.__class__ return ret def __mul__(self, scalar): assert isinstance(self, self.__class__) and isinstance(scalar, int), \ 'Can only multiply Point with a scalar.' scalar %= self.curve.q if scalar == 0: return self.curve.id # ignore first bit scalar = bin(scalar)[3:] acc = self for bit in scalar: acc += acc if bit == '1': acc += self return acc

Ở bài này mình phải viết lại hàm nhân, vì ban đầu mình đọc bit scalar từ lowest tới newest, trong khi đề bài đọc ngược lại theo Horner's method. Mỗi một phương pháp tính hàm nhân khác nhau sẽ yêu cầu tấn công khác nhau đó.

Tạo curve và keypair:

curve = BrokenCurve(fail_freq=2 ** 10)
print('Generating keypair...')
private, public = curve.generate_keypair()

Hàm handshake nhân điểm bất kỳ với private key, trả về có thành công không:

def handshake(point): try: point * private return True except SomeCarryError: return False

Và phần đăng ký các biến để lưu key trong quá trình tính song song. Chúng ta lưu highest 64 bit vào biến half1, và 64 bit còn lại vào biến half2. Lúc đọc và lưu cần ghép/bẻ lại như cần thiết.

half1 = Value('Q')
half2 = Value('Q')
half2.value = 1

Viết hàm đọc từng bit một:

def brute(_=None): while True: with half1.get_lock(): val = (half1.value << 64) | half2.value # check if we got it if val == 0: return if curve.g * val == public: assert val == private print('\nOK') with half1.get_lock(): half1.value = 0 half2.value = 0 return val length = val.bit_length() add0 = val * 2 add1 = add0 + 1 while True: with half1.get_lock(): val = (half1.value << 64) | half2.value if val == 0 or val.bit_length() > length: break found = False # try new points while True: point = curve.generate_point() try: point_ = point * (val * 2) except SomeCarryError: ... else: break # if the last bit is 0, there's no next doubling. if curve.g * (val * 2) == public: assert val * 2 == private print('\nOK') with half1.get_lock(): half1.value = 0 half2.value = 0 return val * 2 else: try: point_ + point_ except SomeCarryError: succ0 = False else: succ0 = True try: point_ + point except SomeCarryError: succ1 = False else: succ1 = True if succ0 ^ succ1: if succ1: if handshake(point): trueval = add1 found = True if succ0: if handshake(point): trueval = add0 found = True if found: with half1.get_lock(): val = (half1.value << 64) | half2.value if val == 0: return if val.bit_length() == length: half1.value = (trueval >> 64) half2.value = (trueval & 0xFFFFFFFFFFFFFFFF) print(trueval & 1, end='', flush=True)

Và giải thôi:

print('Solving: 1', end='', flush=True)
pool = Pool(cpu_count())
pool.map(brute, iterable=[None] * cpu_count())

Một cái kết có hậu cho chuyến hành trình dài.

Hết thật rồi đó.

[Cryptopals] Set 8: Abstract Algebra (Challenge 63-66)

Challenge 63: Key-Recovery Attacks on GCM with Repeated Nonces

Food for thought

Challenge 64: Key-Recovery Attacks on GCM with a Truncated MAC

Challenge 65: Truncated-MAC GCM Revisited: Improving the Key-Recovery Attack via Ciphertext Length Extension

Challenge 66: Exploiting Implementation Errors in Diffie-Hellman

Bình luận

Bài viết tương tự

Get Paid with Crypto in your App // Coinbase Commerce Tutorial

Tản mạn về lỗ hổng trong smart contract của Fairmoon Token, các dấu hiệu bất thường và nguy cơ từ crypto

Tạo mạng P2P trên blockchain và phát hành tiền điện tử của riêng bạn

What happens if you hack 4.5 billion BTC? // The Code Report

Web5... The Web3 Killer?

Nội dung chương trình AMA (trả lời các câu hỏi) ngày 19 tháng 5 năm 2022.