如何在Python中有效地编码bigram计数和替换的字节对?

如何在Python中有效地编码bigram计数和替换的字节对?

在 Byte Pair Encoding算法中,有一个替换步骤,它将由空格分隔的字符串更改为bigrams. 即,给出一个str元组列表: [(t, h, i, s, ue000), (c, o, r, p, u, s, ue000), (i, n, ue000), (t, x, t, f, i, l, e