假如有一种未破译灭绝语言，有关于这种语言的一亿本书，能不能用超级计算机把这门语言用套的方式破译出来？ - 如果是原始资料的话，第一步要解决的是： ...

如果是原始资料的话，第一步要解决的是：

切分视觉token, 这一步和语言本身几乎没有关系。也就是要把一个图形(书中的每一页)切分成一个一个的字母/字。然后再通过相似度比较，弄出一张逻辑token 表，比如 A ,B C,D....，统计出频率。这个阶段可以完全依赖计算机解决，应该不是问题。

完成上面这一步后，只要这种语言是地球上的人创造的（几十万年的尺度上自然环境基本不会变的，比如山水河树风雨冰...），实际根本不需要一亿本书，有几十几百本就能还原出【一小半】以上。如果有这个语言同期存在的可识别语言，会更容易一些。这个阶段可能需要一些人肉活（语言专家等）。归纳猜测出这个语言的基本句式。

再往后的阶段，大部分工作依赖计算机程序就行。

发布于 2024-05-06 10:58・IP 属地山西