如果是原始资料的话,第一步要解决的是:
切分视觉token, 这一步和语言本身几乎没有关系。也就是要把一个图形(书中的每一页)切分成一个一个的 字母/字。然后再通过相似度比较,弄出一张 逻辑token 表,比如 A ,B C,D...., 统计出频率。这个阶段可以完全依赖计算机解决,应该不是问题。
完成上面这一步后, 只要这种语言是地球上的人创造的(几十万年的尺度上 自然环境基本不会变的,比如山 水 河 树 风 雨 冰...),实际根本不需要一亿本书,有几十几百本就能还原出【一小半】以上。如果有这个语言同期存在的可识别语言,会更容易一些。 这个阶段可能需要一些人肉活(语言专家等)。归纳猜测出这个语言的基本句式。
再往后的阶段,大部分工作依赖计算机程序就行。
发布于 2024-05-06 10:58・IP 属地山西