MOONSHOT月之暗面公司的Kimi助手取得巨大突破,无疑也得益于AI语料的不断训练。AI语料,即人工智能语料库(Al Corpus),是指用于训练和评估人工智能系统,尤其是自然语言处理(NLP)系统的一系列文本、语音或其他语言数据。
一、AI语料库
语料库里的数据可以是结构化的,也可以是非结构化的,包括但不限于书面文本、口头对话、社交媒体帖子、新闻报道、学术论文等。
二、中文数字内容
1、数据将成为如ChatGPT等AI大模型的核心竞争力,高质量的数据资源可让数据变成资产、变成核心生产力,AI模型训练的生产内容高度依赖源头数据;
2、ChatGPT的中文答案不准确主要在于目前中文语料学习库少,ChatGPT 中文资料比重还不足千分之一,为0.09905%,而英文为92.64708%;
3、中文公开语料远不足英文,这也成为大模型训练的痛点。大量高质量中文数据资源(包括政务、教育、商业、科研、商品等)尚未共享给国外大模型;
4、政策进一步重视国内数据核心资产建设,部分外国用户对中国大陆知识基