蠢得不可思议,很难崩,252个safetensors,1.3T多的权重(fp16,DeepSeek给的是8bit的量化版),只是想骂土共,弄个0.5B的模型也能骂,想恶心下deepseek,这也恶心不到,这应该是直接用pytorch训练的,成本也不会低,这属于啥,单纯地铁上大便吗?
发布于 2025-02-20 16:04・IP 属地河南
蠢得不可思议,很难崩,252个safetensors,1.3T多的权重(fp16,DeepSeek给的是8bit的量化版),只是想骂土共,弄个0.5B的模型也能骂,想恶心下deepseek,这也恶心不到,这应该是直接用pytorch训练的,成本也不会低,这属于啥,单纯地铁上大便吗?