3个回答

强化学习reward曲线震荡是怎么回事呢?

南京信息大学bb

因为sac的探索是基于随机采样的,所以抖是正常的,同时从x轴上看,目前训练步数还需要进一步增加

发布于 2023-12-16 09:32・IP 属地陕西
盛见者
自由评论 (0)
分享
Copyright © 2022 GreatFire.org