2个回答

wav2lip,sadtalker,dinet,对口型模型,哪个模型好一点?

Ingale
4个点赞 👍

Wav2Lip:AI数字人中文版整合包

Wav2Lip介绍

Wav2Lip实现的是视频人物根据输入音频生成与语音同步的人物唇形,使得生成的视频人物口型与输入语音同步。Wav2Lip不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频,还可以直接将动态的视频进行唇形转换,输出与目标语音匹配的视频。Wav2Lip实现唇形与语音精准同步突破的关键在于,它采用了唇形同步判别器,以强制生成器持续产生准确而逼真的唇部运动。此外,它通过在鉴别器中使用多个连续帧而不是单个帧,并使用视觉质量损失(而不仅仅是对比损失)来考虑时间相关性,从而改善了视觉质量。

Wav2Lip适用于任何人脸、任何语言,对任意视频都能达到很高都准确率,可以无缝地与原始视频融合,还可以用于转换动画人脸。

学术Fun将上述工具制作成一键启动包,点击即可使用,避免大家配置Python环境出现各种问题,下载地址: xueshu.fun/3106/在此页面右侧区域点击下载!

注意电脑配置如下

  • windows 10/11
  • 8G显存以上英伟达显卡

下载使用教程

  • 下载压缩包 下载地址: xueshu.fun/3106/在此页面右侧区域点击下载!
  • 解压,最好不要有中文路径,解压后,如下图所示,双击启动.exe文件运行


问题排查

整合包已打包所有环境及模型,一般不会出现问题,如有问题,可按以下方式排查。

  • 显卡适配,若程序启动后您的页面看不到CUDA,请打开venv-cmd.bat 依次输入以下命令:
pip uninstall onnxruntime onnxruntime-gpu
pip install onnxruntime-gpu==1.15.1
  • 大多数情况下可用以下命令解决OpenCV错误
pip uninstall opencv-python opencv-python-headless
pip install opencv-python
发布于 2023-10-27 09:45・IP 属地北京
学术FUN
自由评论 (0)
分享
Copyright © 2022 GreatFire.org