Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

请教下,使用自己做的LRS2数据集训练之后,训练了好几天,每一个生成的checkpoint都是一样大的,这个正常吗?而且我没有发现训练日志,不知道应该选择哪个checkpoint,有什么方法吗?最后,感觉有点点不友好,训练时看不到还需要多长时间,我2分钟视频训练了3天都没结束... #587

Open
tito-dt opened this issue Nov 15, 2023 · 8 comments

Comments

@tito-dt
Copy link

tito-dt commented Nov 15, 2023

image

@mrhanCH
Copy link

mrhanCH commented Nov 17, 2023

我大概可以替你解答下你的疑惑,1、checkpoint每个的大小确实是一样,除非有特别大的参数变化,不过不常见。2、作者训练代理里没有写入日志记录的代码,所以是没有训练日志,不过有控制台输出信息可以查看,想要日志的话需要自己在训练代码里增加。3、训练时长本身就是看不到的,因为作者的readme里也写了要看控制台输出信息的loss,降到0.2就可以手动终止训练,至于训练啥时候是个头,它可以一直训练,直到训练轮数达到200000000000000000轮。(仅供参考,建议详细阅读readme和论文,以作者回复为准!)

@tito-dt
Copy link
Author

tito-dt commented Nov 17, 2023

我大概可以替你解答下你的疑惑,1、checkpoint每个的大小确实是一样,除非有特别大的参数变化,不过不常见。2、作者训练代理里没有写入日志记录的代码,所以是没有训练日志,不过有控制台输出信息可以查看,想要日志的话需要自己在训练代码里增加。3、训练时长本身就是看不到的,因为作者的readme里也写了要看控制台输出信息的loss,降到0.2就可以手动终止训练,至于训练啥时候是个头,它可以一直训练,直到训练轮数达到200000000000000000轮。(仅供参考,建议详细阅读readme和论文,以作者回复为准!)

感谢大佬的回复,我大概了解了这几个问题的原因所在,已经在考虑解决中,但是又碰到了新的问题。如果可以,我想再请教下,我通过收集一段1分多钟的视频素材,制作成LRS2数据集之后(60%训练,20%验证,20%测试),在训练脚本的train函数中增加了tensorboard收集训练日志,然后开始训练,在发现val_loss大于train_loss之后停止训练得到训练后的模型。我通过新模型来推理新的音频+视频时,发现人物头像下半脸有一个很明显的方框(和其他的背景格格不入),而且嘴型基本对不上音频了(在使用预训练模型推理该音频+视频时有不错的效果,下半脸也没有明显的方框),这算是训练失败了嘛? 可能是什么原因导致的训练失败?需要怎么调整?(训练素材太少?素材人物、背景太过于单一?)
备注:我没有训练expert discriminator,直接训练的Wav2Lip models
希望大佬有时间可以帮忙解答一下疑惑,再次感谢下大佬!
image
image

@Crestina2001
Copy link

1,请教下,使用自己做的LRS2数据集训练之后,训练了好几天,每一个生成的checkpoint都是一样大的
为啥checkpoints会不一样大?
2,而且我没有发现训练日志,不知道应该选择哪个checkpoint,有什么方法吗
自己写一个logging
3,最后,感觉有点点不友好,训练时看不到还需要多长时间,我2分钟视频训练了3天都没结束
训练到了感觉差不多了就按ctrl+c结束

@llliiiu
Copy link

llliiiu commented Nov 30, 2023

1,请教下,使用自己做的LRS2数据集训练之后,训练了好几天,每一个生成的checkpoint都是一样大的 为啥checkpoints会不一样大? 2,而且我没有发现训练日志,不知道应该选择哪个checkpoint,有什么方法吗 自己写一个logging 3,最后,感觉有点点不友好,训练时看不到还需要多长时间,我2分钟视频训练了3天都没结束 训练到了感觉差不多了就按ctrl+c结束

请教一下,自己做LRS2数据集的步骤是什么啊?我按照github上wav2lip的格式做了一个数据集,但是在运行color_syncnet_train.py时陷入死循环了。期望收到您的回复,十分感谢!!!

@jack00000
Copy link

1,请教下,使用自己做的LRS2数据集训练之后,训练了好几天,每一个生成的checkpoint都是一样大的 为啥checkpoints会不一样大? 2,而且我没有发现训练日志,不知道应该选择哪个checkpoint,有什么方法吗 自己写一个logging 3,最后,感觉有点点不友好,训练时看不到还需要多长时间,我2分钟视频训练了3天都没结束 训练到了感觉差不多了就按ctrl+c结束

请教一下,自己做LRS2数据集的步骤是什么啊?我按照github上wav2lip的格式做了一个数据集,但是在运行color_syncnet_train.py时陷入死循环了。期望收到您的回复,十分感谢!!!

+1 自己做数据集 按格式要求
2024-01-09 17-46-15屏幕截图
训练却报错

@RuojiWang
Copy link

RuojiWang commented Jan 25, 2024

1,请教下,使用自己做的LRS2数据集训练之后,训练了好几天,每一个生成的checkpoint都是一样大的 为啥checkpoints会不一样大? 2,而且我没有发现训练日志,不知道应该选择哪个checkpoint,有什么方法吗 自己写一个logging 3,最后,感觉有点点不友好,训练时看不到还需要多长时间,我2分钟视频训练了3天都没结束 训练到了感觉差不多了就按ctrl+c结束

能够分享一下您的数据集么,或者能分析一下制作数据集的步骤和流程么?十分感谢!

@tito-dt
Copy link
Author

tito-dt commented Jan 25, 2024

1,请教下,使用自己做的LRS2数据集训练之后,训练了好几天,每一个生成的checkpoint都是一样大的 为啥checkpoints会不一样大? 2,而且我没有发现训练日志,不知道应该选择哪个checkpoint,有什么方法吗 自己写一个logging 3,最后,感觉有点点不友好,训练时看不到还需要多长时间,我2分钟视频训练了3天都没结束 训练到了感觉差不多了就按ctrl+c结束

请教一下,自己做LRS2数据集的步骤是什么啊?我按照github上wav2lip的格式做了一个数据集,但是在运行color_syncnet_train.py时陷入死循环了。期望收到您的回复,十分感谢!!!

上一楼的大佬说过了,没记错的话,训练都是要自己手动ctrl+c结束的。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

7 participants
@RuojiWang @mrhanCH @jack00000 @tito-dt @Crestina2001 @llliiiu and others