We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
在执行过程中我发现在录取音频时如果发生这种情况: 1.还没想好要说什么,但已经检测到了静音,于是就往下执行程序了 2.说的没有静音检测来得快,导致先静音检测了,往下执行了 最好在start recording之后 有一个检测内容的操作,如果在xx秒内没有检测到内容,则执行静音检测; 避免录音程序和静音检测重复的执行
The text was updated successfully, but these errors were encountered:
@frisk0926 很好的建议,这个问题我也遇到过。 一个方法是把静音检测时长拉长,可以避免短停顿时就把音频截断。但相应地,真正需要截断时,停顿也需要刻意长一点,不然可能会一次性录入很长一段的话。
我还遇到的一个问题是,有时并没有真实的发言内容,但存在微弱的背景音,静音检测没有识别出来这种情况,音频就转交给whisper进行了转写,而且whisper还转出来了一些无意义的文字,比如一段标点。。。。。
。。。。
我觉得你说的"检测内容的操作"是有必要的,这个操作最好能识别一段音频是真实有内容的录音,目前仅靠 webrtcvad 不太行,我再研究一下有没有更好的方案。
Sorry, something went wrong.
可能得使用silero vad之类的基于深度学习的vad模型,webrtcvad能力确实有限了
No branches or pull requests
在执行过程中我发现在录取音频时如果发生这种情况:
1.还没想好要说什么,但已经检测到了静音,于是就往下执行程序了
2.说的没有静音检测来得快,导致先静音检测了,往下执行了
最好在start recording之后 有一个检测内容的操作,如果在xx秒内没有检测到内容,则执行静音检测; 避免录音程序和静音检测重复的执行
The text was updated successfully, but these errors were encountered: