Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

一个运行时的小建议 #16

Open
frisk0926 opened this issue Mar 9, 2024 · 2 comments
Open

一个运行时的小建议 #16

frisk0926 opened this issue Mar 9, 2024 · 2 comments

Comments

@frisk0926
Copy link

在执行过程中我发现在录取音频时如果发生这种情况:
1.还没想好要说什么,但已经检测到了静音,于是就往下执行程序了
2.说的没有静音检测来得快,导致先静音检测了,往下执行了
最好在start recording之后 有一个检测内容的操作,如果在xx秒内没有检测到内容,则执行静音检测; 避免录音程序和静音检测重复的执行

@ultrasev
Copy link
Owner

在执行过程中我发现在录取音频时如果发生这种情况:
1.还没想好要说什么,但已经检测到了静音,于是就往下执行程序了
2.说的没有静音检测来得快,导致先静音检测了,往下执行了
最好在start recording之后 有一个检测内容的操作,如果在xx秒内没有检测到内容,则执行静音检测; 避免录音程序和静音检测重复的执行

@frisk0926 很好的建议,这个问题我也遇到过。 一个方法是把静音检测时长拉长,可以避免短停顿时就把音频截断。但相应地,真正需要截断时,停顿也需要刻意长一点,不然可能会一次性录入很长一段的话。

我还遇到的一个问题是,有时并没有真实的发言内容,但存在微弱的背景音,静音检测没有识别出来这种情况,音频就转交给whisper进行了转写,而且whisper还转出来了一些无意义的文字,比如一段标点。。。。

我觉得你说的"检测内容的操作"是有必要的,这个操作最好能识别一段音频是真实有内容的录音,目前仅靠 webrtcvad 不太行,我再研究一下有没有更好的方案。

@satisl
Copy link

satisl commented Apr 9, 2024

可能得使用silero vad之类的基于深度学习的vad模型,webrtcvad能力确实有限了

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants