一个运行时的小建议 #16

frisk0926 · 2024-03-09T08:10:18Z

在执行过程中我发现在录取音频时如果发生这种情况：
1.还没想好要说什么，但已经检测到了静音，于是就往下执行程序了
2.说的没有静音检测来得快，导致先静音检测了，往下执行了
最好在start recording之后有一个检测内容的操作，如果在xx秒内没有检测到内容，则执行静音检测；避免录音程序和静音检测重复的执行

ultrasev · 2024-03-10T23:47:40Z

在执行过程中我发现在录取音频时如果发生这种情况：
1.还没想好要说什么，但已经检测到了静音，于是就往下执行程序了
2.说的没有静音检测来得快，导致先静音检测了，往下执行了
最好在start recording之后有一个检测内容的操作，如果在xx秒内没有检测到内容，则执行静音检测；避免录音程序和静音检测重复的执行

@frisk0926 很好的建议，这个问题我也遇到过。一个方法是把静音检测时长拉长，可以避免短停顿时就把音频截断。但相应地，真正需要截断时，停顿也需要刻意长一点，不然可能会一次性录入很长一段的话。

我还遇到的一个问题是，有时并没有真实的发言内容，但存在微弱的背景音，静音检测没有识别出来这种情况，音频就转交给whisper进行了转写，而且whisper还转出来了一些无意义的文字，比如一段标点。。。。。

我觉得你说的"检测内容的操作"是有必要的，这个操作最好能识别一段音频是真实有内容的录音，目前仅靠 webrtcvad 不太行，我再研究一下有没有更好的方案。

satisl · 2024-04-09T12:16:46Z

可能得使用silero vad之类的基于深度学习的vad模型，webrtcvad能力确实有限了

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

一个运行时的小建议 #16

一个运行时的小建议 #16

frisk0926 commented Mar 9, 2024

ultrasev commented Mar 10, 2024

satisl commented Apr 9, 2024

一个运行时的小建议 #16

一个运行时的小建议 #16

Comments

frisk0926 commented Mar 9, 2024

ultrasev commented Mar 10, 2024

satisl commented Apr 9, 2024