我正在计划编写一个用于Linux的程序,该程序使用文本进行语音和语音识别。 什么是最好的工具/库? 我应该使用Windows来使用更好的工具吗? 这些工具需要易于从控制台或C程序调用。

对于语音识别,有各种狮身人面像。不同的变体各有优缺点,这里有一个Sphinx版本比较的比较。我相信Sphinx 4是Java,但其他都是C。

这很大程度上取决于您要识别的语音。

这是2005年的文章,解释了创建听写程序的一些困难:http://www.cs.cmu.edu/~archan/personal/whyNoOpenSourceDictationDraft4.html。如果您愿意,Julius语音识别引擎似乎很有前途,但是您将需要添加自己的声学和语言模型。您也许可以使用voxforge声学模型。

如果您不打算编写听写程序,那么您的任务就容易得多。命令程序的词汇量有限,例如"如果您想继续使用英语,请说"英语""。

使用Pocketsphinx和gstreamer制作了一个程序,该程序可以自动编辑TWiT播客中大多数出现的" twitter"一词,从而获得了不错的结果。在我根据播客的笔录使用自己的语言模型之前,它根本无法工作。来自语音识别器的机器转录虽然没用/很有趣,但是可以很好地找到关键字。

您在tcpserversrc / client上使用Pocketsphinx和gstreamer有任何经验吗?

否,但gstpocketsphinx + tcpserversrc / sink不应与任何其他gstreamer元素+ tcpserversrc / sink有所不同。

指向" twitterkiller"程序的链接似乎已断开。

@ steven-oxley修复了链接

对于语音识别,Linux几乎没有。我只知道一个看似不错的选择,这是IBM几年前发布的,但后来不再可用(任何人都知道是否可以从任何地方使用此ViaVoice SDK吗?)。维基百科上有更多关于可能选项的信息。

ViaVoice SDK。 它从来没有完整发布过,文档要求2.4内核版本号的范围相当狭窄。 当我手腕出现间歇性牙痛时,我玩弄它以减轻打字负担,但是没有运气。

我在Linux下都使用过Loquendo和Festival。我认为我使用过的节日声音很差,而且具有很强的机器人综合性。另一方面,Loquendo的声音非常出色-非常高的质量。

如果要使用Festival,则应安装备用声音。 说明(针对debian / ubuntu)在这里:ubuntuforums.org/showthread.php?t=677277

您在Loquendo的经历如何? 如果您愿意,我很乐意通过电子邮件问您几个问题吗?

对于Debian / Ubuntu文本到语音转换,还有SVOX Pico:

sudo apt-get install libttspico-utils

您是否检查了基于HMM的语音合成中的文本到语音。您可以在http://hts.sp.nitech.ac.jp/网站上找到免费的演示。安装将很繁琐。

然后是用于文本到语音的翻译。

http://simon-listens.org/-simon开源语音/语音识别程序

这有点老了,但几天前我在Hackaday上看到了一篇相当全面的语音识别指南:

at&t fsm工具包也很棒-尽管不允许将其用于商业用途,

http://www.research.att.com/~fsmtools/fsm/

我知道espeak是一个非常好的linux文本转语音程序(它甚至可以执行不同的口音!),但是我不知道有任何针对UNIX设计的语音识别系统。

我知道,最初的问题是关于找到合适的库的,但是就使用语音识别足够好地用于实际听写而言,Linux似乎没有任何东西(尽管我相信它会随着时间的推移而改变,我怀疑它会及时改变)。请花一点时间,因为我不确定很多人是否对此感兴趣。

目前,我正在尝试推广CodeWeavers支持的产品Dragon NaturallySpeaking ...因此,如果您有兴趣作为用户,这对您投票有帮助...

http://www.codeweavers.com/compatibility/browse/name/?app_id=8427

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐