linux离线语音识别程序,需要文本到语音和用于Linux的语音识别工具

weixin_39672011

682人浏览 · 2021-05-01 22:10:11

weixin_39672011 · 2021-05-01 22:10:11 发布

我正在计划编写一个用于Linux的程序，该程序使用文本进行语音和语音识别。什么是最好的工具/库？我应该使用Windows来使用更好的工具吗？这些工具需要易于从控制台或C程序调用。

对于语音识别，有各种狮身人面像。不同的变体各有优缺点，这里有一个Sphinx版本比较的比较。我相信Sphinx 4是Java，但其他都是C。

这很大程度上取决于您要识别的语音。

这是2005年的文章，解释了创建听写程序的一些困难：http://www.cs.cmu.edu/~archan/personal/whyNoOpenSourceDictationDraft4.html。如果您愿意，Julius语音识别引擎似乎很有前途，但是您将需要添加自己的声学和语言模型。您也许可以使用voxforge声学模型。

如果您不打算编写听写程序，那么您的任务就容易得多。命令程序的词汇量有限，例如"如果您想继续使用英语，请说"英语""。

使用Pocketsphinx和gstreamer制作了一个程序，该程序可以自动编辑TWiT播客中大多数出现的" twitter"一词，从而获得了不错的结果。在我根据播客的笔录使用自己的语言模型之前，它根本无法工作。来自语音识别器的机器转录虽然没用/很有趣，但是可以很好地找到关键字。

您在tcpserversrc / client上使用Pocketsphinx和gstreamer有任何经验吗？

否，但gstpocketsphinx + tcpserversrc / sink不应与任何其他gstreamer元素+ tcpserversrc / sink有所不同。

指向" twitterkiller"程序的链接似乎已断开。

@ steven-oxley修复了链接

对于语音识别，Linux几乎没有。我只知道一个看似不错的选择，这是IBM几年前发布的，但后来不再可用(任何人都知道是否可以从任何地方使用此ViaVoice SDK吗？)。维基百科上有更多关于可能选项的信息。

ViaVoice SDK。它从来没有完整发布过，文档要求2.4内核版本号的范围相当狭窄。当我手腕出现间歇性牙痛时，我玩弄它以减轻打字负担，但是没有运气。

我在Linux下都使用过Loquendo和Festival。我认为我使用过的节日声音很差，而且具有很强的机器人综合性。另一方面，Loquendo的声音非常出色-非常高的质量。

如果要使用Festival，则应安装备用声音。说明(针对debian / ubuntu)在这里：ubuntuforums.org/showthread.php?t=677277

您在Loquendo的经历如何？如果您愿意，我很乐意通过电子邮件问您几个问题吗？

对于Debian / Ubuntu文本到语音转换，还有SVOX Pico：