黑科技超级辅助_第197章语音识别

第二智慧科技要推出的智能音箱，最主要的一个环节的原料却是从别人那里购买的，虽然没有什么问题，但是林奇总觉得很别扭。

后来林奇也想过去各大站上面爬一些数据，有生物计算机在后面给自己的大力支撑，爬别人的数据，应该很方便。

林奇也真的去这么做了，为了n频率，还特意的n了一些速度。就这样爬了一些数据，但是这些数据拿到手里，林奇发现有一个问题，那就是这些数据很多都是录音棚，或者加工后的数据。

与用户实际生活中，比如在地铁上发的语音，在公交车上发语音，或者在大街上发语音，在家里发语音都不太一样，爬出来的数据很多都没有环境音。

没有环境音本身其实是好的音频，但是对于做语音识别来说这个就非常不合适了，因为做出来的模型不符合人们正常生活，与实际使用场景不符。

那就很尴尬了，就好比你说一个人很厉害，可以用剑杀恶龙，在有恶龙的世界里面，他是当之无愧的英雄。

但是如果他来到了现实生活中，就一事无成。

无他，只是因为现实生活中没有恶龙来给他杀。一个杀鸡的可能都比他在现实生活中，更容易生存下去。

最后林奇决定还是自己来搞这个模型，不仅仅语音识别是需要大量的数据，现在所有的涉及到深度学习的都是需要大量的数据来进行训练。

林奇并不觉得这是绝对正确，就像我们人类一样，比如一个新奇的物种，并没有见过，然后你给他了一张照片，说这是神兽饕餮，然后等他再次看到的时候，他很容易就能认出来，那个是不是神兽饕餮。

林奇想做的是能通过少量的样本就能训练出来一个不错的模型，这样就可以解放语音的大数据。

同时一个人上手的时间更短，想想即使一个人口音很重，用了智能语音软件说了几十句话，或者十几句话之后，准确率大大提高，可以堪比用标准的新闻联播主持人那样的普通话说出来的识别率。

其实在自然语言方面，林奇之前有一些经验，是在创造自然语言编程的时候。

但是里面设计到的多是语义的一些解析，没有涉及到语音识别。

林奇相信只要自己能通过第一关卡，那么后面的应该都很简单。