第二智慧科技要推出的智能音箱,最主要的一个环节的原料却是从别人那里购买的,虽然没有什么问题,但是林奇总觉得很别扭。
后来林奇也想过去各大站上面爬一些数据,有生物计算机在后面给自己的大力支撑,爬别人的数据,应该很方便。
林奇也真的去这么做了,为了n频率,还特意的n了一些速度。就这样爬了一些数据,但是这些数据拿到手里,林奇发现有一个问题,那就是这些数据很多都是录音棚,或者加工后的数据。
与用户实际生活中,比如在地铁上发的语音,在公交车上发语音,或者在大街上发语音,在家里发语音都不太一样,爬出来的数据很多都没有环境音。
没有环境音本身其实是好的音频,但是对于做语音识别来说这个就非常不合适了,因为做出来的模型不符合人们正常生活,与实际使用场景不符。
那就很尴尬了,就好比你说一个人很厉害,可以用剑杀恶龙,在有恶龙的世界里面,他是当之无愧的英雄。
但是如果他来到了现实生活中,就一事无成。
无他,只是因为现实生活中没有恶龙来给他杀。一个杀鸡的可能都比他在现实生活中,更容易生存下去。
最后林奇决定还是自己来搞这个模型,不仅仅语音识别是需要大量的数据,现在所有的涉及到深度学习的都是需要大量的数据来进行训练。
林奇并不觉得这是绝对正确,就像我们人类一样,比如一个新奇的物种,并没有见过,然后你给他了一张照片,说这是神兽饕餮,然后等他再次看到的时候,他很容易就能认出来,那个是不是神兽饕餮。
林奇想做的是能通过少量的样本就能训练出来一个不错的模型,这样就可以解放语音的大数据。
同时一个人上手的时间更短,想想即使一个人口音很重,用了智能语音软件说了几十句话,或者十几句话之后,准确率大大提高,可以堪比用标准的新闻联播主持人那样的普通话说出来的识别率。
其实在自然语言方面,林奇之前有一些经验,是在创造自然语言编程的时候。
但是里面设计到的多是语义的一些解析,没有涉及到语音识别。
林奇相信只要自己能通过第一关卡,那么后面的应该都很简单。