10小时训练数据打造多语种语音识别新高度
2021年1月12日 - 网易
最多是起到了告诉模型speaker间相似性的作用,其实我们将这个过程叫做speakerawaredtraining更合适。使用该方法对主体声学特征进行拼接,为了更好地适应后续的声学CNN结构,100维的i-vector特征通过LinearDiscriminantAnalysis(LDA)映射到了200维;实验结果表明,在10个限定语种上,使用带pitch特征的i-vector说话人训练,...
详情
最多是起到了告诉模型speaker间相似性的作用,其实我们将这个过程叫做speakerawaredtraining更合适。使用该方法对主体声学特征进行拼接,为了更好地适应后续的声学CNN结构,100维的i-vector特征通过LinearDiscriminantAnalysis(LDA)映射到了200维;实验结果表明,在10个限定语种上,使用带pitch特征的i-vector说话人训练,...