博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
kaldi数据准备部分,文件解释 thcs30
阅读量:3562 次
发布时间:2019-05-20

本文共 1049 字,大约阅读时间需要 3 分钟。

转自:http://blog.csdn.net/dzp443366/article/details/54094950

若想用已识别的系统对你的数据解码,要重写 “数据部分”. 
直接以thchs30项目为例

里面或许会有

cmvn.scp  feats.scp  reco2file_and_channel  segments  spk2utt  text  utt2spk  wav.scp 
1
2

文件”text” :包含每段语音的文字意思 
这里写图片描述

每行的第一项是录音编号(utterance-id),

发音编号后面跟着的 是每段录音的标注。


文件wav.scp

这个文件的格式是

1
2

这里写图片描述

大家可以理解为是一段提取wav格式文件的命令。


文件”utt2spk”与”spk2utt”

spk2utt文件格式是:

1
2

这里写图片描述
解释:以第一行为例,讲话者为B34 他讲了B34_251 B34_254 接下来每一行如此类推

utt2spk文件格式是(spk2utt相反):

1
2

这里写图片描述


数据准备– “lang”目录

现在我们关注一下数据准备的“lang”这个目录。 
进入lang目录

s5# ls data/langL.fst  L_disambig.fst  oov.int    oov.txt  phones  phones.txt  topo  words.txt 
1
2
3

ps:请把phone翻译为音素 

首先是有文件phones.txt和words.txt。这些都是符号表(symbol-table)文件,符合OpenFst的格式定义。其中每一行首先是一个文本项,接着是一个数字项: 
phones.txt 
这里写图片描述

words.txt 
这里写图片描述 
SPOKEN_NOISE 是噪音 

文件lang/oov.txt仅仅只有一行: 
s5# cat lang/oov.txt 
<SPOKEN_NOISE>
 
在训练过程中,所有词汇表以外的词都会被映射为这个词(噪音)

在Kaldi中,这些文件被用于在这些音素符号的文本形式和数字形式之间进行转换。 大多数情况下,只有脚本utils/int2sym.pl、utils/sym2int.pl和OpenFst中的程序fstcompile和fstprint会读取这些文件。

文件L.fst是FST形式的发音字典

你可能感兴趣的文章
排序之归并排序
查看>>
排序之快速排序
查看>>
秋招笔试之JS常见考点(待更新)
查看>>
eval函数
查看>>
秋招笔试之HTML/CSS常见考点(待补充)
查看>>
HTTP协议
查看>>
图片会产生HTTP请求的几种情况 | 图片预加载技术
查看>>
AJAX
查看>>
BFC
查看>>
JQuery相关方法
查看>>
运算符
查看>>
操作系统分类
查看>>
进程与线程
查看>>
互斥和死锁
查看>>
操作系统之内存管理
查看>>
操作系统之存储管理
查看>>
操作系统之文件系统
查看>>
操作系统之输入输出
查看>>
秋招常见考点之ajax技术
查看>>
秋招常见考点之HTTP请求
查看>>