跳至主要内容

Speech Recognition Systems

关于课程

自动语音识别(ASR)系统是一门交叉学科,涉及语言学、计算机科学、数学和电子工程等领域的专业知识。

当人类发出声音时,本质是创造了一系列时变性、通过空气传播的压力波,我们称之为声波。因此,语音识别的第一步,就是通过传感器捕捉声波,并将声波转化为数字序列。此后,还需要进行特征提取、模式匹配等一系列工作,才能实现语音识别。

本课程将带领学习者从头至尾体验,语音识别的全流程,而不会深入讨论某一具体模块。在课程结束时,学习者将有能力使用Python代码构建语音识别系统。

课程收获

在完成本节课程之后,你将掌握:

  • 语音识别基础知识
  • 语音信号处理方法
  • 声学建模及标签
  • 语言模型的常用算法
  • 如何将声学特征解码为语音

基本要求

  • 了解人工智能领域基础知识(建议前置课程:DAT263x)
  • 熟悉Python代码,具备基本编程能力(建议前置课程:DAT208x)
  • 概率、统计等基本数学知识(建议前置课程:DAT256x)
  • 掌握数据科学基本知识(建议前置课程:DAT203x)
  • 掌握机器学习基本知识(建议前置课程:DAT275x)
  • 掌握深度学习基本知识(建议前置课程:DAT236x)
  1. 课程代码

    DEV287x
  2. 课程开始

  3. 课程结束

  4. 预期课程目标

    Total 20 to 24 hours
选修