WebAIM  - 无障碍记

实时字幕

实时困境

该网站提供实时内容的多种形式,从视频会议,到VoIP,到视频直播。可访问性标准要求等同的,同步的替代品用于实时音频和视频内容提供。

音频描述

在标准web多媒体视觉内容的替代往往需要的形式音频说明在多媒体其中视觉内容经由音频 - 通常是一个单独的音轨与视觉内容的叙述说明。因为一个单独的描述性音轨是很难纳入实时网络广播,确保任何重要的视觉内容在本地音频描述。例如,如果在视频说话的人,他们应该听觉描述显示在屏幕上的任何额外的视觉内容。

标题

在标准的网络媒体内容的听觉替代通常是同步的字幕。字幕提供的所有听觉信息文本等值。在生成实时字幕的困难是:

  1. 音频信息必须转换成实时的文本。
  2. 交付给最终用户的文字说明必须与音频同步。

生成实时文本

因为很少触摸打字员可以保持与自然的人类语言节奏,誊写主要使用两种技术来实时生成文本。

速记

速记机速记涉及一个熟练的抄录实时基本经营速记键盘。由于速记依赖于音素和词语的语音形式,该装置具有比标准计算机键盘上的按键更少的和熟练的操作人员可以实现对每分钟200个字。软件音素或其他输入的编码转换成正确拼写的词。它也可以用于快速进行更正。速记可以相对昂贵,由于抄录员所需的专业知识。

对于速记精确度是非常高的,但仍建议校对。校正后的成绩单,也可用于字幕的现场直播中的任何档案。

语音识别

两种形式的语音识别可以用来生成实时字幕。两者都涉及计算机系统和人工智能语音转化为文字,质量的不同水平。虽然易用性原则没有定义实时字幕的质量水平,他们必须是“等价”,这意味着精度高的水平。

训练有素的语音识别或说话的阴影

“影子说话”听现场直播,并重复所有语音内容转换成一个麦克风。专业的语音识别软件,调整到自己的声音,解释说,这次讲话的文本,便于文字修正和定制。一个训练有素的扬声器还可以添加其他重要信息的实时字幕,如标点符号,谁在说话,或其他视觉或音频内容仅简要描述的标识。影子说可以提供精度高的水平,虽然是有代价的,由于所需的专业知识。

自动语音识别

YouTube上,PowerPoint和其他媒体和流媒体技术可以使用语音语音识别技术将自动转换为文本的实时性。由于变异的音频质量,不同的扬声器的声音(尤其是如果有多个扬声器,以及更何况,如果他们在同一时间说话),背景噪声等的水平,原材料自动字幕往往有不准确的。这些技术也可以省略标点符号。

在某些控制的设置,例如,当一个人用非常清楚和通告音频发言如,纯自动字幕有时可能是足够的。自动字幕也可以在人工审核和校正处理后的媒体生成档案成绩单和标题非常有用。

实时字幕交付

生成的文本必须与音频流尽可能地同步。许多实时多媒体技术,如YouTube的放大,支持直接在接口字幕。如果不直接支持字幕,也可以通过专用的应用程序或平行于多媒体软件或硬件基于浏览器的应用程序交付。

结论

虽然实时字幕并不总是很容易,有可能和可访问性是至关重要的。幸运的是,技术不断改善,使实时在大多数情况下字幕更容易和便宜。除了网络,这些技术也可以应用到广播,电视,视频会议等,以方便在各种形式的直播媒体的可访问性。