实时字幕

实时困境

网络多媒体越来越多地用于通过互联网提供实时,实时内容 - 从视频会议到VoIP(互联网语音协议),再到实时视频流可访问性标准要求为音频和视频内容提供等效替代方案对于实时网络多媒体,这意味着视觉内容必须以听觉形式提供,并且听觉内容必须以视觉形式提供The equivalents must also be synchronized with the presentation, meaning that they must be delivered to the end user at the same time as the main content (e.g., captions for audio must display at the same time that the audio would be heard).

音频说明

标准网络媒体中的可视内容的替代方案通常采用音频描述的形式,其中在多媒体的音频流中也未提供的视觉内容由叙述者或其他人描述。音频描述很难合并到实时网络广播中作为替代方案,您可以简单地确保在音频中本地描述任何可视内容例如,如果有人在视频上发言,他们可以可听地描述电影中显示的任何其他视觉内容,从而无需二级形式的音频描述这是向盲人或视力不佳的个人制作包含视觉信息的实时网络广播的唯一可行方式如果考虑到这一点而产生,并且如果参与视频广播的人都知道并提供这些描述,那么多媒体将对这些观众产生影响。

标题

标准网络媒体中听觉内容的替代方案通常是同步字幕字幕提供所有可听信息的文本等效物生成实时字幕的困难是:

  1. 音频信息必须实时转换为文本。
  2. 文本标题必须传递给最终用户,以便它们与音频同步。

生成实时文本

实时将音频信息转换为文本很困难不幸的是,很少有打字员可以输入足够快的速度来录制口语因此,有两种主要技术可用于实现此目的。

速记/实时转录

steno机器速记包括让训练有素的转录员(通常称为速记员或法庭记者)使用一种称为steno机器的特殊打字机设备将所说的单词实时转录为文本格式steno机器具有比典型键盘更少的键(通常为22个)速记员不是键入每个字母,而是点击steno机器上的键序列来表示单词或短语的语音部分,或代表单词的特殊代码软件然后分析语音信息并形成单词这种技术允许训练有素的转录员实时生成可听对话的文本版本。

速记技术允许将可听信息实时转换为文本(好吧,也许在说出之后大约一秒钟左右)虽然准确度水平很高,但通常会由steno软件错误地输入或解释单词此外,实时转录可能很昂贵,通常花费在70美元至120美元左右美元每小时。

语音识别

虽然语音识别为实时生成字幕提供了很大的可能性,但目前该技术还没有达到可以用来实现这一目标的水平在某些设置中,例如当一个人说话并使用训练有素的语音识别软件时,语音识别可能是一个可行的选择然而,即使在这样的环境中,也存在缺点,例如缺少标点符号,准确性差以及无法对其他发言者加以限制。

While voice recognition technology is improving and promises future multi-user, highly accurate, speaker independent voice recognition, at this time, its feasibility in generating text for use in captions is isolated to few situations.

提供实时字幕

一旦生成了与音频等效的文本,就必须将该文本传递给最终用户,以使其与音频流同步遗憾的是,很少有实时多媒体技术本身支持字幕因此,实时字幕通常必须通过与多媒体软件或硬件并行运行的不同技术来提供这通常通过专用应用程序或通过内置到网页中并在Web浏览器中运行的客户端来完成。

对于视频会议和语音聊天,音频实时传送,必须生成字幕,转换为通过互联网广播的格式,然后传送给最终用户 - 所有这些都是实时的对于流式视频,通常由于编码和缓冲,在捕获媒体和向最终用户显示媒体之间经常存在延迟在这些情况下,实时字幕的传送机制必须提供功能,以确保字幕在听到音频的大致相同的时间显示,即使字幕生成和传送之间的延迟很长。

结论

虽然字幕实时网络多媒体并不总是很容易,但是当实时多媒体传送时,它是可能的并且应该始终完成幸运的是,这些技术正在逐步提高到允许实时字幕在大多数情况下既简单又经济可行的水平。

用于在网络上提供实时字幕的技术不仅限于提供这些字幕作为仅基于网络的多媒体的替代方案这种字幕传送系统还可用于为非基于网络的技术提供字幕,例如广播,电视,视频会议等。这将确保所有形式的实时多媒体的可访问性。