2024年教育状况视频

2024年的教育视频是风暴前的平静还是风暴后的平静? 大流行近在眼前, 在新常态下，企业规模的视频托管和管理服务能否以学校愿意承担的价格保持盈利，我们将面临一个十字路口. 今年我们不太可能越过一个不归路, 但我建议密切关注一些迹象，这些迹象可能会减轻或加剧人们对学校在长期未来拥有一定程度的所有权和控制权所依赖的视频服务的担忧.

与此同时, 由于一家热门的新公司(OpenAI)和一个自2001年以来备受青睐的开源项目的融合，2024年方便的字幕工作流程现在可以为大众所接受.

业务需求加剧

从2021年夏天开始, 我们这些密切关注行业支持学校流媒体的人对模范供应商有详细的见解. 就在那时，创作成功完成了IPO，随后被要求向美国证券交易委员会提交文件, 其中最有趣的是季度10-Q表格和10-K年度报告. 这些文件包括财务报表，以及上市公司对其商业环境的清醒看法.

同样，Zoom在2019年完成了首次公开募股(IPO)，因此也需要发布这些文件. 在两家公司和他们提交给SEC的文件之间, 我们对同步和异步视频领域有一个可靠的看法，来自两个最成功和运行良好的供应商，为教育视频垂直服务.

同步教育视频的状态

对于一家新兴科技公司来说，Zoom有点不寻常，因为自2018年以来，它每年都在盈利, IPO的前一年, 最近的利润相当可观. 同步视频是一个更有利可图的业务线，这与云经济的一般规则是一致的，详见百家乐app下载在去年的原始资料:

在云端, 可变使用百家乐软件，如CPU, 内存, 带宽往往是非常划算的, 而像长期磁盘存储这样的固定使用百家乐软件比内部部署投资更昂贵. 换句话说, 当你为你所使用的服务付费，并在其他时间将这些百家乐软件交给其他公共云租户时，规模经济的效果最好;当你总是为存储你积累的、可能会或可能不会使用的数据付费时，规模经济的效果最差.

无论何时使用同步视频服务，都需要支付CPU和带宽费用, 当云计算不被使用时，它的账单上不会有太多东西. 默认情况下, Zoom会在180天后删除记录在其云托管上的会议, 因此，储存成本有一个内在机制来避免滚雪球效应. 在去年的资料书中寻找茶叶来阅读, 从2021年到2022年，我们的收入增长率呈下降趋势. 这一趋势一直持续到2023年, 但与2022年同期相比，Zoom在2023年前三个季度的收入增长似乎稳定在3%左右.

Zoom在2023年收购了两家公司:Solvvy和Workvivo. Solvvy在Zoom产品组合中增加了一个成熟的聊天机器人产品, Workvivo提供员工体验平台(见图1)，为企业用户提供精简的沟通和文化建设工具.

workvivo

图1. Workvivo for Zoom

最接近学术机构的东西列在 Workvivo网站的合作伙伴页面胡佛研究所在斯坦福大学吗, 所以我不认为这次收购会立即为Zoom的学校客户创造价值. 然而，这可能是朝着缩小与微软团队之间的功能差距迈出的一步.

不过，在高等教育中开发自定义聊天机器人应用程序确实很有兴趣. 中佛罗里达大学(UCF)是一所我钦佩的学校，因为它在教育技术方面一直处于领先地位, 和它的骑士聊天服务, 建立在一个合作伙伴关系的参与平台供应商支柱, 是一个成功的聊天机器人的好例子吗. 另一个主要客户, 佐治亚州立大学, 与UCF和其他机构合作, 最近获得了7美元的奖金.600万美元的拨款用于研究聊天机器人是否可以通过为学生提供全天候的人工智能助教来提高学生的学习成果，学生可以向他们提问. 有趣的是，这项研究是否还揭示了学生与人类教师和助教的互动是否会因为与人工智能助理的互动更多而减少文明程度.

异步教育视频的现状

创作的首次公开募股是在一个不幸的时代，就趋势线光学而言, 虽然这是筹集资金的好时机，总共筹集了172美元.500万年. 纳斯达克综合指数收于14,631点.到2022年5月跌破1.2万，到2022年6月跌破1.1万. 创作的IPO发行价为10美元，最高收盘价为13美元.8月61日. 2021年6月6日——顺便说一句，这一天最后的2.2500万股以原价售出，然后一路跌至1美元.2022年3月7日，该公司的股价从那时起就一直萎靡不振.

价格的暴跌使一件不太可能的事情成为可能, 试图从卡尔图拉的顶级竞争对手那里主动购买, Panopto, 2022年夏天. 收购最终被卡尔图拉董事会否决. 过去两年来，创作一直在削减运营成本, 2022年裁员10%，2023年再裁员11%.

在过去的几年里，裁员在科技行业普遍存在，并将持续到2024年. Twitch解雇了超过三分之一的员工 2024年1月，一个戏剧性的例子.

削减开支的努力在卡尔图拉的案例中取得了成果:该公司的非r&2022年第四季度，D运营费用低于毛利润，此后一直低于毛利润. 2023年的营收同比增长强劲, 创作在教育垂直领域的订阅收入增长了8%.2% 7%和4.与2022年相比，前三个季度增长了8%, 轻松击败了去年原始资料中观察到的趋势.

值得注意的是，kaltu - ra——最大的教育视频点播服务提供商，为半数的R1大学提供服务——从未盈利, 季度或年度, 虽然再一次, Zoom是持续盈利的新兴科技公司中的异类. 在某一时刻, 虽然, 让人放心的是，学校所依赖的教育视频服务供应商是在可持续的商业模式下运作的. 卡尔图拉也意识到了这一点，最近从Magic Leap招聘了John Doherty 担任新的首席财务官，同时在招聘公告中特别提到盈利能力是招聘的一个组成部分.

去年的百家乐app下载这篇文章讨论了如果为学校服务的两家最大的视频管理系统供应商实际上合并了会发生什么，以及如果学校在大流行后的教育技术需求萎缩，新的环境要求他们的视频管理软件(VMS)订阅降级，学校将有什么选择. 因为视频服务对学校来说非常有价值, 学校管理者倾向于将核心服务外包给供应商，而不是依靠高技能员工的忠诚来支持这些关键的操作, 我相信这个行业会蓬勃发展.

如果这种乐观是错位的，那么多伦多大学的公开课项目可能暗示一个新的方向. 多伦多大学是一个大胆而具有前瞻性的机构，总招生人数不到100人,在它的三个校区中有1000名学生. 它成功地构建了开放广播内容捕获系统(go2sm).(occs)提供全校范围的讲座记录, 对于那些愿意投资于本地解决方案或跨机构合作以集中百家乐软件实现这一目标的学校来说，它仍然是一个极好的解决方案图2).

UToronto露天

图2. 多伦多大学开放广播内容捕获系统的示意图

创作的2024年10-K文件预计将于2月份提交. 在文件中讨论风险因素的部分, 遵守隐私法规始终是一个主要问题. 2021年，中国通过了个人资料保护法(PIPL), 复杂的立法，包括具体的现金范围，如果不遵守法律，公司可能会被追究责任. 到目前为止, 在创作的SEC文件中没有提到PIPL(只是间接地在Zoom的2023年10-K文件中)。, 但是，这项法律如何影响国际教育机构和为它们提供技术服务的供应商是一个主要问题.

我还期待一些关于现代人工智能带来的新风险的深刻讨论. 一般, 创作包含了一个简短的段落，关于与违反版权或许可的托管内容相关的责任. 如果深度伪造技术在创作的雷达上，那将是一件有趣的事情, 因为他们提出了一个更昂贵的挑战，以协助机构监管删除请求的攻击性, 高度个性化内容.

我也很想知道创作是如何进入同步视频服务领域的, 到目前为止，还没有在任何文件中被梳理出来. 正如在Zoom中讨论的那样, 同步视频的云百家乐软件配置比异步视频的云百家乐软件配置更具经济性, 这样创作就能发展更多的同步服务产品, 这可能对它的利润有利. 该公司还需要在不引起顾客不满的情况下，更有效地将储存成本转嫁给顾客, or, 更好的, 提供数据驱动的工具，用于评估哪些内容可以不必要地删除或归档到成本较低的存储中，以最大限度地降低存储成本.

明智的做法是采用“知识越多，责任越大”的数据保留策略角度, 也许与最不费力地遵守PIPL的努力一致, 《百家乐软件》, 和你.S. 隐私法. 另一个有吸引力的理由是认真管理录制视频数据的积累是流媒体绿色. 不必要的视频存储增加了电力使用，并导致碳排放到大气中.

可访问性现在很容易访问

在去年的“教育现状”视频中,“基于GPT-3的性能，我对ChatGPT的炒作泼了一些冷水. GPT-4是在原始资料出版前后发布的, 鉴于GPT-4的优异表现，这种怀疑不再是合理的. GPT-4在标准化测试中表现良好, 大学先修课程考试, 还有行业考试, 使其成为教师评估学生表现的主要因素.

我所见过的最好的建议，如何人工智能证明你的测试和作业, 松散改编自光学研究科学家和人工智能研究员Janelle Shane (aiweirdness.com), 是给学生可以回答的问题，但是一个预先训练过的变换器不能通过让学生在做作业的时候回答问题, 无论是在空间上还是在时间上. 变压器的训练数据在公共互联网上已经过时好几个月了, 所以它不能回答关于最近事件的问题也不能访问课本或课程网站上的特定页面(除非学生提示).

在过去的一年里，许多老师都在学习变压器革命并试图将人工智能纳入他们的教学中. 也许AI文本生成最有趣的用途是播种灵感. 在这里, 作业是让你的文本生成器就不同的主题生成几篇文章, 选择一个你最想重写的, 根据提示写出一篇你自己的原创文章. 我觉得这是对坎宁安定律的概括, 哪个可以表述为, “激励专家为你提供正确答案的最好方法，就是在公共互联网上发布错误的答案，引起他们的蔑视.“不管出于什么原因，听起来都是真的, 把创造性的精力投入到反对别人的观点上比同意别人的观点更容易，也更令人满意. 一项引人注目的写作任务是让学生重写两篇人工智能生成的文章——一篇他们同意，一篇他们不同意——并主观地评价这段经历. 作为一个班级, 然后他们会思考为什么会这样(假设这确实证明是班级的经历).

除了令人尴尬的低估大型语言模型(LLM)驱动的转换器的速度之外，对于比简答题更复杂的评估来说，这将带来实质性的挑战, 去年那篇文章的一个要点站得住脚: Whis-perOpenAI的开源语音转文本引擎，将在2023年为教育带来巨大的好处. In 2024, Whisper和Whisper-powered工具很容易使用, 即使对于那些不需要在视频上花费大量时间的技术挑战教师和学生来说，他们也需要为视频配上字幕.

在过去的5年里，随着基于注意力的转换器和llm的兴起，自动字幕的质量得到了极大的提高. Whisper自2022年9月起免费提供，提升了教育工作者为其教育视频制作封闭字幕的技术水平. Whisper能够以多种语言生成惊人的准确转录. 例如, 我支持了一个研究项目，生成了乌克兰语访谈的自动抄本, 俄罗斯, 英语, 捷克和逃离乌克兰战争的人以及向他们提供援助的人. 这项技术极大地改进了研究人员的程序(修改成绩单比从头开始写成绩单要快得多)，并且没有将高度敏感的数据发送到任何不可信的地方. Whisper增加了从一种语言到另一种语言的自动翻译能力，作为语音到文本过程的一部分，这几乎是不可想象的, 但它运行得很好.

不过Whisper并不完美，它有两个主要问题. 首先，它产生的片段是远的, far too long; often three or four lines of captions fill the width of the player. 第二点是Whisper容易产生幻觉, 就像所有变形金刚一样, 因为它们是用来预测单词并将它们发送到输出的，即使从人类语言用户的角度来看，输入非常稀疏或不存在. 通常, 幻觉发生在沉默或音乐等非语言信号之后或期间, 生成不相关的文本，或者通常只是在运行的剩余部分生成一系列句号.

WhisperX是一个正在着手解决这两个问题的项目(github) .com/m-bain/whisperX). WhisperX(见 图3) 通过检测语音信号和切断所有其他非语音音频间隔来预处理要转录的au - audio，这样Whisper就不会有产生幻觉的理由. 在生成这个编辑过的音频的文本之后, 它使用Me-ta的Wave2vec工具包对原始音频执行强制对齐，以计时代码并将文本分割成标题文件. 这是一个非常聪明的解决方案, 尽管它放弃了Whisper的翻译功能, 而且WhisperX的分割也往往太长了.

OpenAI耳语X管道
图3. WhisperX管道如图所示，见项目的GitHub自述文件

然而, 在教学视频中，幻觉通常不是问题, 那里几乎没有长时间的沉默或非言语声音. 事实上, 我使用Whisper已经好几个月了，我自己从来没有看到过这种现象，直到我们开始向它扔毕业典礼的录音，其中包括冗长的专业演讲. 因此, 作为一名教师, 使用Whisper的唯一问题是安装它，能够重新分割并轻松纠正它产生的字幕.

为了解决Whisper面临的挑战，字幕编辑是一个优秀且免费的工具吗. 虽然我最近才开始使用它，但它自2001年以来一直在开发中. 源代码在GitHub上进行了十多年的版本控制

当时主要是增强版的SubRip, 发明SRT文件类型的DVD字幕图片OCR程序. 字幕编辑的发展(见图4), 虽然, 专注于人机工程学而不是OCR, 将DVD字幕文本的识别工作推迟到Tesseract OCR引擎, 最初由惠普编写，后来被谷歌作为开源项目采用. 字幕编辑 was a fascinating program all along; by 2011, 它有一些先进的功能，比如实时文本聊天，这样多个编辑就可以在DVD本地化项目上合作，还有一个快速傅立叶变换(FFT)计算器，可以显示实时频谱图，帮助专家识别含糊的语音. 截至2014年，它可以导出201种不同的标题格式. 有3.6.10月8日上映. 24, 2022, 字幕编辑 began experimenting with using Whisper to auto-generate captions for any video to be presented in its 2-decades-in-the-making caption correction user interface; this occurred about 1 month after Whisper was open sourced. 该程序使下载和安装Whisper及其预训练模型变得轻而易举. Whisper版本的默认选项是Faster-Whisper的独立可执行包装器, WhisperX使用的引擎的相同变体. 另一个简单的选择，CPP，一个c++版本的Whisper，由杰出的和非凡的生产力格奥尔基Gerganov, 有一些非常有用的额外功能，如麦克风实时字幕和更紧凑的模型.

字幕编辑
图4. 编辑即将下载的媒体.甚至是预训练的Whisper模型

如果你需要给视频配字幕，那很容易产生幻觉, WhisperX是一种选择, 但它需要一个非标准的安装过程，绕过Conda虚拟环境步骤. 当使用大型模型时，原始的Whisper引擎明显受益于至少具有12GB V内存的GPU上的推理, 但Faster-Whisper和Whisper CPP在任何现代电脑上都表现良好.

字幕编辑将使用默认设置将文本重新分割为定时文本(参见图5)，足够接近Netflix的文本样式指南, 在全国聋人协会说服该公司成为流媒体娱乐行业无障碍的有效盟友后，它已成为行业标准.

编辑设置菜单
图5. “字幕编辑设置”菜单