生成式人工智能工业革命

与工业革命相比，生成式人工智能可能对社会造成更大的分裂. 有许多问题非常值得研究创人工智能对流媒体产业的影响媒体和娱乐界等等. 在本文中, 我将重点介绍几个流媒体用例，希望能提供一个更广阔的视角，了解我们现在的世界正在发生的变化，以及我们可以期待的未来的变化.

At 流媒体连接在2023年8月，我主持了一个关于生成人工智能将如何影响媒体技术. 一年后，对话变得更加接地气和细致入微. 媒体客户愿意为他们想要使用人工智能来测试想法的项目做原型. 一家中型企业的代表表示，这是向前迈出的一大步.

但让我们先来定义什么是世代人工智能，什么不是，并讨论我们通常是如何与世代人工智能模型互动的.

人工智能与. 生成的人工智能

人们通常会对两者的区别感到困惑 AI /机器学习和创人工智能. 我们必须清楚地区分机器学习和人工智能，因为它们是非常不同的. 区别在于，新一代人工智能是在大量数据的基础上进行训练，以复制人类的产出. 无论是代码, graph-ics, 文本, video, 或音频, 与系统的交互使用自然语言处理，可以基于训练知识创建输出. 机器学习用于基于现有数据体的理解和预测.

欢迎来到你的聊天机器人

交互层为许多, 如果不是全部, 通用人工智能项目是由聊天机器人完成的, 其中输入是语音或文本. 这种提示工程(将指令结构化到所需的输出)现在正在取代现有产品上的传统用户界面. 以这种方式配置工作流可以节省时间，并且在理论上，在使用特定应用程序方面需要较少的专业知识. 然而，想要获得理想的产出仍然需要技能，只是不同的技能. 在其他情况下，用例创建了一种全新的做事方式. 与此同时, 创人工智能模型从你提供的数据中学习，并有可能建议从A点到达B点的最佳方式, 处理过程中的许多细微差别.

“我现在看到的基础应用程序实际上是引导帮助, 增加一个软件的使用,其中一家较大供应商的代表说. “下一步将是自动化, 无论是你可以通过对话完成的特定任务，还是一个完整的工作流程.”

精度

在启动到用例之前, 我想知道供应商从媒体公司那里收到了什么类型的问题.

Globant 是否有工程人员和媒体技术产品与多家知名大型媒体公司合作使用. Accord-ing来卢西亚诺·马科斯·埃斯库德罗, 该公司媒体工程副总裁, 客户想知道新一代人工智能如何处理他们的数据，以及输出的准确性. 例如，他们可以使用与内容库关联的元数据来创建推荐服务. 不准确的结果可能是对电影类型的不正确分类, 没有把一个演员和他们所有的电影联系在一起, 或者是系统产生的幻觉. “我们试图在输入和输出之间建立某种相关性, 但也不是100%,埃斯库德罗说. “我们把东西扔给一个一直在训练和自我训练的模特. 基于数据的推理并不总是准确的.也不清楚这种反应是如何产生的. 这两件事都会让客户非常不舒服. 在我这里讨论的所有用例中, 供应商将规则引擎(或提示工程以限制输出)放在最上面，以过滤掉不准确的响应.

今天的大型语言模型(llm)是在一般数据上训练的，而不是针对媒体和娱乐的. Naveen Narayanan, Quickplay他是该公司产品创新和战略主管, 他说，他的公司“将(法学硕士)与媒体和娱乐目录相关的问题捆绑在一起, 对创人工智能大型语言模型进行微调.结果是, 他指出, 这个模型是否能够“回答一个特定的问题，而不回答其他一些不在媒体上的问题?. 我们花了将近3个月的时间去调整不同的提示和界限. 我们在与这些法学硕士打交道时遇到的一些问题是，他们如何处理一致性等问题, 精度. 法学硕士并不一致. 有时他们会以特定的格式给你(回复)，有时则不然. 这其中有一些随机性.”

3个月后, 这个微调过程产生了一个相当可用的第一个版本, 有一个基于聊天的界面，了解用户试图寻找的历史. 这款基于人工智能的快速播放媒体伙伴通过基于语音的自然语言界面帮助用户搜索和发现内容.

快速播放媒体伙伴

快速播放媒体伙伴

但这是我的数据

一个经常出现的问题, Narayanan说, 是“我如何确保你正在做的事情不会反馈给模型，并从我的所有数据中获益??“aws和谷歌推出的专有模型都有一个可用的主模型. 它们将该模型实例化为一个本地实例, 这个特定模型的所有训练都存在于这个局部实例中. 它不会回到核心基础模型.“基本模型, Narayanan维护, 不是从任何客户拥有的专有数据中学习吗.

“你可以很容易地在本地项目中升级模型, 仍然保持你所有的微调, 并从中受益，而不必担心“将任何专有信息提供给核心基础模型”,纳拉亚南说. “这是这些大型云计算供应商为解决企业问题而做出的重大架构决策.“理论是，基础模型从开放的互联网数据中变得越来越智能, 但是企业数据, 无论好坏, 对这个知识没有贡献吗. Quickplay的模型实例, 在企业内部接受培训, 是否在信息的闭环中运作.

客户是否一直坚持使用闭环创人工智能模型? 体育组织似乎更愿意使用新一代人工智能，并且在数据的使用上更加灵活. “(体育)在使用已经训练好的外部模型方面更加灵活,埃斯库-德罗说. “实际上，我们也在用他们的数据训练模型.”

相比之下，埃斯库德罗说:“媒体(公司)完全相反. 媒体集团对外部模式并不那么开放. 他们希望运行具有特定IP的模型. 将他们的IP放入模型中具有安全性和治理流程, 我们需要提供大量关于如何处理的文件.”

成本

我们可以从两种角度来看待创人工智能成本:你节省了多少和你花费了多少. “现在, 我们的许多大客户都希望大规模利用创人工智能来做他们传统上一直在做的事情, 但是有了更多的成本优化和更快的上市速度,” 阿米特舱，解决方案架构高级总监 MediaKind. “针对中小型客户和潜在客户, 我们所看到的是，他们希望我们通过提供某些原本不可行的功能来帮助他们利用(创人工智能)来实现差异化.这包括更容易地管理所有编码设备的配置或提供自定义剪辑, 取决于用户偏好.

一个是关于你能拯救什么, 另一个问题涉及模型管理和监督, 如果你打算用人工智能功能取代一个人，这一点尤其重要. 这是许多此类对话的潜在主题.

“我们得到的最初问题之一是, 运行一个人工智能项目要花多少钱, 说Escudero. 全球客户通常想知道, “运行一项资产2小时要花多少钱, 每天都是这样, 多次?他听到的其他问题是，“什么是快速估值的时间?? 哪些事情可以在一到两个月内实现并真正产生价值?”

神奇的内容创作

我们的第一个用例涉及直播或VOD体育内容的精彩视频的虚拟生产. 使用人工智能增强或生成的元数据， Linius 通过视频搜索, 排序通常是10或20秒的片段, 并以此为基础为粉丝或内部内容管理团队制作视频. 该公司专注于人工智能增强的个性化视频体验，尤其是体育视频. “我们正在结合机器视觉来识别玩家, 行动, 噪声分析, 和评论员的情绪来排名和优先考虑比赛中的时刻, 和OCR来解释屏幕上的数据,Linius首席执行官说詹姆斯·布伦南.

你可以直接要求模型制作一段视频片段，其中包含棒球比赛中所有的左手投球，或者某个曲棍球运动员仅在3月份在多伦多取得的进球. “我们的系统访问原始视频，”布伦南说. “我们从不复制、移动、处理或恢复这些视频. 我们只是创建一个轻量级的数据表示，然后使用人工智能来操作该数据.”

解释这个过程是如何工作的, 布伦南还在继续, “Gen AI会解释所有数据，以确定哪些内容应该出现在精彩片段中, 写总结, 创建解说员脚本(用于文本或转换为语音), 然后生成API搜索查询, 是什么创造了即时视频.“Linius使用标准的HLS, MP4内容, 和AI标准化尺寸(16:9), 9:16, 1:1), 决议, 等. “要发布，我复制这个URL，粘贴到我的网络CMS中，视频就直播了.”

但是观看者看到的视频并不是一个独立的视频文件. “我正在发布一个指令集来告诉系统, “快去把这些不同的片段拉出来,’”布伦南说。. Linius的wizard Captivate解决方案可通过UI或API获得.

Linius在行动中迷惑

Linius Captivate在行动中

Stringr提供WeatherGen这是一个部署通用人工智能模型来创建定制新闻和天气节目的平台. “大约一年前, 我们开始开发一套解决方案，利用人工智能来创建自动化视频内容. 我们的想法是，如果出现幻觉，称之为硬新闻的风险太大了, 但如果你关注的是那些, 数据非常清晰, 那就有机会了,Stringr首席运营官兼首席产品官表示布莱恩麦克尼尔.

斯特林格从使用国家气象局内容的天气预报开始. “我们通过自己的系统对其进行了解析, 然后我们将其发送到各种大型语言模型中以生成脚本. 该脚本返回并进入不同的代AI模型以制作画外音. 我们把这些信息拼接成视频，用动态图像制作天气预报. 因为这是完全自动化的, 它允许我们的客户(当地媒体公司)为那些可能没有经济意义的市场制作语音视频天气预报.”

斯金格weathergen

Stringr WeatherGen

这些预测的典型长度在720p时为30,60或90秒. Stringr正在用英语和西班牙语制作内容. 考克斯媒体集团有一个FAST频道使用这个, 在八月, 另外三家较大的电视台集团也签署了使用Stringr的合同. 就像Linius的产品一样, 客户可以使用UI来配置他们的流, 或者他们可以通过API进行批量编程.

下面是另一个实际用例. “直播最大的问题是处理时间. We are not talking about seconds; we’re talking about minutes or even hours. 正因为如此，在这个阶段活下去是不值得的，”Globant的埃斯库德罗说. “如果我们(处理视频)来创建所有内容、音频等的元数据.这需要时间和金钱. 如果我们上线，情况会更糟，因为延迟比现在任何4K转码都要糟糕得多.”

尝试部署创人工智能来定制直播流的一个问题是, Escudero解释说, 这是否意味着“尝试将关键时刻置于情境中，而不是基于视频处理或图像处理?, 更多关于元数据.体育元数据, 由真人在体育场内实时创作, 将跟踪关键时刻:一场战斗, 一张黄牌, 一个目标, 或者暂停. “我们正试图在不分析视频的情况下，根据元数据开发钥匙和身份识别,他说. 这可以触发创建一个“高兴趣”的自动剪辑，而不需要人类视频工作人员来制作它.

你的社交网络想和你谈一些严肃的事情

一个为流媒体用户提供福利的新一代AI应用程序, 据Jon Alex和er说, Akamai的产品副总裁, 是不是天生就有这种能力, 与系统中的数据进行会话交互. “我们今天有一个报告应用程序，我们引入了一个聊天界面，你可以对你的数据提出问题,他说. “我们主要使用人工智能作为客户说话的自然语言界面, ‘嘿, 告诉我这部分网络发生了什么,或者“我在这里看到了什么样的威胁??“就我个人而言，我觉得创人工智能最有趣的地方之一就是用户界面的改进. 您可以通过系统与数据进行更多的会话交互，而不是按按钮或用某种预定义语言编写非常晦涩的指令.”

输出, 很像Excel, 能以多种格式显示数据吗, 从表格到折线图再到条形图. 如果不喜欢某个输出，可以请求另一个输出.

这个创人工智能实现采用了开源模型，并根据Aka-mai的安全解决方案对其进行了微调. 对于初学者来说，它可以理解英语、法语、德语和西班牙语的提示. “这是一个聊天界面，允许你与Akamai产品中的安全数据进行交互,亚历山大说。. 这是为安全工程师或站点可靠性工程师设计的——运行基础设施的技术用户或对所支持的服务负责的应用程序开发人员. “他们了解我们的web应用防火墙, 机器人管理, 或者我们的微细分服务, 他们正在使用这种新一代人工智能能力来更好地理解它,他指出.

如何发光管道

“对于大多数大型体育客户或电视运营商来说, 最大的痛点之一是建立流，将他们的视频通过整个现场制作视频管道，然后最终发送给最终消费者,MediaKind的Tank说. “就劳动力而言，成本很高, 这是容易出错的, 这样做的风险是，一个错误就可能让你下线.”

为了解决这个问题, 在NAB 2024, MediaKind推出了一款名为fleet的新型人工智能驱动管道管理工具 & 流. 它有一个自然语言处理层，使视频工程师能够与他们的编码器交谈. “Pre-viously, 过去，运营商团队需要在5个不同的屏幕上点击50到60次，才能配置5到10个不同的设备,坦克说. “现在他们可以简单地输入，‘我位于新泽西州，我想开通这个频道.’”

mediakind舰队 & 流

MediaKind舰队 & 流

更重要的是, 水箱补充道, 操作员客户可以管理所有编码设备, 就像接受贡献feed的设备一样, 然后依次将feed上行链路发送到平台，并进行适当的编码, 等.”

这听起来很棒, 这引出了一个问题, “我们如何确保NLP或人工智能能力所采取的行动是准确的，并与人类的意图保持一致? 我们的设计和架构更多是基于人类的意图，”Tank解释道. “我们训练和微调我们的人工智能能力，以理解操作员的意图.“人工智能模型会填充任何需要配置的东西, 然后操作员可以检查以确保他们对结果满意.

与你的媒体供应链对话

下一代人工智能用例涉及一家公司用聊天机器人取代其整个用户界面. 前提是企业应用程序比消费者产品有更大的学习曲线, 还有什么比让用户直接与媒体供应链平台对话更能让这条曲线变得平坦呢?

“我们不需要训练有素的操作员或视频工程师来操作我们的平台, 现在，一个非常初级的人可以坐下来完成同样的事情，只需输入需要发生的事情,” 丹口高曼，媒体供应平台提供商首席执行官 Ateliere. 这似乎说起来容易做起来难. 谁来确保对需要发生的事情提出正确的问题?

典型的问题可能是:我有这个内容吗? 我有所有正确的变化吗? 它是否处于可货币化的状态? 一旦这些问题得到解决，戈曼说，运营商可以选择将其发送到平台. 系统可以在进行修改前通过询问来检查需要修改的需求, “你想解决这个问题吗?, 或者我能帮你修好吗?”

Ateliere看到的另一个用例是管理人员能够查询要处理的内容的成本. 在摄影棚里, 他们总是问我们运营开销是多少，这样他们就知道他们是否做了正确的交易,戈曼说。. “我们拥有与履行订单相关的所有成本, 其中可能包括转码成本, 包装内容的成本, 并提供更准确的送货成本, 对企业主来说成本更完整,他说.

连接人工智能, 创人工智能-augmented, natural langu年龄 version of Ateliere’s Connect solution is only an option; API access 和 the interface for the platform will still be available for customers who want a more advanced or traditional way of interacting with the platform.

Ateliere 连接人工智能

在Ateliere 连接人工智能中上传资产

通用AI广告背景

以广告为中心的新一代人工智能用例采用基于视频的上下文洞察, audio, 以及转录分析(以及其他事情)，找到合适的位置和合适的上下文广告. 以前, FAST编程有许多非常规的广告插入方法, 一些频道每隔X分钟投放广告. “我们发现有一种更好的方法来识别可以插入广告的关键点, 我们还可以提供断点之前的段的上下文,Quickplay的纳拉亚南说. “我们已经与拉丁美洲最大的西班牙运营商之一进行了试点.”

Quickplay AI模型执行分析以确定投放广告的正确位置, 以及要求一个上下文匹配的广告.

Globant一直致力于相同的用例. “我们建立了一个解决方案，我们在一个场景中接收一个资产，然后, 场景结束后, 我们把它分解成若干帧，然后对它们进行处理，以识别该帧中的内容,埃斯库德罗说. 客户使用此元数据在广告中断前30秒查看内容的上下文，以便他们可以将与内容中发生的事情相关的标签传递给广告服务器.

我很想知道这些数据是如何存储的. 元数据位于Globant的CMS中. 它的数据模型可以配置为从10个传统字段扩展到数千个不同的向量，这些向量与特定资产的元数据一起存储, Narayanan说. 有些是用户可读的，是一组预定义的纯文本主题关键词. 还有一个过程是为每个视频总结指纹, 所有的信息都存储在向量for-mat中. 可以把它想象成代表内容的一系列数字, 它很容易以一组数字的形式存储在我们的数据库中,他说.

然后，这些元数据可以为构建消费者推荐提供基础, 转录, 翻译, 以及其他需要更深入地了解视频内容的用例.

买卖双方

下一个用例是我一直对大品牌持怀疑态度的想法, 因为我认为有太多的品牌指导方针，不能让创人工智能制作广告. 然而, Waymark 正在瞄准本地和中小企业的广告客户，并提供其自助服务技术，为小型广告客户提供轻松设计创意广告的选择, 有多个版本, 在5分钟之内. 第一个, 它将使用公司网站上存在的任何内容——标志, 网站副本, 以及风格——然后让用户选择一个调色板，并提供关于推广哪种故事情节的指导.

这个产品已经被派拉蒙贴上了白色标签, 斯克里普斯, 光谱范围, 和狐狸, 现在还有一些国际合同, 包括澳大利亚的九和美国.K. 报纸出版商National World, PLC. 它帮助获得了超过2亿美元的新收入, 这给流媒体广告收入带来了急需的提振. 去年，光谱范围和Way-mark仅通过为本地客户制作人工智能广告就创造了2700多万美元的收入.

“我们已经构建了大量用于制作视频的组件, 像动画, 转换, 结束信用卡, 所有这些组成了一个完整的视频,” Waymark首席执行官Alex Persky-Stern说. 资产与ai生成的脚本合并, 顾客可以从150种不同的声音中进行选择. 客户可以根据需要修改或恢复到旧的输出. Waymark提供两种不同的高清格式:一种用于广播和流媒体，另一种用于社交.

Waymark的工作原理

卖方, op提供广告管理解决方案，为更大的美元货币化活动. 对于拥有大量库存的人来说，其中一个复杂的难题是, “我有多少库存是通过我的直销团队直接销售的? 我应该在多大程度上转向程序化? 我如何为不同的广告客户优化不同渠道的库存? 我如何回应一个非结构化的RFP?” 本Tatta, op - operation的首席商务官, 谁的平台帮助许多大型媒体公司包装和销售广告.

媒体策划者可以就在哪里购买广告制定一个完整的计划, 目标对象, 预算, 还有更多的细节特工的聊天机器人艾德琳，它将填充软件中的需求. 你甚至可以上传语音邮件. 在计划生成后，计划者将进行检查并进行修改.

“对宝马来说，一个真正好的计划首先要借鉴宝马和/或(类似)制造商的所有历史计划,塔塔说。. 这将命中率从ai之前的平均50% - 60%提高到80%或更高，并使拥有大量数据的公司处于更好的位置. “对于成千上万的数据元素，我们有一个非常结构化的分类法, 你是如何定义受众的, 一个集会,塔塔说。.

当一个活动达到交付目标时，它可以被关闭，下一个活动可以开始.

建议

在流媒体世界中，客户最常见的要求是什么? 正如您所料，它是内容推荐.

“我们即将在第四季度为客户提供推荐服务，”纳拉亚南表示. “它的工作方式是，你将目录信息传递给创人工智能模型. 您捕获了使用信息——这个人观看了这个内容. 目录和消费信息合并在一起, 基于这种映射, 现在你就能知道用户接下来可能会关注什么内容了.他们既可以优化观看时间，也可以优化接下来的比赛完成率.

负责

在人工智能时代，更清晰的一点是，与你的技术交谈现在将变得更加普遍. 同样清楚的是，并非所有客户都了解人工智能的运作方式. 他们相信你把一个带有样本数据的算法放进去，它就会起作用. 但你必须使用AI进行A/B测试，并期望通过各种方法进行迭代. “你需要测试多代人工智能算法的多个样本，然后找到一个具有适当结果的样本,埃斯库德罗说. “我们需要教育客户如何看待人工智能.”

其他重要的问题(超出了本文的范围)是法学硕士接受培训的数据中的版权问题，以及广泛主题的公平代表, 比如种族, 性, 年龄, 位置, 还有更多. 不幸的是，人工智能模型的偏见并不比训练它们的人类少. 道德也是我在这里没有提到的另一个重要话题, 因为我们需要首先查看用例. 但这些其他领域即使不是更重要，也是非常重要的.

用例是将媒体和娱乐行业带入其中的一些可能性, 还有比我在这里提到的更多(比如本地化). 一家公司确定了五个为客户带来价值的领域: