🛤️为什么做“神绘 AI 视频”

Ryan

AI实践|2023-12-25|最后更新: 2024-1-23|
summary
category
tags
date

零.


去年今日(2022 年底), AI 浪潮席卷而来,像一股不可抗拒的潮流改变着我们的世界。我也躬身入局,离开了熟悉的大厂生活,投身于 AI 和创业。
我们团队围绕「AIGC + 数字人」做了一款产品——“神绘 AI 视频”——上线两个月便获得了 10000 个用户。
我将用一系列的文章回顾过去一年的产品实践,与大家分享我们的创业经验,以及在数字人和 AIGC 赛道上的探索。希望我的经历能为同样站在 AI 浪潮中的你提供一些启示和思考。
 
本文是第一篇,主要回答:
🖖
我们为什么要做这款产品 在创业早期,我们是如何确定产品定位的
 
 

一. 数字人兴起,风来了


现在让我们回到故事的开头——2022 年末——我加入这家公司的时候。
 
随着知名大 V 刘润在自己“进化的力量”年度演讲中推广自己的数字形象,数字人进入了大众视野。
“数字人”这三个字给人们的想象空间太大了。
notion image
notion image
 
事实上,数字人门类众多,不同的创建方式、不同的用途、不同的呈现方式,都对应着完全不同的产品和实现方式。不同数字人在能力上的差异很大,比如有的能驱动全身动作,有的能实现面部表情管理。巨大的想象空间也就意味着人们对这个概念的画像非常模糊,1000 个人对数字人有 1000 个理解。
notion image
 
而这次刘润带火的,便是 3D 超写实(或者叫高保真)数字人。
这是一种完全复刻用本体外貌的数字人技术。它通过一段原始视频作为输入,经过模型训练、推理实现几乎一摸一样的“数字版自己”。这种数字人的特点是,外貌相似度几乎做到了以假乱真,但自由度有限,无法生成原始视频中没有的动作或画面。
这条技术路线也是这个团队所擅长的。作为一家数字人技术提供商,像衍原本就专注于制作3D超写实数字人。
 
一个业务要在产品侧和商业侧成立,仅仅靠好的技术是不够的。
就像 GPT 这个技术本身早在 2018 年就出现了,直到 ChatGPT 这款产品出现(当然也和 GPT本身能力的爆炸增长有关),才成功走向市场(Go To Market)。
2023 年初,我们的命题是“拿着锤子找到合适的钉子”,在需求侧为这个技术找到合适的应用场景。
 
 
 

二. 明确赛道


在超写实数字人行业,有三个应用赛道——数字人客服、直播和短视频。
做哪一个赛道,成了我们最开始最先要解决的问题。
 

边缘的 B 端业务——数字人客服


这个场景中的数字人解决的是企业客服的拟人化问题,以提高用户问答体验,在银行、政务、企业客服等系统中有明确需求。
调研了市面上的产品后,我们得出以下结论:
  • 在客服系统中,其实数字人的形象和身份并不重要。人们不关心这个客服是张三还是李四,形象的价值仅仅在于企业诉求和些微微的用户体验提升。
  • 数字人背后的知识库是更重要的关键因素。而知识库业务对这家公司来说,完全是一个陌生的新领域。
  • 作为一个完全的 B 端生意,客服和支持系统一般归属于业务公司的「成本部门」。很难有预算和话语权能尝试新的技术形态、引入新供应商,尤其在国内市场。
  • 这决定了,这个产品的商业空间严重依赖于和甲方爸爸们的客户关系。而这点,也不是这个团队所擅长的。
  • 最后,这个业务本身壁垒并不高,可以预料到国内的云服务厂商几乎一定会做。届时与之相竞争,可谓毫无优势。
因此这个场景被我们 pass 了。
2023 年底,腾讯云官网介绍数字人客服
2023 年底,腾讯云官网介绍数字人客服
 2023 年底,火山引擎上的数字人客服
2023 年底,火山引擎上的数字人客服
 

离钱最近的泡沫——数字人+电商直播


这个场景中,企业用数字人替代主播角色,完成直播任务,以降低人员成本。
看起来这是个离钱最近的赛道,也是很多同行在拼命卷的赛道。我们冷静地从技术、产品和商业角度进行了分析后发现,事实并不是这样。
华莱士早期采用真人+数字人结合的方式直播
华莱士早期采用真人+数字人结合的方式直播
首先,在技术供给侧,直播对数字人技术提出了不小的挑战——有的短期可解,有的长期也不一定能解决好。要想数字人在电商直播场景下跑的通,需要至少满足以下几个关键点:
  • 互动性。大部分电商品类下,主播需要和商品进行互动。比如拿起一个商品、试穿或者试吃。这个短期内在技术上都是不太容易做到的。因此数字人只能适合比如电话卡、影视会员这种不需交互的商品品类。
  • 实时性。因为是直播,从用户提出问题到主播响应的间隔时间不能太长,比如抖音直播间一般是 6 秒。但如果用数字人技术实现,完整链路至少包含:收到用户互动信息 —> 调用知识库和 LLM 推理,生成回答 —> 调用 TTS 生成语音 —> 驱动数字人形象响应 —> 渲染并推流到直播间。短期内很难能实现较短延时。如果硬要减少时间,中间环节的效果就要大大折扣。比如使用质量较差的声音、推理视频画质降低等等。
  • 准确性。要让数字人能像主播一样了解商品,解答用户的问题,就必须要让数字人“具有智慧”——也就是通过大语言模型(LLM)能力调用商品的知识库。这涉及到检索增强生成(RAG)相关技术。目前类似技术很难做到完全 0 幻觉,但至少未来可期。因此,我们看到目前有的同行给出的解决方案是,直接安排一个运营人力在数字人背后。真 · 人工智能。
  • 合规性。对于直播商家和平台来说,合规性是另一项挑战。这里的合规性有三种含义。
    • 首先、数字人直播在电商平台的合规性。数字人尚属新鲜技术,不是所有的电商平台都支持数字人直播,即使支持数字人直播的平台也不一定会一直支持。商家因为使用数字人直播而被封禁的例子数不胜数。
    • 其次,电商直播互动内容的合规性。电商直播中,主播与用户的互动不仅要符合广告法、消费者权益保护法等相关法律法规,还要确保信息的真实性和透明性。
    • 最后,对于 AI 生成内容的合规性是最大的问题。生成式 AI 在产生内容时可能会引入不准确、有偏见或甚至是违法违规的信息。在实时直播的场景下,这样的风险被放大,一旦发生,可能即时引发用户的不满或触犯法律法规。
 
除了以上技术供给侧的问题,我们从需求侧的商业逻辑上思考,这个场景没有真正价值。
我们认为,商家使用数字人主播的核心目的不是降本,而是增效
  • 数字人要么能在同样成本下卖出比真人更多的货;要么能在卖出同样多的货时,花费的成本比真人主播更低。
  • 商家的核心业务指标就是ROI——无论使用的工具是数字人还是虚拟人,直播还是录播,这都是手段。商家需要确切地知道,我投入一个数字人到底能带来多少转化。
我们最终没有选这个方向,这些问题我们都答不上来。
我相信,即使选了这个方向的同行们,应该也答不上来。
站在现在往回看,后来发生的事情如我们所料,硅某智能下半年的代理商们应该深有感触——从“大家一起想用数字人赚用户的钱”,变成了“数字人厂家和代理商赚商家的钱”,又变成了“数字人厂家赚代理商的钱,代理商们看谁跑得快”,最终鱼死网破。
 

拥抱大众,拥抱创作——数字人+短视频


在探索数字人技术在不同应用场景中的潜力后,我们发现,相对于客服或直播这些强 B 端方向,将数字人技术应用于短视频创作,其价值显得更为具象和直接。
  1. 视频创作市场足够大。一个显而易见的事实是,短视频的生产和消费在当前这个时代仍然是一个巨大的蛋糕。有越来越多的内容消费者逐渐成为内容的创作者,“人人都是创作者”几乎快要成为现实。
  1. 细分领域的创作工具仍然有机会。App Store 视频剪辑类 APP 排行榜一直在变,无论大厂还是小团队,都有可能在这个市场中找到自己的机会。专业工具领域,剪映能从 FCP 和 PR 口中抢下一部分市场;轻创作领域,也有很多像 wink、一闪等创作类产品可以活得很好;今年更是出现了像 Opus AI 这样的 AI 新秀,他们给了我们信心。
  1. AIGC 技术供给逐渐提升。LLM 给数字人送来了大脑,让数字人拥有了「智慧」。文生图、文生视频也在快速迭代,素材获得的方式越来越丰富。「AIGC 降低创作门槛」不再是一句口号。
 
这个赛道的好处是显而易见的。
接下来就是具体策略问题了。我们要面对的第一个问题是:
在短视频创作这个庞大的市场,我们要面向谁?做什么样工具?
 
我给出的答案有两条。

1. 聚焦「知识口播」

在国内视频内容市场,我们能发现相当数量的「知识口播」类视频。这类内容的数量和质量都在持续增长。他们的特征是:
  1. 以真人口播为视频主体。
  1. 视频内容类型是知识讲解。领域包括且不限于:保险、法律、医疗、教育、政策解读等等
notion image
notion image
notion image
某平台上的「知识口播」型视频
某平台上的「知识口播」型视频
notion image
notion image
这类的内容天然适合用数字人 + AI 视频创作的组合拳解决创作效率问题。
  • 一方面,数字人技术可以实现「生成代替拍摄」,降低用户的拍摄成本。无需拍摄设备、无需布景、无需面对镜头,即可完成创作。
  • 另一方面,GPT 可以有效降低创作门槛。知识口播类的脚本创作非常适合 GPT 来完成,解决用户「选题难」、「写稿难」的问题
 
从商业模式上考虑,这个场景也是闭环的。
  • 这类创作者有天然的定制数字人的需求。对他们来说,「在视频中体现自己的形象」这件事非常重要。
  • 其中部分创作者有较强的付费能力。比如保险经纪人、律师、金融从业者,他们在做自媒体内容时大多有自己的「主营业务」。这些「主营业务」完全可以支持他们做内容时的成本支出。
  • 后期,通过提供形象美化、更好的 AI 包装效果等增值服务,还可以有进一步商业化的潜力
 

2. 进一步降低创作门槛

在专业级创作工具市场,上有 PR、 DaVinci、FCP等专业大厂,下有剪映、快影等国产互联网厂商追赶。他们面向的人群对于创作工具的需求,绝不是我等创业公司要试图解决问题。
而在消费级创作工具市场,除了各个内容平台提供的剪辑工具以外,第三方工具也百花齐放层出不穷。但这些工具有一个共同点是,大部分工具提供的核心价值是对素材的编排。因而,用户仍然需要手动拍摄和手动剪辑。这两个步骤如此的复杂,对于像我父母这辈的用户,剪辑窗口中复杂的时间线和效果器几乎一定会让他们看花眼。
能不能面向他们提供一种不需要拍摄和剪辑的创作工具呢?
这恰恰是知识口播类视频创作的机会。
在知识口播视频中,口播内容可以使用数字人技术生成;A-roll、B-roll素材以及视频的包装效果可以让 AI 完成。顺着这个思路,我们就绕过了传统视频创作「创作脚本-拍摄-剪辑-后期」的流程,真正实现「一键生成」。
当然,一味地降低门槛也不行。核心还是要保证这样创作出来的视频内容在质量上是「可用的」,用户愿意把这样的内容发出去,用户才愿意长期使用这样的工具。
 
 

三. 确定产品形态


在创业过程中,上面的讨论并不是一蹴而就的。我们需要不断重复「大胆假设、小心求证」的过程。
到 23 年 3 月份,我们对于新产品的定位逐渐清晰:
 
  • 这是一款针对无视频剪辑能力的小白用户的视频生成工具,面向有个人 IP 需求的知识类内容创作者。
  • 它的设计原则是:
    • 使用简单:操作简单,流程简单,不需要复杂精细剪辑。我们对内的说法是“爸妈也会用”
    • 端到端交付:利用 AI 能力,保证其最终产出的视频质量足以直接发布,无需二次剪辑
  • 它需要提供的核心功能是:
    • AI 写稿。解决创作者“不知道讲什么”以及“不知道怎么讲”的问题
    • 数字人驱动。解决创作者拍摄繁琐、出镜难问题
    • AI 剪辑包装。解决创作者“不知道怎么剪”、“不会做视频”的问题。
 
接下来,我会在下期聊聊我们怎么把它做出来,以及其中踩的坑。
下期见。
 

四. 参考资料


  • Twikoo