对话 Hedra 创始人 Michael Lingelbach:生成式视频如何借力 Meme 催生下一个风口
原文标题: Why AI Characters & Virtual Influencers Are the Next Frontier in Video ft Hedra’s Michael Lingelbach
主持人: Justine Moore , Matt Bornstein , a16z
嘉宾: Michael Lingelbach
整理 & 编译: Janna , ChainCatcher
Michael Lingelbach 是 Hedra 的创始人兼首席执行官,他曾是斯坦福大学计算机科学博士生,也曾是一名舞台演员,结合技术与表演热情,带领 Hedra 开发出业内领先的生成式音视频模型。 Hedra 是一家专注于全身体现、对话驱动视频生成的公司,其技术支持从虚拟影响者到教育内容的广泛应用,显著降低了内容创作门槛。本文编译自 a16z 播客,聚焦 AI 技术如何从病毒式 Meme 内容跨越到企业级应用,展现生成式音视频技术的革新潜力。
以下为对话内容,由 ChainCatcher 编译整理(有删减)。
Justine :我们看到 AI 在消费场景与企业场景之间的交叉应用非常有趣。几天前,我在《福布斯》上看到一则由 Hedra 生成的广告文本,内容竟然是一个会说话的婴儿在推广企业软件。但这也说明我们正处在一个新时代,企业正在快速拥抱 AI 技术,展现出极大的热情。
Michael :作为初创公司,我们的职责是从消费者用户的使用信号中汲取灵感,将其转化为企业用户可以依赖的下一代内容生产工具。过去几个月, Hedra 生成的一些病毒式内容引发了广泛关注,从早期的动漫风格角色到“婴儿播客”,再到本周的热门趋势——我其实也不确定是什么。 Meme 是一种非常有效的市场策略,通过触达大量受众迅速占领用户心智。这种策略在初创公司中越来越普遍。例如, a16z 投资的另一家公司 Cluey 就通过 Twitter 的病毒式传播获得了显著的品牌认知度。 Meme 的本质是技术赋予人们快速发挥创意的载体,短视频内容已主导文化意识。 Hedra 的生成式视频技术让用户能在几秒钟内将任何创意转化为内容。
Justine :请解释一下为什么人们用 Hedra 制作 Meme ,以及他们如何使用它,这与你目标市场的联系是什么?
Michael : Hedra 是首家大规模部署全身表达式、对话驱动的生成视频模型的公司。我们支持用户创作了数以百万计的内容,之所以能迅速流行,是因为我们填补了内容创作技术栈中的关键空白。此前,制作生成式播客、动画角色对话场景或歌唱视频非常困难,要么成本高昂,要么缺乏灵活性,要么耗时过长。我们的模型快速且成本低廉,因此催生了虚拟影响者的崛起。
Justine :近期, CNBC 发表了一篇关于 Hedra 驱动的虚拟影响者的文章。能否举几个具体例子,说明影响者如何使用 Hedra ?
Michael :比如,著名演员 John Lawa (《 The League 》中 Taco 的扮演者)利用 Hedra 创作了从“摩西播客”到“婴儿播客”的系列内容,这些角色如今拥有独特的身份。另一个例子是 Neural Viz ,他们基于 Hedra 打造了一个以角色身份为核心的“元宇宙”。生成式表演与单纯的媒体模型不同,它需要在模型中注入个性、一致性和控制力,这对视频表现尤为重要。因此,我们看到这些虚拟角色的独特个性开始流行,尽管它们并非真实人物。
Matt :我在 Instagram Reels 上看到很多 Hedra 视频,既有像 Neural Viz 系列中的外星人这样全新创作的角色——过去只有好莱坞大制作才能实现,也有真实人物利用这些工具扩展自己的数字存在。许多影响者或内容创作者不想每次都精心打扮、调整灯光或化妆。 Hedra 让像“妈妈博主”这样的人群能快速生成视频传达信息,而无需花费大量时间准备。例如,他们可以直接用 Hedra 生成与相机对谈的内容。
Michael :这是一个很重要的观察。维护个人品牌对内容创作者来说至关重要,但保持全天候在线非常困难。如果创作者暂停更新一周,可能会流失粉丝。 Hedra 的自动化技术极大降低了创作门槛。用户结合像 Deep Research 这样的工具生成脚本,再通过 Hedra 生成音视频内容,并自动发布到他们的频道。我们看到越来越多围绕自主数字身份的工作流,不仅服务于真实人物,也包括完全虚构的角色。
Justine :现在很多历史视频在 Reels 上流行。过去,我们通过阅读历史书获取知识,但这有些枯燥。如果能通过角色讲述历史并展示生成式视频场景,体验会更加引人入胜。
Michael :虽然我们不直接针对教育领域,但许多教育公司基于我们的 API 开发应用。视频交互的参与度远高于文字。我们近期推出了实时交互视频模型,这是首款实现低延迟音视频体验的产品。从语言学习到个人提升应用,当技术成本足够低时,将彻底改变用户与大语言模型( LLM )的交互方式。我个人最喜欢的项目是“与你最爱的书或电影角色聊天”。比如,你可以问:“为什么明知有凶手你还走进那个黑暗房间?”这种交互式体验比传统有声书更丰富,因为用户可以提出问题、回溯内容,体验更加生动。
Justine :视频模型的搜索空间非常大。单帧图像生成已经很复杂,但生成 120 帧的连续视频更具挑战性。 Hedra 聚焦于一个独特且有意义的问题,与其他视频模型有所不同。请描述一下这个问题的定义以及你的灵感来源。
Michael :这是一个很好的问题。我们看到基础模型层出现了专业化分工,就像 Claude 成为编程模型的标杆, Open AI 提供通用助手, Gemini 因成本效益和速度服务于企业场景。 Hedra 在视频模型领域也有类似定位。我们的基础模型性能很高,尤其是下一代模型,提供了内容创作的极大灵活性。但我们更关注如何让内容“活起来”,让用户愿意与之互动,感受到一致的个性和吸引力。核心在于如何将视频中角色的智能与渲染体验结合。我的愿景是用户能与视频中的角色双向沟通,角色拥有可编程的独特个性。这需要垂直整合,不仅优化核心模型,还要重新思考用户交互的未来体验。
Michael :我来自戏剧背景,虽然不是专业演员,但对角色表演充满热情。视频是我们日常互动的核心,无论是广告、在线课程还是 Hedra 驱动的无面频道,连接感至关重要。我们通过降低创作门槛、加快速度,让普通用户也能轻松生成内容。未来,模型的智能与渲染界限将逐渐模糊,用户将与理解其意图的系统对话。我们将角色视为控制的核心单元,而不仅仅是视频。这需要收集用户反馈,优化角色真实感和表现力,同时提供针对多主体的控制杠杆。
Matt :我花了很多时间为不同视频创建角色, Hedra 的强大之处在于集成的角色创作工具。你可以创建或上传角色形象,保存以供后续使用,甚至转换语境或克隆声音。我的 YouTube 视频和教程的许多开场白都使用了 Hedra 克隆的我的声音。这种一体化体验在碎片化的生成式媒体市场中尤为珍贵。
Justine :许多公司如 Black Forest Labs 在技术上取得突破,但仍需像 Hedra 这样的伙伴将体验传递给消费者和企业用户。你如何决定打造一个一体化平台,而不局限于某一技术?
Michael :这关乎专注与用户需求。我创立 Hedra 时,发现将对话融入媒体非常困难。过去,用户制作短视频需要叠加唇同步,缺乏整体感。我们的技术灵感是将呼吸、手势等信号与对话统一,打造更自然的视频模型。从市场角度看,我们观察到用户对不同应用的付费意愿差异。一些热门应用可能付费意愿低,但某些细分领域(如内容创作者)对高质量体验有强烈需求。我们选择整合最佳技术,无论是 Hedra 的还是伙伴如 11 Labs 的,确保用户获得最佳体验。
Matt :未来, AI 角色会由单一模型生成文本、脚本、语音和视觉吗?
Michael :我认为行业正迈向多模态输入输出范式。单一模型的挑战在于控制力。用户需要精确调整语音、音调或节奏等细节。解耦输入能提供更多控制,但未来可能趋向全模态模型,用户可通过引导信号调整各模态的贴合度。
Justine : Hedra 的长视频生成能力让我印象深刻。你可以上传几分钟音频,生成角色对话视频,分别调整形象和声音,避免一次性生成浪费资源。这种控制力让我对交互式视频的未来充满期待。
Michael :我们刚推出的交互式头像模型让我兴奋。未来,用户能像在流体画布上一样塑造视频元素,例如暂停视频并要求角色在某段话中更悲伤。这种双向沟通将带来下一代体验,很快就会实现。
Matt :真正的 AI 演员可能吗?用户实时与创建的角色互动,并给予指令。
Michael :绝对可能。但目前限制不在视频模型,而在大语言模型的个性真实感上。现有的 AI 伴侣(如 Character AI )仍带有明显的模型痕迹。要实现真正交互式数字角色,还需在可配置个性上投入更多研究。
Justine : Hedra 的视频令人惊叹,但音频有时稍逊。 11 Labs 的最新模型提升了音频质量,但内容吸引力仍需改进。
Michael :音频生成是一个未充分探索的领域。当前生成式语音多用于旁白或配音,但像在嘈杂咖啡馆中生成自然对话的场景仍具挑战性。我们需要能控制环境音、多轮对话的音频模型,以提升视频创作的自然度。视频 AI 仍处于早期阶段。就像早期 CGI 特效看似逼真,如今看来却像卡通。我们的第一代模型曾让我惊叹,但现在看来已显粗糙。实现超可控、成本效益高、实时性能强的模型仍需努力。
Matt :用户会更喜欢与真实人类、拟真人类还是卡通角色互动?
Michael :我们生成了很多毛茸茸的小球和猫咪角色。 Hedra 的统一模型能处理各种角色,无论是石头还是机器人,让用户自由实验,创造前所未有的内容。我们打造统一模型,而非传统视频加唇同步,是为了避免用户受限于技术。用户可以尝试“会说话的石头”或“机器人与人的播客”,模型能自动处理对话和个性。这种灵活性激发了革命性的消费场景。
Justine : AI 的交叉应用令人兴奋。消费者创造像“婴儿播客”这样的内容,启发企业应用。我在《福布斯》看到 Hedra 生成的婴儿广告推广企业软件,令人惊讶。这说明企业正快速拥抱 AI ,我们需要将消费者信号转化为企业级解决方案。
Michael :企业是我们增长最快的领域。生成式 AI 让内容创作从数周缩短到实时。例如,自动新闻主播正改变信息传播方式。过去,地方新闻因成本高昂而消失,但现在一人即可运营新闻频道。这种“中等规模个性化”满足了特定人群的需求,如地方美食或主题公园的精准广告,比过度个性化的 Google 模型更有效。
Justine :作为创始人,你的经历如何?有哪些挑战和收获?
Michael :在旧金山,创始人生活常被美化,像是构建划时代技术的浪漫旅程。我来自佛罗里达小镇,从未想过会走这条路。但做创始人 99% 的时间都很艰难。你必须不断推动,问题从不减少——从隐形开发到面对海量支持邮件。身体上很疲惫,但内在满足感无与伦比。我爱我的用户和团队,无法想象做其他事。这是一种“第二类乐趣”——像攀登雪山,手脚受伤,但到达山顶后仍想再来。我每天早 7:30 进办公室,晚 10 点离开,有时凌晨 2 点还在讨论功能。这需要放弃工作与生活的界限,但热爱让我坚持。
Matt :你为何仍亲自编程?是表达创意还是与团队沟通?
Michael :两者都有。原型帮助我快速验证想法并明确传达预期。作为领导者,清晰沟通至关重要。我会与设计师讨论边界情况,确保系统可扩展。编程让我保持与团队的连接,了解他们的挑战,同时快速探索产品方向。
点击了解ChainCatcher在招岗位
推荐阅读:
a16z 加密营销指南:从 0 到 100,创始人该做什么?
a16z:Crypto 与 AI 融合的 11 个应用场景
Solana Price Prediction: SOL Loses Its Shine As BASE and Layer Brett L2’s Steal Ground
Solana’s shine fades with outages and governance issues as BASE and Layer Brett rise. At $0.0044, LB...
Cardone Capital Buys 130 Bitcoin in Fourth Real Estate Deal
The post Cardone Capital Buys 130 Bitcoin in Fourth Real Estate Deal appeared first on Coinpedia Fin...
Crypto Braces For Impact As JPow’s Jackson Hole Speech Looms
The crypto market slid into the week in a holding pattern, with price action grinding sideways and p...