俏皮公主闯校园在AI视频生成“乱花迷人眼”的当下,这个新产品究竟是如何做到迅速破圈,吸引大量关注度的?
从放出的Demo效果来看,Pika 1.0不仅能根据文字图片,流畅地生成一段视频,动静转换就在一瞬间:
而且可编辑性还特别强,指定视频中的任意元素,一句话就能实现快速“换装”:
经过四个多月Discord社区的测试,Pika认为是时候推出本次重大升级了。
相比之前Pika还只能用文字或图像生成视频,如今的Pika 1.0,功能要更加丰富——
不仅画面大小任意扩展,从5:2、1:1画布,到9:16以及16:9的超大屏,4种选择无缝转换:
最重要的是,1.0正式版推出了用户更友好的网页版,不用在discord中一遍遍艾特机器人,就能直接上手玩。
尽管它还未随网页版更新到Pika 1.0,但我们也实测了一下文字、图片生成视频的效果,还不错。
加入社区之后,直奔“Creations”,从下面的10个生成区随便选择一个进入即可开耍。
Wow,这次真的有很满意,画面符合脑海中的预测,甚至比我们想象得还要好。
除了纯文字,咱还可以上传一张参考图像进行创作,使用“/animate”命令。
总的来看,Pika给出的视频时长都是3s(所以使用太长的提示词也没用,后面会直接忽略掉),以及它还不能保证每次结果都很满意,但总体来说多试几次还是有不错的结果出现的。
Pika的创始人一共有两位,郭文景(Demi Guo)和Chenlin Meng,都是斯坦福博士。
据The Information消息,郭文景于今年四月创立了Pika,随后Chenlin Meng加入成为联创,两人合作开发了这个文本生成视频模型。
从二人学术经历来看,她们分别专注于NLP和计算机视觉两个方向的AI研究,也都有生成式AI的学术经历。
联合创始人兼CEO郭文景,斯坦福大学AI实验室(NLP&图形学方向)博士。
她在美国出生,杭州长大,初中就读的是杭州外国语学校,从小就接触编程,夺得过IOI银牌,从本科开始正式留学,被哈佛大学提前录取。
此次创业,她的领英主页显示休学中(On Leave),应该是打算先忙创业的事情。
在本科期间,她曾经gap过一年,专程在Facebook AI Research全职做了一段时间的研究工程师。
在职期间,她参与了用Transformer分析2.5亿个蛋白质序列的研究,目前这篇论文引用已有1200+,其中就包括后来大火的AlphaFold2:
Christopher D Manning以NLP方向的研究闻名,如今在谷歌学术上的引用量已有23w+,而他也将成为Pika的学术顾问之一。
相比郭文景在NLP领域的研究经验,她在计算机视觉、3D视觉方面的学术经历更加丰富,参与的去噪扩散隐式模型(DDIM)论文,如今单篇引用已有1700+:
除此之外,她还有多篇生成式AI相关研究发表在ICLR、NeurIPS、CVPR、ICML等顶会上,且多篇入选Oral。
当然,随着Pika 1.0爆火,Pika也开启了进一步的招人计划,从技术、产品到运营都有需求:
据不完全统计,从11月至今,短短一个月的时间就已经有5家AI视频生成产品发布或迎来大更新:
首先就是11月3日,Runway的Gen-2发布里程碑式更新,支持4K超逼真的清晰度作品。
然后时间来到11月16日,Meta发布Emu Video,这个工具在用户评估中号称打败Gen-2、Pika等对手,效果be like:
才过两天,11月18日,字节就半路杀出发布PixelDance,作品的动态性可谓史无前者,画面中的元素都动作幅度都相当大,且不变形,让人眼前一亮。
同一天,Gen-2又没闲着,“横插一脚”上线“涂哪动哪”的运动笔刷新功能,直接标志出生成模型可控性上的一个重要里程碑。
最后,就是今天了,11月29日,来自创业公司的Pika直接带着网页版发布正式版1.0,叫板“老大哥”Runway。
在此之外,我们还从未见过哪个阶段有这么多各有特色、来自不同背景的产品争相亮相。
|