< img src="https://certify.alexametrics.com/atrk.gif?account=ZpdFw1Y1Mn20Io" style="display:none" height="1" width="1" alt="" /> Midjourney 迎来最强对手,种子轮融资大佬云集,测试版让马斯克一「键」穿越 - 赛博财经
当前位置:首页 > 区块链 > Midjourney 迎来最强对手,种子轮融资大佬云集,测试版让马斯克一「键」穿越

Midjourney 迎来最强对手,种子轮融资大佬云集,测试版让马斯克一「键」穿越

Flv8A9CaGLc0SLy236JMCuVChL-2

一直以来,Midjourney 稳坐 AIGC 文生图的王座,少有威胁,直到这家公司的出现。

8 月 23 日,生成式人工智能创业公司 Ideogram AI 正式官宣:「我们正在开发最先进的人工智能工具,使创意表达变得更容易、更有趣、更高效。」官网写道。

团队核心成员也是谷歌大脑 Imagen 团队主要成员, Ideogram AI 也被认为试图将 Imagen 发扬光大:

Mohammad Norouzi(CEO )、Jonathan Ho (联合创始人)、 William Chan 和 Chitwan Saharia 都是谷歌文本至图像 AI 模型 Imagen 的核心作者,相关论文曾入围 NeurIPS 2022 Outstanding paper 。

Imagen 使用 Transformer 语言模型将输入的文本转换成一个嵌入式向量的序列。然后,连续的三个扩散模型( diffusion model )会将这些嵌入式的向量转换成 1024x1024 像素的图片。

由于概念上简单且易于训练,还能产生惊人的强大效果,Imagen 不仅重塑了大家对扩散模型的认知,也开辟出一条 DALL-E 2 以外的文生图新范式。

后来,Meta 宣布其文本视频 AI 模型 Make-A-Video 之后,谷歌又发布了视频模型 Imagen Video(看看,名字都差不多),基于级联视频扩散模型来生成高清视频。

Imagen Video 继承了此前 Imagen 文本生成图像系统的准确描绘文字的功能,以此为基础,仅靠简单描述产生各种创意动画。

官网显示的当前团队成员。

「我们的创始团队他们曾在谷歌大脑、UC 伯克利分校、卡内基梅隆大学和多伦多大学领导过变革性人工智能项目。」官网显示。

Mohammad Norouzi 创业之前在谷歌大脑工作了 7 年,在谷歌的最后级别是高级研究科学家,工作重点是生成模型。Ideogram AI 在人工智能方面的基础工作积累当中,他的涉猎范围最广,包括 Imagen、Imagen Video 、用于语音合成的 WaveGrad 、神经机器翻译、用于学习视觉表示的对比学习等。合作的团队成员也最多。

联合创始人 Jonathan Ho ,UC 伯克利博士毕业,在扩散模型方面做了非常重要的工作,以至于他的离开被业内人士视为谷歌的重大损失。

2022 年 4 月,谷歌提出了视频扩散模型(Video Diffusion Models),首次报告了扩散模型根据文本生成视频的结果(效果不俗)。Mohammad Norouzi 、Jonathan Ho 正是文章的主要作者。

Jonathan Ho 也是扩散模型奠基作品之一、提出去噪扩散模型 Denoising Diffusion Probabilistic Models 一作。(有趣的是,合著者之一 Pieter Abbeel 也是这家公司的投资人)。

Chitwan Saharia 在谷歌工作时,主要负责领导 image-to-image 扩散模型的工作。除了扩散模型方面的工作,Willian chan 在谷歌工作时从事过神经语音识别研究,与 Mohammad Norouzi 合作研究用于语音合成的 WaveGrad 。

或许是因为谷歌囿于安全、伦理方面的顾虑,需要再做进一步的规范,来选择是否开源 Imagen 和 Imagen Video ,这些中坚力量决定离开创业。

「我们正在突破人工智能的极限,重点关注创造力以及信任和安全的高标准。」官宣最后写道。

官网截图

当天,公司还宣布已筹集由 a16z 和 Index Ventures 领投的总计 1650 万美元的种子融资。几位如雷贯耳的行业中坚力量也参与了本轮投资。

例如,Node.js 之父 Ryan Dahl 、Uber 首席科学家 Raquel Urtasun、Jeff Dean、Andrej Karpathy、 Pieter Abbeel 、GitHub 创始人 Tom Preston-Werner 。

同时,公司也宣布迎来 v0.1 的公开测试版。我们也简单体验了一下。目前仅提供文字生成图片的服务,操作很简单,仅需输入你的需求,然后选择生成图像的风格和比例即可。

系统理解能力还是不错的,特别是对图片中需要生成的文字的理解。缺点是响应速度比较慢,还不能理解中文指令,构图的空间理解也有待提升。

操作页面

「Ponyo diving in the milk with dorphin 」,AI 似乎无法理解命令里的 「milk」,而是按照自己的理解(sea)给出了画面。

我们换了一个输入:「 Elon Musk take hands with Lisa (blackpink )in a Tesla car,( cinematic )」

基本正确。只是两个人的脸蛋都有点问题,这是 Lisa?

声明:本文为转发软文,观点仅代表作者本人,绝不代表赞同其观点或证实其描述。

提示:投资有风险,入市须谨慎。本资讯不作为投资理财建议。

来源:转载。https://www.8btc.com/article/6830730


猜你喜欢

热门标签

关注我们

微信公众号

no cache
Processed in 1.415203 Second.