“I”:视频输入。GPT-4V对视频的理解还相当原始,因为它将视频视为一系列离散图像。减少信息冗余的最聪明方法是什么?学习目标应该是什么?下一帧预测与下一个单词预测有着明显的类比关系,但它是否是最佳的?如何与语言交错?如何引导机器人和人工智能的视频学习?业界尚未达成共识。
2023年,我们看到了扩散模型推理速度方面的一些重大理论改进,例如Song等人的原始一致性模型论文,以及最近的LCM。(另外,对抗扩散蒸馏。)我们已经开始看到使用这些想法的项目,例如Dan Wood的Art Spew(每秒77512×512图像,在单个4090上)、Modal的Turbo.art(基于SDXL Turbo) 和fal.ai的30fps脸部交换。
微软将推出一款围绕构建的设备,它已经开始将AI伴侣融入Office等软件产品中。
如果你接触蛋仔不多,可能实在不能理解这种事。他们的跨年活动,到底有什么特别的?
对于这款格力玫瑰空调,网友们众说纷纭。有人认为这是格力创新设计的体现,也有人认为其售价过高并不值得购买。