数据科学简讯 2023-03-31

2023-03-29  本文已影响0人  数科每日

头条


技术领导者呼吁 AI 暂停 6 个月

一群著名的计算机科学家和行业专家,包括埃隆·马斯克和史蒂夫·沃兹尼亚克,呼吁暂停 6 个月,以考虑推出具有“人类竞争情报”的人工智能系统可能会胜过人类的风险。他们的请愿书由非营利组织“未来生命研究所”组织,警告说此类人工智能系统可能对社会和人类构成深远风险,包括虚假信息充斥互联网、工作自动化以及未来更具灾难性的风险。虽然这封信已经引起了怀疑,但一些政府已经在努力监管高风险的人工智能工具。

Cerebras 发布了首个未在 GPU 上训练的计算最优 GPT 模型

GPU 是训练大规模 AI 模型的主要硬件。许多团体正在尝试开发定制的 AI 芯片。 Cerebras 的 CS-2 系统具有高吞吐量和片上内存。他们声称由于芯片的强大功能,这项工作(111M - 13B 参数模型)在短短几周内就完成了。这与大约 5 个月的 Llama 项目(最多 65B 参数)形成对比。他们接受过“最佳计算”训练,这意味着它们不如同等大小的 Llama 模型强大。


研究


StyleDiffusion:基于Text-Based Editing 的Prompt-Embedding Inversion

研究人员通过优化交叉注意力层中价值线性网络的输入并引入注意力正则化来维护类似对象的注意力图,从而解决了用于图像编辑的预训练扩散模型的局限性。这些改进带来了卓越的编辑功能,通过对各种图像进行广泛的实验性即时编辑证明了这一点。

介绍 GPT4All (GitHub Repo)

GPT4All 是一个 7B 参数语言模型,在高质量的辅助数据上训练,并附有 800K 数据样本、训练代码和模型权重,用于开放研究和可复现性。还提供了可以在 CPU 上运行的 4 位量化版本。

Try out text to video (HuggingFace Space)

虽然此演示一次只能生成 8 帧,但它可以让人们深入了解其中一些生成视频模型的功能。这里仍然存在许多悬而未决的问题,例如世代长度、一致性和世界知识——但事情正在向前发展。生成视频所需的计算量远高于图像或文本,因此这些模型往往运行速度较慢且训练时间较长。


工程


增加文本到 3D 模型的一致性 (GitHub Repo)

自从去年强大的文本到图像模型问世以来,人们一直在尝试从 2d 转向 3d。一个问题是“多视图一致性”问题,如果你只看到一个对象的一部分,你如何推断其他部分的样子。许多天真的方法会复制并粘贴对象周围的 2d 图像,这会导致非常奇怪的图像。通过使用一致性注入技术,您可以利用 2d 模型的语义理解来创建相当健壮的 3d 模型。文本到 3d 打印管道来了!

VIVE3D:使用 3D 感知 GAN 进行独立于视点的视频编辑(GitHub Repo)

作者介绍了 VIVE3D,这是一种将基于图像的 3D GAN 的功能扩展到视频编辑的新技术。它使用了针对相机参数优化的新型 GAN 反转技术,并引入了新的编辑,显示头部的新视图,使用光流引导合成将头部与背景视频相结合,从而从各种相机中获得高保真、质量一致的面部编辑观点。

Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion (GitHub Repo)

nstruct 3D-to-3D 是一种高质量的 3D 到 3D 转换方法,它利用预训练的图像到图像扩散模型根据文本指令转换 3D 场景,同时保持一致性和可控性。与基线方法相比,定量和定性评估证明了卓越的转换质量,并增加了可调节几何转换强度的动态缩放。


杂七杂八


Attention is All You Need from Not Boring by Packy McCormick (25 minute read)

ChatGPT,OpenAI 日益强大的人工智能,正在转变为一个可以去中介化和颠覆各行各业的平台。通过引入插件和第三方集成,ChatGPT 可以吸收许多产品的功能,将它们转化为 API,并创建满足用户需求的一站式目的地。作为“Apex Aggregator”,ChatGPT 准备简化用户体验、重塑消费者行为并迫使企业进行调整,这可能会影响利润率及其运营方式。

AI 风险不等于 AGI 风险(5 minute read)

Gary Marcus 认为,尽管 AGI 的风险还很遥远,但当前的 AI LLM 模型具有其独特而严重的风险。

微软限制聊天机器人竞争对手的 Bing 访问 (2 minute read)

微软现在限制其 AI 聊天机器人竞争对手访问 Bing。

Flux (Tweet Thread)

Flux 允许用户在树结构中为每个提示生成多个补全,并并行探索最佳补全。

GPT4All (GitHub Repo)

GPT4All 提供演示、数据和代码来训练助理式 LLM。

Lit-LLaMA (GitHub Repo)

Lit-LLaMA 是 LLaMA 的完全开源模型。

上一篇下一篇

猜你喜欢

热点阅读