数据科学简讯 2023-04-07
头条
Segment Anything 图像分割的重大进步
图像分割是提取图像中代表特定对象(例如人或桌子)的所有像素的过程。由于几个原因,这是一项艰巨的任务,通常它要么需要大量预定义对象的数据集,要么需要一些的初级监督数据。 Meta 的这个全新的、完全开源的模型感觉就像是功能上的飞跃。他们收集了大量数据集,简化了注释功能,并创建了一个可以在浏览器中实时运行的模型。并提供演示、代码和论文。
谷歌展示了其最新的 A.I.超级计算机,说它打败了英伟达
谷歌开发了一种基于 TPU 的超级计算机,称为 TPU v4,它声称比 Nvidia 的 A100 芯片快 1.2-1.7 倍,功耗低 1.3-1.9 倍。该系统由 4,000 多个张量处理单元 (TPU) 组成,自 2020 年以来一直在运行,并用于训练谷歌的 PaLM 模型。 AI 不断增长的功率需求继续推动芯片行业的创新,并使谷歌、微软和亚马逊等云提供商受益,它们出租处理能力并为初创企业提供资源。
研究
模型在训练时会发生什么?
来自 EleutherAI 的 Pythia 论文终于来了!随着时间的推移,他们在训练过程中发布了数百个 Transformer 模型的检查点。这很有用,因为完全不清楚随着时间的推移会获得哪些技能模型,但现在人们可以检查训练的动态过程,并深入了解潜在的改进点。
大型语言模型综述
本文讨论了人工智能算法语言建模的演变,重点关注具有数十亿参数的大型语言模型 (LLM) 的最新进展。该论文全面回顾了 LLM,包括预训练、自适应调优、利用和能力评估,并为研究人员和工程师提供了有用的资源。
AUDIT :按照 Latent Diffusion Models 的指令进行音频编辑
AUDIT 是一种基于潜在扩散模型的新型指令引导音频编辑模型,它可以自动只修改必要的音频片段,并且只需要编辑指令而不是完整的目标音频描述作为文本输入。所提出的模型在多个音频编辑任务(包括添加、删除、替换、修复和超分辨率)的客观和主观指标上都取得了最先进的结果。
工程
LLMs 基础
本教程讨论大型语言模型的基础知识。
Lyft2vec:Lyft Embeddings
这篇文章解释了 Lyft 如何使用图形学习方法来生成嵌入,这是高维信息的紧凑向量表示,以及这些嵌入如何揭示对拼车行业中的乘客、司机、位置和时间的洞察。
Vocode (GitHub Repo)
Vocode 是一个开源库,可以轻松构建基于语音的 LLM 应用程序。
杂七杂八
我们的 AI 安全方法论
OpenAI 在能力研究方面处于领先地位,他们也是为其语言模型开发安全系统的强大参与者。他们概述了他们正在处理的几个方向,例如真实性、儿童安全、隐私等。他们在所有这些目标上都取得了进展,事实上 GPT-4 在发布前 6 个月就完成了培训,但由于关注安全问题而退缩,这很有趣。这里最大的收获是 GPT-4 产生事实错误输出的可能性比 gpt-3.5-turbo 低 40%。
AI 视频将走向何方?
AI 生成的视频越来越受欢迎,通常描绘超现实场景或名人模因。该技术的快速发展引发了对其在好莱坞的潜力的质疑,例如电影选角或场景建模。尽管挑战依然存在,但专家认为人工智能将对内容创作产生重大影响,但它不会很快取代电影行业的人才。
神经网络:从菜鸟到老鸟 (Online Course)
Andrej Karpathy 开设的一门关于用代码从头开始构建神经网络的课程。
Imagica AI (Product)
在几分钟内构建无代码 AI 应用程序。
Meta 将在今年推出 AI 生成的广告
Facebook 所有者 Meta 打算在 12 月之前将其专有的生成人工智能商业化,与谷歌一起寻找该技术的实际应用。
澳大利亚市长可能起诉 ChatGPT
一位澳大利亚市长威胁要起诉 OpenAI,因为 AI 说他因受贿而入狱服刑。
Snapchat 为其 AI 聊天机器人添加了新的安全措施
Snapchat 正在推出新工具,包括年龄过滤器和父母监督,以改进其 AI 聊天机器人。