2024-11-19 简讯 : Pixtral Large

2024-11-19 本文已影响0人数科每日

头条

Pixtral Large

https://mistral.ai/news/pixtral-large/

Pixtral Large 是一个基于 Mistral Large 2 构建的 124B 开放权重多模态模型。它是多模态系列中的第二个模型，展示了前沿级别的图像理解。该模型能够理解文档、图表和自然图像，同时保持 Mistral Large 2 领先的纯文本理解。

Perplexity 引入了购物功能

https://www.perplexity.ai/hub/blog/shop-like-a-pro

Perplexity 为美国的 Pro 用户引入了购物功能，使其成为一站式解决方案，您可以在其中研究和购买产品。

本·阿弗莱克告诉演员和作家不要担心AI

https://movieweb.com/ben-affleck-ai-role-in-hollywood/?utm_source=tldrai

本·阿弗莱克在接受采访时向好莱坞演员和编剧保证，由于目前的局限性，人工智能不会对他们的工作构成太大威胁。

研究

LlaVA-o1：推理 VLM

https://arxiv.org/abs/2411.10440

虽然这不是用于训练 o1 的过程的实际复制，但它仍然是一个在推理轨迹上训练的强大 VLM。

Sonnet 3.5 计算机使用案例研究

https://arxiv.org/abs/2411.10323

这项工作旨在系统地测试新的自主计算机使用代理的能力。它发现 Claude 在传统线性任务上非常强大。

教视频模型像故事一样理解时间

https://arxiv.org/abs/2411.10332v1

本文介绍了 NumPro，这是一种帮助视频大型语言模型处理视频时间基础任务的创新解决方案。

工程

Llama 3 405B 推理

https://cerebras.ai/blog/llama-405b-inference

Cerebras 拥有最大的 Llama 模型，运行速度比同类系统快 12 倍，比一些封闭模型 API 提供商快 18 倍。它可以以每秒近 1k 个令牌的速度运行。它将于明年年初通过 API 提供。

用于语义分割的 CLIP

https://github.com/YuHengsss/Trident

尽管 CLIP 在开放词汇任务中取得了成功，但由于特征噪声大且分辨率有限，它在语义分割方面仍举步维艰。 Trident 使用无需训练的框架解决了分辨率问题，该框架结合了子图像中的 CLIP 和 DINO 特征，并使用 SAM 的编码器进行全局特征聚合。

经认证的稳健性

https://github.com/suhyeok24/ft-cadis

这项工作的重点是通过微调现成的模型来提高平滑分类器的认证稳健性。

2024-11-19 简讯 : Pixtral Large

头条

Pixtral Large

Perplexity 引入了购物功能

本·阿弗莱克告诉演员和作家不要担心AI

研究

LlaVA-o1：推理 VLM

Sonnet 3.5 计算机使用案例研究

教视频模型像故事一样理解时间

工程

Llama 3 405B 推理

用于语义分割的 CLIP

经认证的稳健性

杂七杂八

Recapture

Nous Research Forge

我的机器人管家在哪里？

谷歌研究主管：在人工智能时代，“学习编码”是否仍然是好建议

为什么我们要使用 LLM 作为计算器？

GPT 已达到极限

猜你喜欢

热点阅读