2024-11-19 简讯 : Pixtral Large
![](https://img.haomeiwen.com/i25067830/3a6418f982c80a39.png)
头条
Pixtral Large
https://mistral.ai/news/pixtral-large/
Pixtral Large 是一个基于 Mistral Large 2 构建的 124B 开放权重多模态模型。它是多模态系列中的第二个模型,展示了前沿级别的图像理解。该模型能够理解文档、图表和自然图像,同时保持 Mistral Large 2 领先的纯文本理解。
Perplexity 引入了购物功能
https://www.perplexity.ai/hub/blog/shop-like-a-pro
Perplexity 为美国的 Pro 用户引入了购物功能,使其成为一站式解决方案,您可以在其中研究和购买产品。
本·阿弗莱克告诉演员和作家不要担心AI
https://movieweb.com/ben-affleck-ai-role-in-hollywood/?utm_source=tldrai
本·阿弗莱克在接受采访时向好莱坞演员和编剧保证,由于目前的局限性,人工智能不会对他们的工作构成太大威胁。
研究
LlaVA-o1:推理 VLM
https://arxiv.org/abs/2411.10440
虽然这不是用于训练 o1 的过程的实际复制,但它仍然是一个在推理轨迹上训练的强大 VLM。
Sonnet 3.5 计算机使用案例研究
https://arxiv.org/abs/2411.10323
这项工作旨在系统地测试新的自主计算机使用代理的能力。它发现 Claude 在传统线性任务上非常强大。
教视频模型像故事一样理解时间
https://arxiv.org/abs/2411.10332v1
本文介绍了 NumPro,这是一种帮助视频大型语言模型处理视频时间基础任务的创新解决方案。
工程
Llama 3 405B 推理
https://cerebras.ai/blog/llama-405b-inference
Cerebras 拥有最大的 Llama 模型,运行速度比同类系统快 12 倍,比一些封闭模型 API 提供商快 18 倍。它可以以每秒近 1k 个令牌的速度运行。它将于明年年初通过 API 提供。
用于语义分割的 CLIP
https://github.com/YuHengsss/Trident
尽管 CLIP 在开放词汇任务中取得了成功,但由于特征噪声大且分辨率有限,它在语义分割方面仍举步维艰。 Trident 使用无需训练的框架解决了分辨率问题,该框架结合了子图像中的 CLIP 和 DINO 特征,并使用 SAM 的编码器进行全局特征聚合。
经认证的稳健性
https://github.com/suhyeok24/ft-cadis
这项工作的重点是通过微调现成的模型来提高平滑分类器的认证稳健性。
杂七杂八
Recapture
https://generative-video-camera-controls.github.io/
Google 的这篇论文展示了如何更改现有视频的摄像机视点。
Nous Research Forge
Forge Reasoning API 允许采用任何流行的模型,并使用代码解释器和高级推理功能对其进行增强。事实证明,这可以提高模型性能。
我的机器人管家在哪里?
https://spectrum.ieee.org/ai-robots
人工智能和机器人技术的进步正在加速人形机器人的发展,例如 Atlas、Optimus 和 Neo,这些机器人旨在完成类似于《杰森一家》中 Rosie 的家务。在制造经济高效、安全高效的执行器方面仍存在挑战。人工智能模型对于训练机器人自主执行复杂任务至关重要。尽管取得了进展,但这些人形机器人目前更适合工业环境。如果取得重大突破,它们最终可能会过渡到家庭环境。
谷歌研究主管:在人工智能时代,“学习编码”是否仍然是好建议
https://www.businessinsider.com/google-research-head-career-advice-learn-to-code-2024-11
尽管人工智能可以处理一些编码任务,但了解编码基础知识至关重要,并为医疗保健和教育等各个领域创造了新的机会。
为什么我们要使用 LLM 作为计算器?
https://vickiboykis.com/2024/11/09/why-are-we-using-llms-as-calculators/
研究人员正在试验 LLM 解决数学问题的能力,以评估其推理能力。
GPT 已达到极限
https://www.thealgorithmicbridge.com/p/gpts-are-maxed-out
据报道,OpenAI 的下一代模型(内部称为 Orion)的表现低于 Sam Altman 设定的预期,这表明 AI 模型的可扩展增长可能存在限制。