2024-08-14 简讯 : 忘记 Midjourney 吧

2024-08-12  本文已影响0人  数科每日

头条


忘记 Midjourney 吧 — Flux 是人工智能图像生成的新王者

https://www.tomsguide.com/ai/ai-image-video/forget-midjourney-flux-is-the-new-king-of-ai-image-generation-and-heres-how-to-get-access

Black Forest Labs 的 Flux AI 已成为最新的有前途的开源人工智能图像生成工具。它能够在消费级笔记本电脑上运行。它在渲染人物和快速遵守方面表现出色,在某些方面胜过 Midjourney 等竞争对手。该模型有 Pro、Dev 和 Schnell 版本,即将推出的文本转视频模型也宣布为开源。

YouTube 正在测试使用 Gemini 提出视频创意

https://techcrunch.com/2024/08/07/youtube-is-testing-a-feature-that-lets-creators-use-google-gemini-to-brainstorm-video-ideas/

YouTube 正在试用“Brainstorm with Gemini”功能,该功能可帮助创作者使用 Google 的 AI 生成视频创意和缩略图。该工具可供选定的创作者测试,它可以通过利用 AI 进行内容创作来区分 YouTube 与竞争对手。该平台正在评估创作者的反馈,然后再决定是否更广泛地发布。

OpenAI 引发更多动荡

https://spyglass.org/openai-non-non-profit/

OpenAI 的创始团队正在经历重大人员流动,11 名原始成员中目前只有 2 名活跃,人们越来越担心该组织从最初的非营利理想转向更以利润为导向的结构。此次离职包括联合创始人 Greg Brockman(休假)和 Ilya Sutskever(已离职),外界猜测他们可能会精疲力竭,并希望获得丰厚的二次财务回报。该组织面临挑战,因为它可能需要一个新的主要现金合作伙伴,并预计 GPT-5 的发布会延迟,而业界正在考虑“开放”与“封闭”人工智能模型的优点。


研究


Gemma Scope

https://arxiv.org/abs/2408.05147
几周前,DeepMind 在 Gemma 2 模型套件上发布了一些稀疏自动编码器。这是现在的配套论文,研究人员在其中讨论了训练范式和一些有趣的结果。

Event Stereo Matching

https://eventvppstereo.github.io/

研究人员提出了一种通过将立体事件相机与固定频率 LiDAR 传感器集成来改进事件立体匹配的方法。

PDE 的神经求解器

https://arxiv.org/abs/2408.04846v1

UGrid 求解器是一种新开发的线性偏微分方程 (PDE) 神经求解器,它结合了 U-Net 和 MultiGrid 技术的优势。


工程


LLM 辅助 OCR 项目

https://github.com/Dicklesworthstone/llm_aided_ocr
LLM 辅助 OCR 项目使用高级 NLP 和 LLM 提高 OCR 准确性,支持错误更正、markdown 格式和页眉/页码处理等功能。它适用于本地和基于 API 的 LLM,提供异步处理和质量评估。

ECG 分析的基础模型

https://github.com/bowang-lab/ecg-fm

ECG-FM 是一种基于转换器的基础模型,旨在通过减少对大量标记数据的需求来改进 ECG 分析。

开放词汇分割

https://github.com/mc-lan/proxyclip

ProxyCLIP 是一个新框架,旨在通过结合 CLIP 模型和 Vision Foundation 模型的优势来改进开放词汇语义分割。


杂七杂八


付费的 Apple Intelligence 功能可能至少还需要 3 年时间

https://9to5mac.com/2024/08/11/paid-apple-intelligence-features/

Apple 最终可能会对高级 Apple Intelligence 功能收费,但预计至少还需要三年时间。随着公司开发更复杂的功能,其最初的 AI 产品将保持免费。当前的功能(例如更新的 Siri)在设备上运行,这表明 Apple 仍在追赶 AI。

Klarna 的 AI 聊天机器人:它到底有多革命性?

https://blog.pragmaticengineer.com/klarnas-ai-chatbot/

Klarna 集成了一个与 OpenAI 共同开发的 AI 聊天机器人,它在客户服务任务中表现出相当高的效率,可能会减少其对支持人员的需求。该机器人可以快速处理 23 个市场和 35 多种语言的典型 1 级支持查询,但会将更复杂的问题上报给人工代理。虽然该技术节省了成本并简化了一级支持,但与之前的 L1 支持自动化相比,其在业务环境中的革命性影响值得商榷。

我为什么押注 DSPy

https://blog.isaacmiller.dev/posts/dspy

DSPy 是一个开源工具,可以协调多个 LLM 调用来解决实际问题。该框架专注于可验证的反馈以进行结果测量,并正在不断发展以解决当前的可靠性和可访问性挑战。尽管推理能力有限,但 LLM 可以作为 DSPy 系统中的创意引擎而出类拔萃。

aijobs.com

https://aijobs.com/

aijobs.com 平台是一个简单的市场,专门用于将 AI 工作与顶尖 AI 人才配对。

埃隆·马斯克将暂停 X 针对部分欧盟数据的 AI 训练

https://www.politico.eu/article/elon-musks-x-to-pause-ai-training-with-some-eu-data-says-irish-privacy-regulator/

爱尔兰数据保护专员 Des Hogan 已对一家未具名公司提起法律诉讼,质疑该公司对欧盟用户个人数据的处理方式,并可能影响其 AI 聊天机器人在 GDPR 审查下的数据处理实践。

英特尔将 GPU 引入汽车

https://www.engadget.com/intel-is-bringing-gpus-to-cars-120057738.html

英特尔宣布推出 Arc A760A,这是一款用于汽车的独立 GPU,旨在通过语音和手势识别等 AI 功能增强车载娱乐。

上一篇 下一篇

猜你喜欢

热点阅读