2025-04-13 ai工程师

2025-04-12 本文已影响0人 smallsmall

过去一年你精读了几篇论文，帮助最大的论文是什么

技术相关：

1. 3.7比3.5 有哪些变化

2025.2.25发布，编码能力位于榜首：在SWE-bench（真实软件开发任务）中准确率达70.3%，比3.5提升41%；数学正确率从3.5的88%提升至93%，编码任务HumanEval得分达96%；
引入了混合推理模型，结合了快思考和慢思考模式；

2. SFT会让模型学会新知识吗？为什么

监督式微调（Supervised Fine-Tuning, SFT）本质上不会让模型真正"学会"新知识，但可以教会模型更高效地运用已有知识。这一现象背后的机制需要从三个层面理解：

一、知识获取的本质差异

知识存储阶段：

模型的核心知识库在预训练阶段已基本定型（通过海量无监督数据学习）
SFT阶段使用的标注数据量级通常只有预训练数据的 0.01%-1%（如Llama2的SFT数据仅占预训练数据的0.03%）

参数空间限制：

主流大模型的参数在预训练后已固化（如GPT-3的175B参数）
SFT只能调整约 0.1%-5% 的参数（LoRA等高效微调技术甚至只改1%参数）

二、SFT的实际作用机制

知识激活器：

通过标注数据建立知识调用路径（如将"量子纠缠"与"爱因斯坦"的关联权重提高）
实验显示SFT能使模型对预训练知识的调用效率提升 30-50%

表达方式矫正：

调整输出格式（如从碎片化陈述转为结构化回答）
提升特定场景的响应准确性（医疗问答错误率下降19%）

安全护栏构建：

通过负样本训练建立风险内容的抑制机制
Anthropic的RLHF+SFT方案将有害输出概率降低至 <0.3%

image.png

image.png
需要关注Continue-Pretrain
微软：利用监督式微调（SFT），向大模型注入新知识，无需检索增强生成(RAG)！
https://zhuanlan.zhihu.com/p/692706105

3. 如何提升RAG的召回率

数据预处理：智能分块（动态分块，不同分块之间交叉重合；多粒度分块；元数据增强，将文档类型、作者、时间戳等元数据拼接进向量），数据清洗（广告、页眉页脚）
检索模型升级：embedding领域内/微调，向量bm25混合召回/faiss mysql混合召回；增加排序层，重排层，为时间敏感数据添加衰减因子等
查询优化技术：【Query重写】：HyDE技术：生成假设性答案再检索（如将“如何预防感冒”扩展为“维生素C、接种疫苗、勤洗手等方法”）；语义补全：通过大模型补全缺失信息（如“2024选举”补全为“2024年美国大选”）；【多查询生成】：对原始问题生成3-5个变体（如关键词重组、同义替换），召回结果取并集（某医疗问答案例召回率提升27%）
索引与召回架构：【量化压缩技术】：使用PQ（Product Quantization）将768维向量压缩至64字节（内存占用减少92%，速度提升3倍），分层索引：先粗粒度聚类（如1000个中心点），再精细检索（延迟从230ms降至85ms）；【多模态召回】：文本+图像联合检索（如CLIP模型处理图文混合内容），某电商案例跨模态召回率提升41%；表格结构化存储：将PDF表格转为HTML格式再向量化（金融报表问答准确率提升53%）
评估方式：人工标注：构建“问题-答案段落”测试集（建议500+样本）；自动化指标：跟踪Top-k命中率、MRR（平均倒数排名）、响应延迟（某系统通过监控发现分块过细导致召回下降23%）

4. ChatGPT类对话产品，怎么做记忆管理？

保存记忆+聊天历史双模式
聊天历史：衰减模式
记忆：触发方式，主动配置、用户强烈表达、个人信息、反复强调

5. 有没有了解Cursor类产品，怎么做到相似代码搜索？

不确定，再看看

语义向量引擎

使用DeepSeek-R1/V3的代码理解能力，将代码片段转换为768维语义向量
通过余弦相似度计算实现跨语言匹配（如Python与Java的等价算法识别）
支持上下文感知：自动提取代码中的函数签名、变量命名等特征（如识别quick_sort()与fast_sort()的等价性）

混合索引策略

语法树索引：AST（抽象语法树）解析后建立结构哈希（如识别for循环与while循环的逻辑等价）
模式匹配库：内置200+种代码模式模板（如单例模式、观察者模式）
向量数据库：采用FAISS加速检索，百万级代码库查询延迟<200ms

怎么用LLM实现类Manus对浏览器操作？
需结合工具调用框架与浏览器自动化技术
https://cloud.tencent.com/developer/article/2507263
介绍一下DeepSeekMLA怎么降低 KV Cache？
有没有读过哪个开源Agent源码？怎么看待单Agent和多Agent场景？