2025-04-13 ai工程师
2025-04-12 本文已影响0人
smallsmall
过去一年你精读了几篇论文,帮助最大的论文是什么
技术相关:
1. 3.7比3.5 有哪些变化
2025.2.25发布,编码能力位于榜首:在SWE-bench(真实软件开发任务)中准确率达70.3%,比3.5提升41%;数学正确率从3.5的88%提升至93%,编码任务HumanEval得分达96%;
引入了混合推理模型,结合了快思考和慢思考模式;
2. SFT会让模型学会新知识吗?为什么
监督式微调(Supervised Fine-Tuning, SFT)本质上不会让模型真正"学会"新知识,但可以教会模型更高效地运用已有知识。这一现象背后的机制需要从三个层面理解:
一、知识获取的本质差异
知识存储阶段:
- 模型的核心知识库在预训练阶段已基本定型(通过海量无监督数据学习)
- SFT阶段使用的标注数据量级通常只有预训练数据的 0.01%-1%(如Llama2的SFT数据仅占预训练数据的0.03%)
参数空间限制:
- 主流大模型的参数在预训练后已固化(如GPT-3的175B参数)
- SFT只能调整约 0.1%-5% 的参数(LoRA等高效微调技术甚至只改1%参数)
二、SFT的实际作用机制
知识激活器:
- 通过标注数据建立知识调用路径(如将"量子纠缠"与"爱因斯坦"的关联权重提高)
- 实验显示SFT能使模型对预训练知识的调用效率提升 30-50%
表达方式矫正:
- 调整输出格式(如从碎片化陈述转为结构化回答)
- 提升特定场景的响应准确性(医疗问答错误率下降19%)
安全护栏构建:
- 通过负样本训练建立风险内容的抑制机制
- Anthropic的RLHF+SFT方案将有害输出概率降低至 <0.3%
image.png
image.png
需要关注Continue-Pretrain
微软:利用监督式微调(SFT),向大模型注入新知识,无需检索增强生成(RAG)!
https://zhuanlan.zhihu.com/p/692706105
3. 如何提升RAG的召回率
- 数据预处理:智能分块(动态分块,不同分块之间交叉重合;多粒度分块;元数据增强,将文档类型、作者、时间戳等元数据拼接进向量),数据清洗(广告、页眉页脚)
- 检索模型升级:embedding领域内/微调,向量bm25混合召回/faiss mysql混合召回;增加排序层,重排层,为时间敏感数据添加衰减因子等
- 查询优化技术:【Query重写】:HyDE技术:生成假设性答案再检索(如将“如何预防感冒”扩展为“维生素C、接种疫苗、勤洗手等方法”);语义补全:通过大模型补全缺失信息(如“2024选举”补全为“2024年美国大选”);【多查询生成】:对原始问题生成3-5个变体(如关键词重组、同义替换),召回结果取并集(某医疗问答案例召回率提升27%)
- 索引与召回架构:【量化压缩技术】:使用PQ(Product Quantization)将768维向量压缩至64字节(内存占用减少92%,速度提升3倍),分层索引:先粗粒度聚类(如1000个中心点),再精细检索(延迟从230ms降至85ms);【多模态召回】:文本+图像联合检索(如CLIP模型处理图文混合内容),某电商案例跨模态召回率提升41%;表格结构化存储:将PDF表格转为HTML格式再向量化(金融报表问答准确率提升53%)
- 评估方式:人工标注:构建“问题-答案段落”测试集(建议500+样本);自动化指标:跟踪Top-k命中率、MRR(平均倒数排名)、响应延迟(某系统通过监控发现分块过细导致召回下降23%)
4. ChatGPT类对话产品,怎么做记忆管理?
保存记忆+聊天历史双模式
聊天历史:衰减模式
记忆:触发方式,主动配置、用户强烈表达、个人信息、反复强调
5. 有没有了解Cursor类产品,怎么做到相似代码搜索?
不确定,再看看
语义向量引擎
- 使用DeepSeek-R1/V3的代码理解能力,将代码片段转换为768维语义向量
- 通过余弦相似度计算实现跨语言匹配(如Python与Java的等价算法识别)
- 支持上下文感知:自动提取代码中的函数签名、变量命名等特征(如识别quick_sort()与fast_sort()的等价性)
混合索引策略
- 语法树索引:AST(抽象语法树)解析后建立结构哈希(如识别for循环与while循环的逻辑等价)
- 模式匹配库:内置200+种代码模式模板(如单例模式、观察者模式)
- 向量数据库:采用FAISS加速检索,百万级代码库查询延迟<200ms
-
怎么用LLM实现类Manus对浏览器操作?
需结合工具调用框架与浏览器自动化技术
https://cloud.tencent.com/developer/article/2507263 -
介绍一下DeepSeekMLA怎么降低 KV Cache?
-
有没有读过哪个开源Agent源码?怎么看待单Agent和多Agent场景?