回馈牛客,算法岗春招+秋招全部面经
人类的努力应该是没有边界的,我们千差万别,不管生活看上去有多糟糕,总有你能够做的事情,并且能够成功。有生命的地方,就有希望。——《万物理论》
从春招实习到秋招面了很多家公司,总结一下面经,有些时间久远可能会遗漏
【京东 搜索与推荐平台部】
1. 现场1轮笔试,主要是一些C++基础、两个编程题:(1)行和列都是递增的矩阵,查找某个值,剑指offer原题;(2)给定一个数组,相邻元素之差的绝对值<=1,如[1,2,3,2,2,1,2],如何快速查找某个数
2. 说一下现场笔试的第二道编程题怎么做的
3. C++的内存对齐,给了几个struct计算占用内存;C++纯虚函数、虚函数表说一下
4. 说一下Word2vec,看过源码吗?源码里面是如何负采样的,为什么要层次化softmax,sigmod在源码里面的计算方法是什么
5. 介绍一下实习的项目,并且问了文本相似度如何计算,项目中的矩阵分解算法ALS的原理是什么
【腾讯 腾讯新闻、腾讯云、微信、AI平台部】
1. 手写代码:(1)单链表反转;(2)层次遍历二叉树;(3)求组合数,如给定“abcd”组合数为“a b c d ab ac ad ....”;(4)求第K大的数;(5)字符串去空格,要求不用辅助空间;(6)一个数组出来两个不同的数,其他数都出现两次,找出这两个数
2. 用户输入一个字符串,找出字典中和该字符串具有一样字母的所有单词,如“abc”和“cba”含有相同字母,要求时间复杂度尽可能低
3. 了解哪些文本匹配的方法,DSSM这些;项目中矩阵分解算法原理,数据规模多大
4. Learning to Rank了解吗,三种模式说一下(pair wise、point wise、list wise)
5. 信息检索领域的评价指标有哪些,MAP、NDCG能介绍下吗?
6. 智力题,25匹马5个赛道,最多几轮选出前三名
7. 给了一张纸,上面有几道非常基础的C语言题目,如sizeof的计算、struct内存占用
8. 给定一个无向图,求联通子图的个数,从广搜引出并查集,问并查集为什么要快一点
9. 说一下SVM,AI平台部还叫手推了公式,并且问SVM如何做回归
10. 写个归并排序,写完后说能不用辅助数组吗?(貌似原地归并排序,面完查的。。)
11. linux head diff等命令
12. 说一下 map reduce 原理
13. 说一下join原理,并用spark python/scala 实现join(先说下join 的 map reduce过程)
14. 说下LR, 伯努利分布,二项分布和多项式分布,以及共轭先验(狄利克雷等。。)
15. 指数族和广义线性模型
16. 线性回归服从什么分布(噪声高斯分布),均值方差如何定义呢,和最小二乘的关系(概率角度推导出来?),L1 L2正则(引出先验概念,拉普拉斯和高斯)
17. 如何对几百万的商品标题进行语义去重(句子embedding的各种构造方法,然后聚类降低时间复杂度,簇内查找)
18. 知识图谱表示学习和Word2vec这种词向量嵌入有什么异同呢
19. 给定一些query和doc点击数据,如何从里面找出相关词(同义词的意思)
【阿里 新零售】
阿里面试比较独特:
一面:面试官问熟悉什么语言?我说C++,然后打开了远程编程,给定了特征向量和标签,叫我用C++实现一个分类器(30分钟内),本来想用逻辑回归,怕C++时间不够写,认怂了我实现了KNN好在代码跑通了。
然后就是常规的面试了,问了下熟悉哪些机器学习算法,信息增益和基尼指数的本质差别是什么
二面:非常详细的介绍了项目,其中问了知识图谱的TransE算法;深度学习的优化方法介绍下,SGD。Adagrad等等;Attention机制
三面交叉面:交叉面纯粹问项目,面试官对知识图谱很感兴趣,问了很多东西,具体就不说了
【头条】
1. 单链表反转、快排
2. 给定一个论文引用数的数组,求作者的H-index,用O(n)的时间复杂度,Leetcode原题
3. 两个排序数组求中位数,log时间复杂度
4. 给一个2^n*2^n的棋盘,随机挖掉一块,然后用折形砖块覆盖,给出覆盖方案
5. 旋转数组查找
6. 只用随机函数rand3、rand4、rand5,随机产生1~3 1~4 1~5随机数,实现等概率产生1~100的随机数
7. 面试官把电脑拿过来,叫用python现场处理数据(特征统计等),15分钟限时
8.场景题: 如何识别标题党
9. 如何进行实体消歧,如“普通老百姓”,可能是电视剧名字,也可能是人的称谓
10. 推荐系统的多样性如何设计,给定了session的数据,叫设计一个公式来计算推荐内容的多样性
11. 如何快速查找相似向量(百万级、千万级),说一下KD树,KD的时间复杂度,KD最坏情况下应该怎么办
12. 知识图谱关系抽取的技术说了一遍
【百度 Feed 知识图谱部 自动驾驶技术部】
1. 用你所学的知识说下怎么计算文本相似度 无监督:词袋模型、word embedding→sentence embedding,doc2vec, autoencoder 有监督:深度语义匹配(DSMM、CDSSM、MVDSSM或其他,孪生网络:bilstm、交互式Attention、交叉熵&对比损失、数据不均衡、数据增强等方面说了)
2. 单链表判断是否相交,有环&无环两种情况
3. 介绍下word2vec,相比简单的神经网络模型有什么优点
4. cross-lingual word embedding怎么做
5. 给一个(query 频数)文件,取频率最高的k个query,讲了一下小顶堆,然后让用简单的方法实现(shell的sort和python)
6. 讲一下TransE算法有什么缺点,如何改进
7. 写一下交叉熵公式
8. 32×32×3的输入,5×5×10,步长2,算下CNN的输出shape和参数数量
9. 说一些HMM和CRF,怎么做分词、标注问题(再说了下LSTM+CRF,以及多目标学习等)
10. 讲一下EM算法,E步和M步的具体步骤,E中的期望是什么(关于什么分布的期望)
11. 给一个股票价格涨幅数组 [10%, -20%, 10%,...],相比前一天的涨幅比例,求出买卖的最大收益;给出绝对价格数组,最多买卖2次,最大收益多少
12. 一排灯泡n个开始时熄灭,第一次2的倍数的灯泡状态变,第二次3的倍数的灯泡状态变,。。。,第n-1次后,多少个灯泡亮着
13. 场景题:自动驾驶中如何考虑场景因素,来指导车辆怎么开
14. 强化学习在NLP中有什么应用,解释一下策略梯度,reword等
15. 机器学习的衡量指标有什么,如何解决过拟合和欠拟合
16. 写一个快排;写一个大数相加
17. 写一下单链表冒泡排序
18. 写一下项目中用到的跨语言Embedding的推导过程
19. 深度学习一阶优化和二阶优化的方法有哪些,基于动量的方法为什么能快速收敛
20. Word2vec为什么能学习出语义相似的词语呢
21. 传统的softmax词向量模型为什么计算效率低,词嵌入应该从输入层获取还是输出层获取(因为softmax词向量模型有两个矩阵都含有词嵌入)
22. 投一个骰子,直到抛到6点停止,问抛的次数的期望?
23. 冒泡排序;杨辉三角;
24. linux命令:如何按照第二列从大到小排序文件
25. 给一个日志,里面记录了每个用户的登入和登出时间,如何统计每秒有多少个用户在线
26. 海量数据处理:两个大文件求交集
27. 有一个token上面有6个电子数字,反转后数字相同的概率是多少
面的有点多,有些记不起来了-_-||
【爱奇艺】
1. 用能想到的方法实现斐波那契数列,如何估计到多少项时数列的值会超过INT范围(上界下界分析),递归实现斐波那契数列时:时间复杂度和空间复杂度是多少?
2. 说一下GBDT的原理
3. 写一下大顶堆插入函数
4. 介绍一下极大似然估计,和最大后验的区别是什么
5. 给定N个框,可以往每个框放若干个苹果,给定一个数K,如何设置每个框内的苹果数,使之能够保证:选取若干个框并取出里面的所有苹果数刚好等于K
6. 给了一道贝叶斯概率计算的题,具体忘记了
7. 文本匹配模型有什么
8. BN的作用是什么,什么时候用BN
【微软】
1. 写一下编辑距离,然后证明DP公式的正确性
2. 给一个随机函数fun,30%的概率产生1,70%产生0,如何用fun产生等概率的0和1
3. word2vec中,负采样相比层次化softmax,有什么优缺点?层次化softmax能保证概率归一化吗?
4. 文本相似度计算方法有什么,当我说完后,面试官说你说的基本都是深度学习方面的,经典的NLP方法知道有哪些吗
5. 写一个快排,非递归
6. 给一个100万规模的词典,一个长文档,如何快速从里面标注出所有的词,写一下代码
7. 场景题:如何给问答系统中的新问题推荐答案
8. 场景题:单词纠错怎么做
9. 场景题:如何让对话机器人产生的回答更具情感性,面试官简化了问题:机器人产生回答后,我们给回答加前缀,比如问“今天吃饭了吗?”,回答“【嗯呀】,我吃了”,如何从大规模QA数据中统计出要加哪些前缀(如上面的“嗯呀”),然后判断是否需要加前缀,需要加什么前缀
10. 手写代码:单链表找交点;非递归前序遍历二叉树
11. 手写代码:给一个N*M的棋盘,从(1, 1)移动到(N, M),只能向右或向下,计算方案数,如果N和M很大怎么办?
12. 场景题:对话机器人说了一句话后,如何判断该话是否含有反动、暴力元素,有标注数据怎么做,无标注数据怎么做
13. GBDT原理说一下
14. 词向量的方法说一下,比如Glove,PMI分解,问Facebook提出的模型看了没
15. KMP算法有什么缺点?除了KMP,还有什么算法可以快速做字符串查找
16. 智力题:丢两个骰子,最可能出现的点数和是多少?3个骰子呢,不能枚举,面试官让快速估计
17. 文本分类的方法有哪些,深度学习和非深度学习的方法都说一下
18. fasttext和textCNN说一下吧
19. 推荐系统:FM算法、ALS矩阵分解、协同过滤算法都说一下,并说下优缺点?
上述内容可能会有所遗漏,希望能帮到下一届的师弟师妹们~
点击作者姓名与作者大佬交流~
作者:牛客167911号
来源:牛客网(www.nowcoder.com)
- 互联网名企笔试真题
- 校招求职笔经&面经
- 程序员/产品/运营求职实习信息
- 程序员/产品/运营学习交流社区