一、数学

  1. 数学中的各种分布(Univariate Distribution Relationships
  2. x2检验(chi-square test)或称卡方检验

二、语言基础

C++

  1. vector、list、map有什么区别
  2. 引用和指针
  3. 多态问题,继承,构造析构
  4. C++ 11举例子几个新的特性,以及你用过的
  5. auto你觉得方便吗
  6. 虚函数
  7. 内存分配(堆和栈的区别讲解)
  8. Python问题lambda函数讲一下、类型转换如何操作

Linux

  1. Linux 权限的意义
  2. 块操作的操作的步骤以及快捷方式
  3. rm -rf *这句话是什么意思(吃惊脸,这我会不知道?!!!)
  4. linux top命令查看内存及多核CPU的使用讲述

Python

  1. 使用gc、objgraph干掉python内存泄露与循环引用!
  2. Python内存优化:Profile,slots,compact dict
  3. 【Python魔术方法】迭代器(iter__和__next)
  4. numpy中argsort函数用法
  5. Python第十天 print >> f,和fd.write()的区别
  6. SWIG 实现 Python 调用 C/C++
  7. Python 使用unicodedata来判断所有标点符号方法及示例代码
  8. 使用Joblib并行运行Python代码
  9. python需要加载多个.so文件的问题
  10. Python 调用 C 共享库
  11. sparkContext的addFile和addPyFile
  12. 《Cython系列》2. 编译并运行 Cython 代码的几种方式

正则表达式相关:

  1. regex使用说明
  2. 正则表达式(RegEx)——快速参考

三、框架

Flink

  1. Flink 原理与实现:理解 Flink 中的计算资源
  2. Flink 原理与实现:如何生成 StreamGraph
  3. Flink 原理与实现:架构和拓扑概览
  4. Flink DataStream API 概述及作业如何转换为 StreamGraph
  5. flink 源码分析1之RichSinkFunction
  6. 使用flink-connector-clickhouse写入ClickHouse
  7. 聊聊flink的Tumbling Window
  8. flink教程-聊聊 flink 1.11 中新的水印策略
  9. Flink v1.12 doc

Tensorflow

  1. Tensorflow基础知识—损失函数详解
    参考:TensorFlow四种Cross Entropy算法实现和应用
    tf.nn.softmax_cross_entropy_with_logits的用法
  2. tf.nn.embedding_lookup() 详解
  3. TensorFlow函数:tf.estimator.RunConfig
  4. 手把手教你使用TF服务将TensorFlow模型部署到生产环境
  5. 如何用TF Serving部署TensorFlow模型
  6. TensorRT(1)-介绍-使用-安装
  7. TensorRT安装及使用教程
  8. 经典CTR模型
  9. LR+FTRL算法原理以及工程化实现
  10. tensorflow输入管道性能指南
  11. tf.contrib.layers.layer_norm使用说明
  12. keras Lambda 层
  13. cuDNN 5对RNN模型的性能优化
  14. cuDNN 5对RNN模型的性能优化
  15. 干货 | 解读加实战:爆款论文 SRU 在对话生成上的效果

Pytorch

四、NLP

  1. Transformer模型详解
  2. NLP机器翻译评价指标BLEU介绍
  3. 美团BERT的探索和实践

五、广告算法

  1. 深入FFM原理与实践
  2. 用 FTRL 训练 FM 模型
  3. 贝壳找房一镜到底:FM 们的原理及在贝壳搜索的实践
  4. 基于spark训练点击率预估模型
  5. 深度学习技术在美图个性化推荐的应用实践
  6. 深入浅出Word2Vec原理解析
  7. 深度学习推荐系统中各类流行的Embedding方法(上)
  8. DSSM:深度语义匹配模型(及其变体CLSM、LSTM-DSSM)
  9. 推荐场景中——DSSM双塔召回模型讲解和应用
  10. 推荐场景——YouTubeNet召回模型讲解及应用
  11. DeepFM模型CTR预估理论与实战
  12. 推荐算法之: DeepFM及使用DeepCTR测试
  13. 推荐系统评价指标:AUC和GAUC
  14. [阿里DIN] 深度兴趣网络源码分析 之 整体代码结构
  15. [论文解读] 阿里DIEN整体代码结构
  16. Airbnb实时搜索排序中的Embedding技巧
  17. 从KDD 2018 Best Paper看Airbnb实时搜索排序中的Embedding技巧
  18. 万物皆向量——双十一淘宝首页个性化推荐背后的秘密
  19. Zillions of Homepages for Zillions of Customers

六、深度学习

  1. YOLO V2 V3你对哪个熟悉,讲一下细节实现
  2. 多尺度问题
  3. anchor基础知识
  4. 人脸识别现在常用算法
  5. 语义分割到实例分割怎么做
  6. GAN是否了解,如何通俗的讲其原理
  7. PCA原理LDA原理
  8. SVM+HOG
  9. XGBoost
  10. CNN、RCNN、FRCNN,有可能问你其中一个细节的关键
  11. TensorFlow这些框架你谈一下看法以及对其他框架的了解
  12. 现在机器学习、深度学习这么火,你有什么看法
  13. 机器学习、深度学习你对他们的理解是什么
  14. 做门牌或者车牌识别的步骤以及关键
  15. Relu比Sigmoid使用多的原因
  16. Loss不升反降的原因,如何解决
  17. SSD细节
  18. softmax、多个logistic的各自的优势?1、类别数爆炸,2、推了下softmax反向传播的公式,来对比两者的优劣。
  19. 如何解决小目标:为什么要深层、浅层featureMap concat?提了点细节和我踩的坑,需要数量级上的调整,不然深层的feature可能会被压制。Cascade的思想? 说了下我的摸索的一个过程。改变样本分布,困难样本挖掘,能达到比较好的效果。文字识别使用ctc loss的一些细节。
  20. CNN的FLOPs的计算
  21. 深度学习——优化器算法Optimizer详解(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)
  22. Group Convolution分组卷积,以及Depthwise Convolution和Global Depthwise Convolution
  23. GELU (Gaussian Error Linerar Units)
  24. 【像训练CNN一样快速训练RNN】全新RNN实现,比优化后的LSTM快10倍
  25. Pytorch剪枝算法

经典神经网络详解

  1. 语义分割丨DeepLab系列总结「v1、v2、v3、v3+」
  2. 论文笔记:分形网络(FractalNet: Ultra-Deep Neural Networks without Residuals)DropPath
  3. YOLO 算法最全综述:从 YOLOv1 到 YOLOv5

七、机器学习

机器学习基础

  1. LR、FM为什么适用于离散特征
  2. sklearn中的特征提取

机器学习算法

  1. 哪些常用的机器学习算法?
    回归算法有:线性回归、Lasso回归、岭回归。分类算法有:逻辑回归、决策树、贝叶斯、SVM、神经网络、集成学习。聚类算法有:k-means、层次聚类、(密度聚类不敢说,因为切实忘了原理过程)。

  2. 详细的讲解一下,线性回归的原理么?
    线性回归的回归模型为 y = W T X {y = W^{T}X} y=WTX,就是训练一条直线来拟合我们的训练数据,根据这个训练好的线性函数来预测数值。

  3. 讲解一下线性回归的底层原理,比若说如何训练,如何得到参数,如何调整参数等?

  4. 讲解一下逻辑回归的原理吧!

  5. 详细的讲解一下朴素贝叶斯的底层原理,比如说,如何选参数,如何训练模型,如何做分类?
    朴素贝叶斯的朴素其实是样例中特征之间相互独立。

  6. 深度学习中的梯度消失是什么,如何解决
    详详细细的把梯度消失的现象,造成的实质原因,和三种解决办法讲了一遍。
    三种解决办法:
    (1)修改激活函数。
    (2)用BN
    (3)把传统的循环神经网络,换成GRU网络。

  7. 数据结构中,什么是平衡二叉树?
    平衡二叉树(Balanced Binary Tree)又被称为AVL树(有别于AVL算法),且具有以下性质:它是一 棵空树或它的左右两个子树的高度差的绝对值不超过1,并且左右两个子树都是一棵平衡二叉树。
    (1)什么是二叉树?
    每个节点最多只能有两个子节点的叫二叉树
    (2)平衡二叉树的应用都有哪些?
    正确的回答应该是B-树和B+树

  8. xgb、lgbm调参方法

  9. 模型融合方法

  10. 深度学习与机器学习的异同及联系。

  11. 梯度消失/爆炸问题 原因,解决措施。

  12. SVM原理,与感知机的区别

  13. Hadoop与Spark的区别

  14. shuffle阶段的过程详细介绍一下

  15. Spark基于图计算的优势

  16. boosting与bagging的原理以及异同点。

  17. xgboost与lgbm的原理。

  18. 用过哪些可视化组件,如何对数据进行可视化分析。

  19. Spark作业运行机制以及Spark各组件运行机制。

  20. MapReduce中map和reduce各自负责什么内容,两个阶段如何衔接。

  21. 阐述CRF原理

  22. 阐述BiLSTM的BP过程,为何BiLSTM后接一层CRF会有提升?CRF层自己是怎么实现的。23. 如何管理HDFS中的日志数据

  23. 自己实现过哪些机器学习算法?
    1)单机实现还是多线程实现的
    2)多线程如何更新对大量参数多梯度更新
    3)实现随机梯度算法的流程是怎样的,样本随机是如何体现的。

  24. scala中的各种算子有使用过吗?说一下map函数、reduceByKey函数的机制

  25. 有些过海量数据处理的MapReduce脚本吗?(答:没写过,然后让我想想如何使用MR对大量文本数据进行清洗)

  26. 介绍spark-checkpoint的机制,与持久化算子的联系与区别

  27. xgboost的原理介绍一下。

  28. 过拟合

  29. 正则化

  30. SVM, FM, 协同过滤,树

  31. 二叉树中序遍历,递归非递归

  32. kmeans聚类,这个倒不难,就是写起来有些麻烦,写了30分钟

  33. 深度学习的一些基础问题

  34. bagging boosting

  35. LRU

  36. (1)java的并发、安全性如何保证
    (2)用过哪些java的I/O
    (3)linux环境下,在10g数据中如何找到包含某字符串的一行
    (4)常用的linux命令。查找某端口的进程与用户
    (5)手写一个线程安全的生产者与消费者。

  37. 数据挖掘十大算法详解

  38. 朴素贝叶斯的优缺点

  39. 关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

机器学习可解释性

  1. XGB模型可解释性SHAP包实战
  2. 用 LIME & SHAP 解释自然语言处理模型

八、推荐

  1. DeepFM(DeepFM模型CTR预估理论与实战

九、算法场景题

  1. 百度IDL:无给定条件,预测蔬菜价格。 提几个特征做预测模型:肉的价格、土壤健康指标、天气情况、国民收入、货币汇率等等。。
  2. 网易游戏互娱:给三天时间,获取全世界有多少人玩过德州扑克,只要玩过就算。直接爬虫德州扑克的app。(感觉这个答的好蠢。。)
  3. 腾讯MIG:获取聊天表情的标签,比如喜怒哀乐。对腾讯系产品的聊天记录中,表情的上下文聊天文字做情感分析,然后给表情贴标签。
  4. 腾讯广点通:给定某人的腾讯系产品信息,判断此人是否有车。我说先做一部分数据标注来判断一部分人是否已经有车,然后提一些消费水平的特征做预测模型
    我回答地都很不好,一直觉得场景题不知道怎么回答,直到广点通的面试官很nice地指出了我的问题:我的方法成本高而且过于模糊,要求的是低成本、直接、精度高的方法,也就是人工规则。
  5. 类似大众点评的网站有正常用户访问流量,也有同类竞争商家的spider,怎样区分spider和正常访问,我想了下,他说简单说说就行,我就从两者的访问特点分析了一下,对于这个二分类问题选用哪些特征,然后他希望再从http的角度分析一下,然而并不懂,然后照例问有什么问题,然后详细介绍了一下上海这边主要负责滴滴租车业务,业务框架,说的很仔细,
  6. 拼车软件是如何定价的以及如何优化;
  7. 怎么预测降雨量;
  8. 预测平台每日外卖或到店客流量时,节假日往往会被作为噪音处理,但是美团点评算法团队需要给店家提供节假日的客流量预测,如何去预测这个异常值或者说噪音。
  9. 遇到极端情况比如天气或者其他因素,平台内会挤压大量订单等待处理,同时客户等待时间会变长,如何设计调度系统使用算法去协调运力或者控制溢价,在不影响用户体验的同时尽快处理挤压订单尽可能缩短外卖小哥的ETA。
  10. 目前对于客流量预测精度为天很准确,如何设计online learning的model去对未来某一个特定时间点进行客流量预估。自己感觉这应该都是美团点评在真是业务场景中遇到的问题,自己也根据自己的想法与面试官做了讨论,突然在说的一瞬间觉得这才是machine learning在工业界真实运用的场景,突然觉得自己天天看的书推的公式好渺小…
  11. 开放问题:在车和乘客的匹配场景中(一个车匹配一个乘客,不考虑拼车),如何让司机的接单率更高?
    给你公司内部群组的聊天记录,怎样区分出主管和员工?如何评估网站内容的真实性(针对代刷、作弊类)?路段平均车速反映了路况,在道路上布控采集车辆速度,如何对路况做出合理估计?采集数据中的异常值如何处理?如何根据语料计算两个词词义的相似度?在百度贴吧里发布 APP 广告,问推荐策略?100亿数字,怎么统计前100大的?
  12. 问了一个预估的题目,让你估计早餐市场的规模。
  13. 系统设计题,给一个query,如何快速从10亿个query中找出和它最相似的 (面试官说可以对每个query找1000个最相似的,存起来,每天离线更新)
  14. 设计一个合理的电梯调度策略,调度两个电梯 ,考虑满足基本的接送需求,满足能耗最小,满足用户等待时间最短 (难到我了,我想的方法不好,面试告诉我了他的想法,类似于一个进程调度问题,每一时刻只可能有一个用户按按钮,把这条指令接收,判断当前电梯能否满足,能满足就执行,不能满足则放入一个队列里,实际情况还要细化)
  15. 在互联网分析中,通常会关注用户的【第N日激活率】来衡量用户质量。用户的第N日激活指的是用户在注册的第N天登录网站或App,即算为该用户的第N日激活。第N日激活率指的是某日注册用户在第N天激活的数量除以该日所有注册用户数量。
  16. “赤兔”是领英中国针对中国职场人士推出的一款本土化的社交应用。如果你是领英中国的数据分析师,你会从哪些方面和维度来设计各项指标,给产品的设计和运营提供数据上的支持?请给出具体的维度和指标,并说明原因。
  17. 比如你现在知道了一个用户访问网站的历史记录,比如时间,流量,高峰期或没有访问之类的数据,让你来分析一下这个用户。我:这个中间和面试官探讨了半天,没有回答好。。
  18. 做广告点击率预测,用哪些数据什么算法
  19. 用户流失率预测怎么做(游戏公司的数据挖掘都喜欢问这个)
  20. 一个游戏的设计过程中该收集什么数据
  21. 如何从登陆日志中挖掘尽可能多的信息
  22. 如何做一个新闻推荐
  23. 开放性问题:每个实体有不同属性,现在有很多实体的各种属性数据,如何判断两个实体是否是同一种东西
  24. 如何从登陆日志中挖掘尽可能多的信息http://www.docin.com/p-118297971.html
  25. 用户流失率预测怎么做(游戏公司的数据挖掘都喜欢问这个)http://www.docin.com/p-1204742211.html
  26. 一个游戏的设计过程中该收集什么数据
  27. 做广告点击率预测,用哪些数据什么算法http://bbs.pinggu.org/thread-3182029-1-1.html
    场景题一般是面试官工作中遇到的问题,问题一般会比较细,比如说获取某些item的属性标签。
    如果问题里没有明确出现“预测”等字眼,最好不要用模型角度去回答问题。因为实际工作中,可能不会为了某个小问题,去动用集群来跑模型,这些小问题可能是用来给跑集群的模型加特征的,应该优先以人工规则来解决。
    人工规则可能有隐藏先验条件,就是可以用到这个公司其他产品数据。
  28. 解决方案类题目为今日头条设计一个热门评论系统,支持实时更新给定淘宝上同类目同价格范围的两个商品A和B,如何利用淘宝已有的用户、商品数据、搜索数据、评论数据、用户行为数据等所有能拿到的数据进行建模,判断A和B统计平均性价比高低。统计平均性价比的衡量标准是大量曝光,购买者多则高。有n个elements和1个Compare(A, B)函数,用Compare函数作为排序算法中的比较算子给elements排序。Compare函数有p的可能比较错。排序完取Top m个元素,本来就在Top m并被正确分在Top m的元素个数是x。问x的数学期望。如何预测双十一支付宝的负载峰值。
  29. 给你1000w篇文档或html,如何判断是否为体育类的新闻,需要给出系统的方法;答:分词+人工判定+词库+SVM训练。
  30. 设计一个系统可以实时统计任意 ip 在过去一个小时的访问量;

十、算法

  1. [动态规划] https://www.cnblogs.com/frankchenfu/p/7107019.html
  2. 简单
  3. 给你一个很大的文件,文件里有很多行数据,每一行数据是一个用户的uid,表示这个用户点开过抖音,请你找出打开抖音次数最频繁的前10个用户。(假如抖音里面有5亿用户,那么每个用户打开一次抖音就有5亿条记录,如果每个用户打开两次抖音,就有10亿条记录。也就是说,用户每打开一次抖音,就记录一下他的uid。请找出打开抖音次数最频繁的前10个用户)
  4. 推荐算法
  5. 概率题:抛2k+1次硬币,问正面次数比背面多的概率是多大,并讲出数学证明思路。
  6. 类似Leetcode No.11,但是问题是改成一共能装多少水。写代码,并测试。
  7. 给N个数字,返回这N个数字能组成的所有二叉搜索树。这道题跪了,之前没做过这个类型的题,面试官提示下有了思路,用分治法,递归。我说我先写下伪代码,对方也不置可否,写完后面试官就说面试结束了。反思了一下,这个题实在是做的不好,其实也没有难到无从下手,但是一上来没思路,自己就慌了。而且,面试官提示思路后,应该先写代码,实现二叉树搜索树类,再写算法。就算算法最后写的不对,也能展示代码一点代码能力,写伪代码的话思路不对就全完了。
  8. 二叉树输出给定节点到目标节点的路径
  9. 寻找两个字符串中只有首尾字符相同的所有子串,例如 ABCDE 和 ADCAE中包含(ABC–ADC)以及(CDE–CAE)
  10. 寻找链表是否有环
  11. 将数组元素划分成两部分,两部分和的差最小,数组顺序可变;
  12. 智力题,在一个圆环上随机添加3个点,三个点组成一个锐角三角形的概率;
  13. 推导逻辑斯蒂回归/线性支持向量机算法;
  14. 在一个圆环上随机添加3点,三个点组成一个锐角三角形的概率;
    用积分计算上述概率;用程序解决上述问题(多次采样取平均值,如何判断三个点能够组成锐角三角形,通过三条边的边长关系,或根据后两个点相对第一个点的角度关系)
  15. 深度学习,推导反向传播算法,知道什么激活函数,不用激活函数会怎么样,ROC与precesion/recall评估模型的手段有何区别,什么情况下应该用哪一种?深度学习如何参数初始化?
  16. 介绍AdaBoost算法;
  17. 介绍梯度下降,随机梯度下降
  18. 写出逻辑斯蒂回归的损失函数;
  19. C++ ,虚函数,虚析构函数。
  20. 分层遍历二叉树,相邻层的遍历方向相反,如第一层从左到右遍历,下一层从右向左遍历

十一、总结

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐