震惊！世上最全的人工智能知识总结！

深度学习机器学习哪些常用的机器学习算法？回归算法有：线性回归、Lasso回归、岭回归。分类算法有：逻辑回归、决策树、贝叶斯、SVM、神经网络、集成学习。聚类算法有：k-means、层次聚类、（密度聚类不敢说，因为切实忘了原理过程）。详细的讲解一下，线性回归的原理么？线性回归的回归模型为 y=WTX{y = W^{T}X}y=WTX，就是训练一条直线来拟合我们的训练数据，根据这个训练好的线性函数来预

星如雨ｸﾞｯ!(๑•̀ㅂ•́)و✧

1090人浏览 · 2020-08-27 00:15:11

星如雨ｸﾞｯ!(๑•̀ㅂ•́)و✧ · 2020-08-27 00:15:11 发布

一、数学

数学中的各种分布（Univariate Distribution Relationships）
x2检验（chi-square test）或称卡方检验

二、语言基础

C++

vector、list、map有什么区别
引用和指针
多态问题，继承，构造析构
C++ 11举例子几个新的特性，以及你用过的
auto你觉得方便吗
虚函数
内存分配（堆和栈的区别讲解）
Python问题lambda函数讲一下、类型转换如何操作

Linux

Linux 权限的意义
块操作的操作的步骤以及快捷方式
rm -rf *这句话是什么意思（吃惊脸，这我会不知道？！！！）
linux top命令查看内存及多核CPU的使用讲述

Python

正则表达式相关：

三、框架

Flink

Tensorflow

Pytorch

1、Pytorch模型转onnx转tensorflow pb，部署tensorflow serving，client测试

四、NLP

五、广告算法

六、深度学习

YOLO V2 V3你对哪个熟悉，讲一下细节实现
多尺度问题
anchor基础知识
人脸识别现在常用算法
语义分割到实例分割怎么做
GAN是否了解，如何通俗的讲其原理
PCA原理LDA原理
SVM+HOG
XGBoost
CNN、RCNN、FRCNN，有可能问你其中一个细节的关键
TensorFlow这些框架你谈一下看法以及对其他框架的了解
现在机器学习、深度学习这么火，你有什么看法
机器学习、深度学习你对他们的理解是什么
做门牌或者车牌识别的步骤以及关键
Relu比Sigmoid使用多的原因
Loss不升反降的原因，如何解决
SSD细节
softmax、多个logistic的各自的优势？1、类别数爆炸，2、推了下softmax反向传播的公式，来对比两者的优劣。
如何解决小目标：为什么要深层、浅层featureMap concat？提了点细节和我踩的坑，需要数量级上的调整，不然深层的feature可能会被压制。Cascade的思想? 说了下我的摸索的一个过程。改变样本分布，困难样本挖掘，能达到比较好的效果。文字识别使用ctc loss的一些细节。
CNN的FLOPs的计算
深度学习——优化器算法Optimizer详解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）
Group Convolution分组卷积，以及Depthwise Convolution和Global Depthwise Convolution
GELU (Gaussian Error Linerar Units)
【像训练CNN一样快速训练RNN】全新RNN实现，比优化后的LSTM快10倍
Pytorch剪枝算法

经典神经网络详解

七、机器学习

机器学习基础

机器学习算法

哪些常用的机器学习算法？
回归算法有：线性回归、Lasso回归、岭回归。分类算法有：逻辑回归、决策树、贝叶斯、SVM、神经网络、集成学习。聚类算法有：k-means、层次聚类、（密度聚类不敢说，因为切实忘了原理过程）。
详细的讲解一下，线性回归的原理么？
线性回归的回归模型为 ${y = W^{T}X}$ ，就是训练一条直线来拟合我们的训练数据，根据这个训练好的线性函数来预测数值。
讲解一下线性回归的底层原理，比若说如何训练，如何得到参数，如何调整参数等？
讲解一下逻辑回归的原理吧！
详细的讲解一下朴素贝叶斯的底层原理，比如说，如何选参数，如何训练模型，如何做分类？
朴素贝叶斯的朴素其实是样例中特征之间相互独立。
深度学习中的梯度消失是什么，如何解决？
详详细细的把梯度消失的现象，造成的实质原因，和三种解决办法讲了一遍。
三种解决办法：
（1）修改激活函数。
（2）用BN
（3）把传统的循环神经网络，换成GRU网络。
数据结构中，什么是平衡二叉树？
平衡二叉树（Balanced Binary Tree）又被称为AVL树（有别于AVL算法），且具有以下性质：它是一棵空树或它的左右两个子树的高度差的绝对值不超过1，并且左右两个子树都是一棵平衡二叉树。
（1）什么是二叉树？
每个节点最多只能有两个子节点的叫二叉树
（2）平衡二叉树的应用都有哪些？
正确的回答应该是B-树和B+树。
xgb、lgbm调参方法
模型融合方法
深度学习与机器学习的异同及联系。
梯度消失/爆炸问题原因，解决措施。
SVM原理，与感知机的区别
Hadoop与Spark的区别
shuffle阶段的过程详细介绍一下
Spark基于图计算的优势
boosting与bagging的原理以及异同点。
xgboost与lgbm的原理。
用过哪些可视化组件，如何对数据进行可视化分析。
Spark作业运行机制以及Spark各组件运行机制。
MapReduce中map和reduce各自负责什么内容，两个阶段如何衔接。
阐述CRF原理
阐述BiLSTM的BP过程，为何BiLSTM后接一层CRF会有提升？CRF层自己是怎么实现的。23. 如何管理HDFS中的日志数据
自己实现过哪些机器学习算法？
1）单机实现还是多线程实现的
2）多线程如何更新对大量参数多梯度更新
3）实现随机梯度算法的流程是怎样的，样本随机是如何体现的。
scala中的各种算子有使用过吗？说一下map函数、reduceByKey函数的机制
有些过海量数据处理的MapReduce脚本吗？（答：没写过，然后让我想想如何使用MR对大量文本数据进行清洗）
介绍spark-checkpoint的机制，与持久化算子的联系与区别
xgboost的原理介绍一下。
过拟合
正则化
SVM, FM, 协同过滤，树
二叉树中序遍历，递归非递归
kmeans聚类，这个倒不难，就是写起来有些麻烦，写了30分钟
深度学习的一些基础问题
bagging boosting
LRU
（1）java的并发、安全性如何保证
（2）用过哪些java的I/O
（3）linux环境下，在10g数据中如何找到包含某字符串的一行
（4）常用的linux命令。查找某端口的进程与用户
（5）手写一个线程安全的生产者与消费者。
数据挖掘十大算法详解
朴素贝叶斯的优缺点
关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

机器学习可解释性

八、推荐

DeepFM（DeepFM模型CTR预估理论与实战）

九、算法场景题

百度IDL：无给定条件，预测蔬菜价格。提几个特征做预测模型：肉的价格、土壤健康指标、天气情况、国民收入、货币汇率等等。。
网易游戏互娱：给三天时间，获取全世界有多少人玩过德州扑克，只要玩过就算。直接爬虫德州扑克的app。（感觉这个答的好蠢。。）
腾讯MIG：获取聊天表情的标签，比如喜怒哀乐。对腾讯系产品的聊天记录中，表情的上下文聊天文字做情感分析，然后给表情贴标签。
腾讯广点通：给定某人的腾讯系产品信息，判断此人是否有车。我说先做一部分数据标注来判断一部分人是否已经有车，然后提一些消费水平的特征做预测模型
我回答地都很不好，一直觉得场景题不知道怎么回答，直到广点通的面试官很nice地指出了我的问题：我的方法成本高而且过于模糊，要求的是低成本、直接、精度高的方法，也就是人工规则。
类似大众点评的网站有正常用户访问流量，也有同类竞争商家的ｓｐｉｄｅｒ，怎样区分ｓｐｉｄｅｒ和正常访问，我想了下，他说简单说说就行，我就从两者的访问特点分析了一下，对于这个二分类问题选用哪些特征，然后他希望再从ｈｔｔｐ的角度分析一下，然而并不懂，然后照例问有什么问题，然后详细介绍了一下上海这边主要负责滴滴租车业务，业务框架，说的很仔细，
拼车软件是如何定价的以及如何优化；
怎么预测降雨量；
预测平台每日外卖或到店客流量时，节假日往往会被作为噪音处理，但是美团点评算法团队需要给店家提供节假日的客流量预测，如何去预测这个异常值或者说噪音。
遇到极端情况比如天气或者其他因素，平台内会挤压大量订单等待处理，同时客户等待时间会变长，如何设计调度系统使用算法去协调运力或者控制溢价，在不影响用户体验的同时尽快处理挤压订单尽可能缩短外卖小哥的ETA。
目前对于客流量预测精度为天很准确，如何设计online learning的model去对未来某一个特定时间点进行客流量预估。自己感觉这应该都是美团点评在真是业务场景中遇到的问题，自己也根据自己的想法与面试官做了讨论，突然在说的一瞬间觉得这才是machine learning在工业界真实运用的场景，突然觉得自己天天看的书推的公式好渺小…
开放问题：在车和乘客的匹配场景中（一个车匹配一个乘客，不考虑拼车），如何让司机的接单率更高？
给你公司内部群组的聊天记录，怎样区分出主管和员工？如何评估网站内容的真实性（针对代刷、作弊类）？路段平均车速反映了路况，在道路上布控采集车辆速度，如何对路况做出合理估计？采集数据中的异常值如何处理？如何根据语料计算两个词词义的相似度？在百度贴吧里发布 APP 广告，问推荐策略？100亿数字，怎么统计前100大的？
问了一个预估的题目，让你估计早餐市场的规模。
系统设计题，给一个query，如何快速从10亿个query中找出和它最相似的（面试官说可以对每个query找1000个最相似的，存起来，每天离线更新）
设计一个合理的电梯调度策略，调度两个电梯，考虑满足基本的接送需求，满足能耗最小，满足用户等待时间最短（难到我了，我想的方法不好，面试告诉我了他的想法，类似于一个进程调度问题，每一时刻只可能有一个用户按按钮，把这条指令接收，判断当前电梯能否满足，能满足就执行，不能满足则放入一个队列里，实际情况还要细化）
在互联网分析中，通常会关注用户的【第N日激活率】来衡量用户质量。用户的第N日激活指的是用户在注册的第N天登录网站或App，即算为该用户的第N日激活。第N日激活率指的是某日注册用户在第N天激活的数量除以该日所有注册用户数量。
“赤兔”是领英中国针对中国职场人士推出的一款本土化的社交应用。如果你是领英中国的数据分析师，你会从哪些方面和维度来设计各项指标，给产品的设计和运营提供数据上的支持?请给出具体的维度和指标，并说明原因。
比如你现在知道了一个用户访问网站的历史记录，比如时间，流量，高峰期或没有访问之类的数据，让你来分析一下这个用户。我：这个中间和面试官探讨了半天，没有回答好。。
做广告点击率预测，用哪些数据什么算法
用户流失率预测怎么做（游戏公司的数据挖掘都喜欢问这个）
一个游戏的设计过程中该收集什么数据
如何从登陆日志中挖掘尽可能多的信息
如何做一个新闻推荐
开放性问题：每个实体有不同属性，现在有很多实体的各种属性数据，如何判断两个实体是否是同一种东西
如何从登陆日志中挖掘尽可能多的信息http://www.docin.com/p-118297971.html
用户流失率预测怎么做（游戏公司的数据挖掘都喜欢问这个）http://www.docin.com/p-1204742211.html
一个游戏的设计过程中该收集什么数据
做广告点击率预测，用哪些数据什么算法http://bbs.pinggu.org/thread-3182029-1-1.html
场景题一般是面试官工作中遇到的问题，问题一般会比较细，比如说获取某些item的属性标签。
如果问题里没有明确出现“预测”等字眼，最好不要用模型角度去回答问题。因为实际工作中，可能不会为了某个小问题，去动用集群来跑模型，这些小问题可能是用来给跑集群的模型加特征的，应该优先以人工规则来解决。
人工规则可能有隐藏先验条件，就是可以用到这个公司其他产品数据。
解决方案类题目为今日头条设计一个热门评论系统，支持实时更新给定淘宝上同类目同价格范围的两个商品A和B，如何利用淘宝已有的用户、商品数据、搜索数据、评论数据、用户行为数据等所有能拿到的数据进行建模，判断A和B统计平均性价比高低。统计平均性价比的衡量标准是大量曝光，购买者多则高。有n个elements和1个Compare(A, B)函数，用Compare函数作为排序算法中的比较算子给elements排序。Compare函数有p的可能比较错。排序完取Top m个元素，本来就在Top m并被正确分在Top m的元素个数是x。问x的数学期望。如何预测双十一支付宝的负载峰值。
给你1000w篇文档或html，如何判断是否为体育类的新闻，需要给出系统的方法；答：分词＋人工判定＋词库＋SVM训练。
设计一个系统可以实时统计任意 ip 在过去一个小时的访问量；

十、算法

[动态规划] https://www.cnblogs.com/frankchenfu/p/7107019.html
简单
给你一个很大的文件，文件里有很多行数据，每一行数据是一个用户的uid，表示这个用户点开过抖音，请你找出打开抖音次数最频繁的前10个用户。（假如抖音里面有5亿用户，那么每个用户打开一次抖音就有5亿条记录，如果每个用户打开两次抖音，就有10亿条记录。也就是说，用户每打开一次抖音，就记录一下他的uid。请找出打开抖音次数最频繁的前10个用户）
推荐算法
概率题：抛2k+1次硬币，问正面次数比背面多的概率是多大，并讲出数学证明思路。
类似Leetcode No.11，但是问题是改成一共能装多少水。写代码，并测试。
给N个数字，返回这N个数字能组成的所有二叉搜索树。这道题跪了，之前没做过这个类型的题，面试官提示下有了思路，用分治法，递归。我说我先写下伪代码，对方也不置可否，写完后面试官就说面试结束了。反思了一下，这个题实在是做的不好，其实也没有难到无从下手，但是一上来没思路，自己就慌了。而且，面试官提示思路后，应该先写代码，实现二叉树搜索树类，再写算法。就算算法最后写的不对，也能展示代码一点代码能力，写伪代码的话思路不对就全完了。
二叉树输出给定节点到目标节点的路径
寻找两个字符串中只有首尾字符相同的所有子串，例如 ABCDE 和 ADCAE中包含（ABC–ADC）以及（CDE–CAE）
寻找链表是否有环
将数组元素划分成两部分，两部分和的差最小，数组顺序可变；
智力题，在一个圆环上随机添加3个点，三个点组成一个锐角三角形的概率；
推导逻辑斯蒂回归/线性支持向量机算法；
在一个圆环上随机添加3点，三个点组成一个锐角三角形的概率；
用积分计算上述概率；用程序解决上述问题（多次采样取平均值，如何判断三个点能够组成锐角三角形，通过三条边的边长关系，或根据后两个点相对第一个点的角度关系）
深度学习，推导反向传播算法，知道什么激活函数，不用激活函数会怎么样，ROC与precesion/recall评估模型的手段有何区别，什么情况下应该用哪一种？深度学习如何参数初始化？
介绍AdaBoost算法；
介绍梯度下降，随机梯度下降
写出逻辑斯蒂回归的损失函数；
C++ ，虚函数，虚析构函数。
分层遍历二叉树，相邻层的遍历方向相反，如第一层从左到右遍历，下一层从右向左遍历

十一、总结

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生