震惊!世上最全的人工智能知识总结!
深度学习机器学习哪些常用的机器学习算法?回归算法有:线性回归、Lasso回归、岭回归。分类算法有:逻辑回归、决策树、贝叶斯、SVM、神经网络、集成学习。聚类算法有:k-means、层次聚类、(密度聚类不敢说,因为切实忘了原理过程)。详细的讲解一下,线性回归的原理么?线性回归的回归模型为 y=WTX{y = W^{T}X}y=WTX,就是训练一条直线来拟合我们的训练数据,根据这个训练好的线性函数来预
一、数学
二、语言基础
C++
- vector、list、map有什么区别
- 引用和指针
- 多态问题,继承,构造析构
- C++ 11举例子几个新的特性,以及你用过的
- auto你觉得方便吗
- 虚函数
- 内存分配(堆和栈的区别讲解)
- Python问题lambda函数讲一下、类型转换如何操作
Linux
- Linux 权限的意义
- 块操作的操作的步骤以及快捷方式
- rm -rf *这句话是什么意思(吃惊脸,这我会不知道?!!!)
- linux top命令查看内存及多核CPU的使用讲述
Python
- 使用gc、objgraph干掉python内存泄露与循环引用!
- Python内存优化:Profile,slots,compact dict
- 【Python魔术方法】迭代器(iter__和__next)
- numpy中argsort函数用法
- Python第十天 print >> f,和fd.write()的区别
- SWIG 实现 Python 调用 C/C++
- Python 使用unicodedata来判断所有标点符号方法及示例代码
- 使用Joblib并行运行Python代码
- python需要加载多个.so文件的问题
- Python 调用 C 共享库
- sparkContext的addFile和addPyFile
- 《Cython系列》2. 编译并运行 Cython 代码的几种方式
正则表达式相关:
三、框架
Flink
- Flink 原理与实现:理解 Flink 中的计算资源
- Flink 原理与实现:如何生成 StreamGraph
- Flink 原理与实现:架构和拓扑概览
- Flink DataStream API 概述及作业如何转换为 StreamGraph
- flink 源码分析1之RichSinkFunction
- 使用flink-connector-clickhouse写入ClickHouse
- 聊聊flink的Tumbling Window
- flink教程-聊聊 flink 1.11 中新的水印策略
- Flink v1.12 doc
Tensorflow
- Tensorflow基础知识—损失函数详解
参考:TensorFlow四种Cross Entropy算法实现和应用
tf.nn.softmax_cross_entropy_with_logits的用法 - tf.nn.embedding_lookup() 详解
- TensorFlow函数:tf.estimator.RunConfig
- 手把手教你使用TF服务将TensorFlow模型部署到生产环境
- 如何用TF Serving部署TensorFlow模型
- TensorRT(1)-介绍-使用-安装
- TensorRT安装及使用教程
- 经典CTR模型
- LR+FTRL算法原理以及工程化实现
- tensorflow输入管道性能指南
- tf.contrib.layers.layer_norm使用说明
- keras Lambda 层
- cuDNN 5对RNN模型的性能优化
- cuDNN 5对RNN模型的性能优化
- 干货 | 解读加实战:爆款论文 SRU 在对话生成上的效果
Pytorch
四、NLP
五、广告算法
- 深入FFM原理与实践
- 用 FTRL 训练 FM 模型
- 贝壳找房一镜到底:FM 们的原理及在贝壳搜索的实践
- 基于spark训练点击率预估模型
- 深度学习技术在美图个性化推荐的应用实践
- 深入浅出Word2Vec原理解析
- 深度学习推荐系统中各类流行的Embedding方法(上)
- DSSM:深度语义匹配模型(及其变体CLSM、LSTM-DSSM)
- 推荐场景中——DSSM双塔召回模型讲解和应用
- 推荐场景——YouTubeNet召回模型讲解及应用
- DeepFM模型CTR预估理论与实战
- 推荐算法之: DeepFM及使用DeepCTR测试
- 推荐系统评价指标:AUC和GAUC
- [阿里DIN] 深度兴趣网络源码分析 之 整体代码结构
- [论文解读] 阿里DIEN整体代码结构
- Airbnb实时搜索排序中的Embedding技巧
- 从KDD 2018 Best Paper看Airbnb实时搜索排序中的Embedding技巧
- 万物皆向量——双十一淘宝首页个性化推荐背后的秘密
- Zillions of Homepages for Zillions of Customers
六、深度学习
- YOLO V2 V3你对哪个熟悉,讲一下细节实现
- 多尺度问题
- anchor基础知识
- 人脸识别现在常用算法
- 语义分割到实例分割怎么做
- GAN是否了解,如何通俗的讲其原理
- PCA原理LDA原理
- SVM+HOG
- XGBoost
- CNN、RCNN、FRCNN,有可能问你其中一个细节的关键
- TensorFlow这些框架你谈一下看法以及对其他框架的了解
- 现在机器学习、深度学习这么火,你有什么看法
- 机器学习、深度学习你对他们的理解是什么
- 做门牌或者车牌识别的步骤以及关键
- Relu比Sigmoid使用多的原因
- Loss不升反降的原因,如何解决
- SSD细节
- softmax、多个logistic的各自的优势?1、类别数爆炸,2、推了下softmax反向传播的公式,来对比两者的优劣。
- 如何解决小目标:为什么要深层、浅层featureMap concat?提了点细节和我踩的坑,需要数量级上的调整,不然深层的feature可能会被压制。Cascade的思想? 说了下我的摸索的一个过程。改变样本分布,困难样本挖掘,能达到比较好的效果。文字识别使用ctc loss的一些细节。
- CNN的FLOPs的计算
- 深度学习——优化器算法Optimizer详解(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)
- Group Convolution分组卷积,以及Depthwise Convolution和Global Depthwise Convolution
- GELU (Gaussian Error Linerar Units)
- 【像训练CNN一样快速训练RNN】全新RNN实现,比优化后的LSTM快10倍
- Pytorch剪枝算法
经典神经网络详解
- 语义分割丨DeepLab系列总结「v1、v2、v3、v3+」
- 论文笔记:分形网络(FractalNet: Ultra-Deep Neural Networks without Residuals)DropPath
- YOLO 算法最全综述:从 YOLOv1 到 YOLOv5
七、机器学习
机器学习基础
机器学习算法
-
哪些常用的机器学习算法?
回归算法有:线性回归、Lasso回归、岭回归。分类算法有:逻辑回归、决策树、贝叶斯、SVM、神经网络、集成学习。聚类算法有:k-means、层次聚类、(密度聚类不敢说,因为切实忘了原理过程)。 -
详细的讲解一下,线性回归的原理么?
线性回归的回归模型为 y = W T X {y = W^{T}X} y=WTX,就是训练一条直线来拟合我们的训练数据,根据这个训练好的线性函数来预测数值。 -
讲解一下线性回归的底层原理,比若说如何训练,如何得到参数,如何调整参数等?
-
讲解一下逻辑回归的原理吧!
-
详细的讲解一下朴素贝叶斯的底层原理,比如说,如何选参数,如何训练模型,如何做分类?
朴素贝叶斯的朴素其实是样例中特征之间相互独立。 -
深度学习中的梯度消失是什么,如何解决?
详详细细的把梯度消失的现象,造成的实质原因,和三种解决办法讲了一遍。
三种解决办法:
(1)修改激活函数。
(2)用BN
(3)把传统的循环神经网络,换成GRU网络。 -
数据结构中,什么是平衡二叉树?
平衡二叉树(Balanced Binary Tree)又被称为AVL树(有别于AVL算法),且具有以下性质:它是一 棵空树或它的左右两个子树的高度差的绝对值不超过1,并且左右两个子树都是一棵平衡二叉树。
(1)什么是二叉树?
每个节点最多只能有两个子节点的叫二叉树
(2)平衡二叉树的应用都有哪些?
正确的回答应该是B-树和B+树。 -
xgb、lgbm调参方法
-
模型融合方法
-
深度学习与机器学习的异同及联系。
-
梯度消失/爆炸问题 原因,解决措施。
-
SVM原理,与感知机的区别
-
Hadoop与Spark的区别
-
shuffle阶段的过程详细介绍一下
-
Spark基于图计算的优势
-
boosting与bagging的原理以及异同点。
-
xgboost与lgbm的原理。
-
用过哪些可视化组件,如何对数据进行可视化分析。
-
Spark作业运行机制以及Spark各组件运行机制。
-
MapReduce中map和reduce各自负责什么内容,两个阶段如何衔接。
-
阐述CRF原理
-
阐述BiLSTM的BP过程,为何BiLSTM后接一层CRF会有提升?CRF层自己是怎么实现的。23. 如何管理HDFS中的日志数据
-
自己实现过哪些机器学习算法?
1)单机实现还是多线程实现的
2)多线程如何更新对大量参数多梯度更新
3)实现随机梯度算法的流程是怎样的,样本随机是如何体现的。 -
scala中的各种算子有使用过吗?说一下map函数、reduceByKey函数的机制
-
有些过海量数据处理的MapReduce脚本吗?(答:没写过,然后让我想想如何使用MR对大量文本数据进行清洗)
-
介绍spark-checkpoint的机制,与持久化算子的联系与区别
-
xgboost的原理介绍一下。
-
过拟合
-
正则化
-
SVM, FM, 协同过滤,树
-
二叉树中序遍历,递归非递归
-
kmeans聚类,这个倒不难,就是写起来有些麻烦,写了30分钟
-
深度学习的一些基础问题
-
bagging boosting
-
LRU
-
(1)java的并发、安全性如何保证
(2)用过哪些java的I/O
(3)linux环境下,在10g数据中如何找到包含某字符串的一行
(4)常用的linux命令。查找某端口的进程与用户
(5)手写一个线程安全的生产者与消费者。 -
朴素贝叶斯的优缺点
机器学习可解释性
八、推荐
- DeepFM(DeepFM模型CTR预估理论与实战)
九、算法场景题
- 百度IDL:无给定条件,预测蔬菜价格。 提几个特征做预测模型:肉的价格、土壤健康指标、天气情况、国民收入、货币汇率等等。。
- 网易游戏互娱:给三天时间,获取全世界有多少人玩过德州扑克,只要玩过就算。直接爬虫德州扑克的app。(感觉这个答的好蠢。。)
- 腾讯MIG:获取聊天表情的标签,比如喜怒哀乐。对腾讯系产品的聊天记录中,表情的上下文聊天文字做情感分析,然后给表情贴标签。
- 腾讯广点通:给定某人的腾讯系产品信息,判断此人是否有车。我说先做一部分数据标注来判断一部分人是否已经有车,然后提一些消费水平的特征做预测模型
我回答地都很不好,一直觉得场景题不知道怎么回答,直到广点通的面试官很nice地指出了我的问题:我的方法成本高而且过于模糊,要求的是低成本、直接、精度高的方法,也就是人工规则。 - 类似大众点评的网站有正常用户访问流量,也有同类竞争商家的spider,怎样区分spider和正常访问,我想了下,他说简单说说就行,我就从两者的访问特点分析了一下,对于这个二分类问题选用哪些特征,然后他希望再从http的角度分析一下,然而并不懂,然后照例问有什么问题,然后详细介绍了一下上海这边主要负责滴滴租车业务,业务框架,说的很仔细,
- 拼车软件是如何定价的以及如何优化;
- 怎么预测降雨量;
- 预测平台每日外卖或到店客流量时,节假日往往会被作为噪音处理,但是美团点评算法团队需要给店家提供节假日的客流量预测,如何去预测这个异常值或者说噪音。
- 遇到极端情况比如天气或者其他因素,平台内会挤压大量订单等待处理,同时客户等待时间会变长,如何设计调度系统使用算法去协调运力或者控制溢价,在不影响用户体验的同时尽快处理挤压订单尽可能缩短外卖小哥的ETA。
- 目前对于客流量预测精度为天很准确,如何设计online learning的model去对未来某一个特定时间点进行客流量预估。自己感觉这应该都是美团点评在真是业务场景中遇到的问题,自己也根据自己的想法与面试官做了讨论,突然在说的一瞬间觉得这才是machine learning在工业界真实运用的场景,突然觉得自己天天看的书推的公式好渺小…
- 开放问题:在车和乘客的匹配场景中(一个车匹配一个乘客,不考虑拼车),如何让司机的接单率更高?
给你公司内部群组的聊天记录,怎样区分出主管和员工?如何评估网站内容的真实性(针对代刷、作弊类)?路段平均车速反映了路况,在道路上布控采集车辆速度,如何对路况做出合理估计?采集数据中的异常值如何处理?如何根据语料计算两个词词义的相似度?在百度贴吧里发布 APP 广告,问推荐策略?100亿数字,怎么统计前100大的? - 问了一个预估的题目,让你估计早餐市场的规模。
- 系统设计题,给一个query,如何快速从10亿个query中找出和它最相似的 (面试官说可以对每个query找1000个最相似的,存起来,每天离线更新)
- 设计一个合理的电梯调度策略,调度两个电梯 ,考虑满足基本的接送需求,满足能耗最小,满足用户等待时间最短 (难到我了,我想的方法不好,面试告诉我了他的想法,类似于一个进程调度问题,每一时刻只可能有一个用户按按钮,把这条指令接收,判断当前电梯能否满足,能满足就执行,不能满足则放入一个队列里,实际情况还要细化)
- 在互联网分析中,通常会关注用户的【第N日激活率】来衡量用户质量。用户的第N日激活指的是用户在注册的第N天登录网站或App,即算为该用户的第N日激活。第N日激活率指的是某日注册用户在第N天激活的数量除以该日所有注册用户数量。
- “赤兔”是领英中国针对中国职场人士推出的一款本土化的社交应用。如果你是领英中国的数据分析师,你会从哪些方面和维度来设计各项指标,给产品的设计和运营提供数据上的支持?请给出具体的维度和指标,并说明原因。
- 比如你现在知道了一个用户访问网站的历史记录,比如时间,流量,高峰期或没有访问之类的数据,让你来分析一下这个用户。我:这个中间和面试官探讨了半天,没有回答好。。
- 做广告点击率预测,用哪些数据什么算法
- 用户流失率预测怎么做(游戏公司的数据挖掘都喜欢问这个)
- 一个游戏的设计过程中该收集什么数据
- 如何从登陆日志中挖掘尽可能多的信息
- 如何做一个新闻推荐
- 开放性问题:每个实体有不同属性,现在有很多实体的各种属性数据,如何判断两个实体是否是同一种东西
- 如何从登陆日志中挖掘尽可能多的信息http://www.docin.com/p-118297971.html
- 用户流失率预测怎么做(游戏公司的数据挖掘都喜欢问这个)http://www.docin.com/p-1204742211.html
- 一个游戏的设计过程中该收集什么数据
- 做广告点击率预测,用哪些数据什么算法http://bbs.pinggu.org/thread-3182029-1-1.html
场景题一般是面试官工作中遇到的问题,问题一般会比较细,比如说获取某些item的属性标签。
如果问题里没有明确出现“预测”等字眼,最好不要用模型角度去回答问题。因为实际工作中,可能不会为了某个小问题,去动用集群来跑模型,这些小问题可能是用来给跑集群的模型加特征的,应该优先以人工规则来解决。
人工规则可能有隐藏先验条件,就是可以用到这个公司其他产品数据。 - 解决方案类题目为今日头条设计一个热门评论系统,支持实时更新给定淘宝上同类目同价格范围的两个商品A和B,如何利用淘宝已有的用户、商品数据、搜索数据、评论数据、用户行为数据等所有能拿到的数据进行建模,判断A和B统计平均性价比高低。统计平均性价比的衡量标准是大量曝光,购买者多则高。有n个elements和1个Compare(A, B)函数,用Compare函数作为排序算法中的比较算子给elements排序。Compare函数有p的可能比较错。排序完取Top m个元素,本来就在Top m并被正确分在Top m的元素个数是x。问x的数学期望。如何预测双十一支付宝的负载峰值。
- 给你1000w篇文档或html,如何判断是否为体育类的新闻,需要给出系统的方法;答:分词+人工判定+词库+SVM训练。
- 设计一个系统可以实时统计任意 ip 在过去一个小时的访问量;
十、算法
- [动态规划] https://www.cnblogs.com/frankchenfu/p/7107019.html
- 简单
- 给你一个很大的文件,文件里有很多行数据,每一行数据是一个用户的uid,表示这个用户点开过抖音,请你找出打开抖音次数最频繁的前10个用户。(假如抖音里面有5亿用户,那么每个用户打开一次抖音就有5亿条记录,如果每个用户打开两次抖音,就有10亿条记录。也就是说,用户每打开一次抖音,就记录一下他的uid。请找出打开抖音次数最频繁的前10个用户)
- 推荐算法
- 概率题:抛2k+1次硬币,问正面次数比背面多的概率是多大,并讲出数学证明思路。
- 类似Leetcode No.11,但是问题是改成一共能装多少水。写代码,并测试。
- 给N个数字,返回这N个数字能组成的所有二叉搜索树。这道题跪了,之前没做过这个类型的题,面试官提示下有了思路,用分治法,递归。我说我先写下伪代码,对方也不置可否,写完后面试官就说面试结束了。反思了一下,这个题实在是做的不好,其实也没有难到无从下手,但是一上来没思路,自己就慌了。而且,面试官提示思路后,应该先写代码,实现二叉树搜索树类,再写算法。就算算法最后写的不对,也能展示代码一点代码能力,写伪代码的话思路不对就全完了。
- 二叉树输出给定节点到目标节点的路径
- 寻找两个字符串中只有首尾字符相同的所有子串,例如 ABCDE 和 ADCAE中包含(ABC–ADC)以及(CDE–CAE)
- 寻找链表是否有环
- 将数组元素划分成两部分,两部分和的差最小,数组顺序可变;
- 智力题,在一个圆环上随机添加3个点,三个点组成一个锐角三角形的概率;
- 推导逻辑斯蒂回归/线性支持向量机算法;
- 在一个圆环上随机添加3点,三个点组成一个锐角三角形的概率;
用积分计算上述概率;用程序解决上述问题(多次采样取平均值,如何判断三个点能够组成锐角三角形,通过三条边的边长关系,或根据后两个点相对第一个点的角度关系) - 深度学习,推导反向传播算法,知道什么激活函数,不用激活函数会怎么样,ROC与precesion/recall评估模型的手段有何区别,什么情况下应该用哪一种?深度学习如何参数初始化?
- 介绍AdaBoost算法;
- 介绍梯度下降,随机梯度下降
- 写出逻辑斯蒂回归的损失函数;
- C++ ,虚函数,虚析构函数。
- 分层遍历二叉树,相邻层的遍历方向相反,如第一层从左到右遍历,下一层从右向左遍历
十一、总结
更多推荐
所有评论(0)