b****u 发帖数: 1130 | 1 给DS的题。
第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
(具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低到2
,然后问大概要多少用户)
然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再
问了。
我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个
包,干了啥事。 |
f*********t 发帖数: 17 | 2 what's the interviewee's profile?
【在 b****u 的大作中提到】 : 给DS的题。 : 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。 : 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。 : (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低到2 : ,然后问大概要多少用户) : 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再 : 问了。 : 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个 : 包,干了啥事。
|
m******r 发帖数: 1033 | 3 你出的题,不是难,而是在工作中根本用不到。还不如丢给对方一本<概率论与数理统
计>, 一个上午能做多少算多少。
或者,默写个正太分布公式 |
b****u 发帖数: 1130 | 4 那你叫我问啥吗。
每个人简历上都说的天花乱坠,看上去啥个machine learning都会。
算法问的深一点,碰到数学了,那就更歇菜了。
【在 m******r 的大作中提到】 : 你出的题,不是难,而是在工作中根本用不到。还不如丢给对方一本<概率论与数理统 : 计>, 一个上午能做多少算多少。 : 或者,默写个正太分布公式
|
x**********i 发帖数: 658 | 5 我也觉得出个project,让面试者说说想法可能好些,出题一下可能确实想不起来 |
n******t 发帖数: 4406 | 6 不難,這種人當然不能要。
所以這種東西答不上來的人,活都應該out source到中國。
【在 b****u 的大作中提到】 : 给DS的题。 : 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。 : 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。 : (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低到2 : ,然后问大概要多少用户) : 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再 : 问了。 : 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个 : 包,干了啥事。
|
w***g 发帖数: 5958 | 7 第二个我也不会。
方差由分布决定,和增加采样有什么关系。
标准正太分布方差就是1, 再怎么采样也还是1,最多估计的精确点。
我又去查了下google,确定我理解没有错误。
肯定是你问的不对,自己搞错概念了。
【在 b****u 的大作中提到】 : 给DS的题。 : 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。 : 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。 : (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低到2 : ,然后问大概要多少用户) : 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再 : 问了。 : 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个 : 包,干了啥事。
|
r*g 发帖数: 3159 | 8 问1/sqrt(N)吧。这可经常用到。
【在 w***g 的大作中提到】 : 第二个我也不会。 : 方差由分布决定,和增加采样有什么关系。 : 标准正太分布方差就是1, 再怎么采样也还是1,最多估计的精确点。 : 我又去查了下google,确定我理解没有错误。 : 肯定是你问的不对,自己搞错概念了。
|
w***g 发帖数: 5958 | 9 我估计他要问某个大数定理之类的东西。这个确实早就不会了。
【在 r*g 的大作中提到】 : 问1/sqrt(N)吧。这可经常用到。
|
T*******x 发帖数: 8565 | 10 是sampling mean的方差。sampling mean本身是个random variable,有方差,不是原
分布的方差。
:第二个我也不会。
:方差由分布决定,和增加采样有什么关系。 |
|
|
M********0 发帖数: 1230 | 11 https://zhuanlan.zhihu.com/p/29680950
【在 w***g 的大作中提到】 : 第二个我也不会。 : 方差由分布决定,和增加采样有什么关系。 : 标准正太分布方差就是1, 再怎么采样也还是1,最多估计的精确点。 : 我又去查了下google,确定我理解没有错误。 : 肯定是你问的不对,自己搞错概念了。
|
w***g 发帖数: 5958 | 12 这个确实是基础的统计知识。所以我很明智地在逼所有我手下的人学
python和javascript。data scientist这一行,我自己都过不了面试。
就是楼上说的,稍微问到点数学就不行了。
【在 T*******x 的大作中提到】 : 是sampling mean的方差。sampling mean本身是个random variable,有方差,不是原 : 分布的方差。 : : :第二个我也不会。 : :方差由分布决定,和增加采样有什么关系。
|
M********0 发帖数: 1230 | 13 我是觉得这两个题不是难不难的问题
而是能不能反映出面试者在工作中的能力 这两个题都很基础 在学校考试里都是基础
题 但是工作面试中不一定是合适的面试题
能回答对的人 说明这人的记忆,理解,基础不错 但没法说明这人的business sense或
者对工作中需要的tools更熟悉
反之亦然
觉得面试还是应该更全面考察 而不是一两道认为很简单基础的题没答上就彻底否定了
面试者
当然你要找的是个牛人除外 什么都懂的牛人自然是最好的选择
【在 b****u 的大作中提到】 : 那你叫我问啥吗。 : 每个人简历上都说的天花乱坠,看上去啥个machine learning都会。 : 算法问的深一点,碰到数学了,那就更歇菜了。
|
w***g 发帖数: 5958 | 14 我觉得基础题还是有用的。比如楼主这个基础题一出,基本上就判断出了
我跟楼主和楼上能答上来的同学不是一行的。不是一行的,说的不是一个
语言,以后工作估计就会有各种问题。
【在 M********0 的大作中提到】 : 我是觉得这两个题不是难不难的问题 : 而是能不能反映出面试者在工作中的能力 这两个题都很基础 在学校考试里都是基础 : 题 但是工作面试中不一定是合适的面试题 : 能回答对的人 说明这人的记忆,理解,基础不错 但没法说明这人的business sense或 : 者对工作中需要的tools更熟悉 : 反之亦然 : 觉得面试还是应该更全面考察 而不是一两道认为很简单基础的题没答上就彻底否定了 : 面试者 : 当然你要找的是个牛人除外 什么都懂的牛人自然是最好的选择
|
m******r 发帖数: 1033 | 15 作为一个民科,概率论和数理统计倒背如流是最基本的。 如果倒背如流了,还搞不出
名堂, 就应该考虑换个方向了。
如果我是来面试,第一题不仅能写全条件概率公式,还应该展开说说在实践中是怎么找
到这个'条件'的, 比如怎么把客户群按照何种'条件'分类, 看客户行为的。 用什么方
法找到这个条件的? 代码怎么写?
第二题,在实际应用中则是个样本大小的问题。样本大小在统计里是个没有定论的题目
,应聘者应该说说是怎么和客户忽悠,计算出required sample size的。 几个月前<细
胞>有人建议把百分之五改成千分之五,生物版马上有人推算出小白鼠的数量要增加百
分之多少。
这就是我们民科的基本功。 |
g*******u 发帖数: 3948 | 16 适合问刚毕业的
工作的 谁用这玩意
语法我都是现 stackoverflow
我会考考算法 编程能力 这个强的话 出活快
基本的那些统计 感觉 自己补补也就够了 如果需要的话, 况且很多情况谁用这破玩意
啊都是直接用现成的工具跑啊 编程啊 实现啊 谁管具体原理, 抓住猫就是好老鼠啊 |
b****u 发帖数: 1130 | 17 就是刚毕业一年的所以我才问了问。
我倒是想考算法,不过结果会更差。
【在 g*******u 的大作中提到】 : 适合问刚毕业的 : 工作的 谁用这玩意 : 语法我都是现 stackoverflow : 我会考考算法 编程能力 这个强的话 出活快 : 基本的那些统计 感觉 自己补补也就够了 如果需要的话, 况且很多情况谁用这破玩意 : 啊都是直接用现成的工具跑啊 编程啊 实现啊 谁管具体原理, 抓住猫就是好老鼠啊
|
n******7 发帖数: 12463 | 18 感觉楼主想问的是standard error
: 第二个我也不会。
: 方差由分布决定,和增加采样有什么关系。
: 标准正太分布方差就是1, 再怎么采样也还是1,最多估计的精确点。
: 我又去查了下google,确定我理解没有错误。
: 肯定是你问的不对,自己搞错概念了。
【在 w***g 的大作中提到】 : 我觉得基础题还是有用的。比如楼主这个基础题一出,基本上就判断出了 : 我跟楼主和楼上能答上来的同学不是一行的。不是一行的,说的不是一个 : 语言,以后工作估计就会有各种问题。
|
g*****y 发帖数: 7271 | 19 这两题都很容易。可以因为很少用到或理解有误一时答不出来,
但是在你提示和解释疑惑的过程中,还是可以看出他是否理解
基本概念,这都不理解的就不要指望能在DS工作方面能做啥了。
当然帮写些scripts做些杂事可能还是可以的。
到2
【在 b****u 的大作中提到】 : 给DS的题。 : 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。 : 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。 : (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低到2 : ,然后问大概要多少用户) : 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再 : 问了。 : 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个 : 包,干了啥事。
|
e*******o 发帖数: 4654 | 20 我插一句,要看职位pay多少。10万以下,问这样的问题确实太难了。要是20万以上的
包裹,这个可以。
我曾经有个电面,问了大半天,还把我数落了一番,然后工资。。,浪费了电话费和时
间。 |
|
|
g****t 发帖数: 31659 | 21 这个看你是要找modeling和算法的人,还是找马工。
做统计的不知道1/sqrt(N)显然不合格。你的问题不难。
我们EE的都知道啊。 |
g****t 发帖数: 31659 | 22 答不上来的可能需要很长时间的训练才能理解统计背后的
物理和解决实际问题的办法。这倒不是数学问题。
这类似于rules of thumb
: 我觉得基础题还是有用的。比如楼主这个基础题一出,基本上就判断出了
: 我跟楼主和楼上能答上来的同学不是一行的。不是一行的,说的不是一个
: 语言,以后工作估计就会有各种问题。
【在 w***g 的大作中提到】 : 我觉得基础题还是有用的。比如楼主这个基础题一出,基本上就判断出了 : 我跟楼主和楼上能答上来的同学不是一行的。不是一行的,说的不是一个 : 语言,以后工作估计就会有各种问题。
|
g****t 发帖数: 31659 | 23 楼主在达拉斯吗?给我20万我就投奔了
这个价格你估计的高了点。我们这里principal data scientist没这个base
: 我插一句,要看职位pay多少。10万以下,问这样的问题确实太难了。要
是20万
以上的
: 包裹,这个可以。
: 我曾经有个电面,问了大半天,还把我数落了一番,然后工资。。,浪费
了电话
费和时
: 间。
【在 e*******o 的大作中提到】 : 我插一句,要看职位pay多少。10万以下,问这样的问题确实太难了。要是20万以上的 : 包裹,这个可以。 : 我曾经有个电面,问了大半天,还把我数落了一番,然后工资。。,浪费了电话费和时 : 间。
|
g****t 发帖数: 31659 | 24 你不做算法所以用不到
他找的是DS
不是data engineer
: 适合问刚毕业的
: 工作的 谁用这玩意
: 语法我都是现 stackoverflow
: 我会考考算法 编程能力 这个强的话 出活快
: 基本的那些统计 感觉 自己补补也就够了 如果需要的话, 况且很多情况谁用这
破玩意
: 啊都是直接用现成的工具跑啊 编程啊 实现啊 谁管具体原理, 抓住猫就是好
老鼠啊
【在 g*******u 的大作中提到】 : 适合问刚毕业的 : 工作的 谁用这玩意 : 语法我都是现 stackoverflow : 我会考考算法 编程能力 这个强的话 出活快 : 基本的那些统计 感觉 自己补补也就够了 如果需要的话, 况且很多情况谁用这破玩意 : 啊都是直接用现成的工具跑啊 编程啊 实现啊 谁管具体原理, 抓住猫就是好老鼠啊
|
z*******1 发帖数: 206 | 25 试做一下,请勿见笑!
第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
P(A|B)=P(AB)/P(B)
第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。
(具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低到2
,然后问大概要多少用户)
不怎么确定“采样方差”,看题应该是该standard error (标准误),如果理解准确
的话,应该是
2500采样。 |
d********f 发帖数: 43471 | 26 这种都是商学院考mba的题,没有实际价值阿
到2
【在 b****u 的大作中提到】 : 给DS的题。 : 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。 : 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。 : (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低到2 : ,然后问大概要多少用户) : 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再 : 问了。 : 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个 : 包,干了啥事。
|
i********f 发帖数: 206 | 27 楼主第二题应该问的是the standard error of the mean吧,这个值才和取样的多少相
关 |
l*****e 发帖数: 594 | 28 同觉得不难,我是EE的。这两个都是本科概率的基本概念。不过楼主第二个问题是估值
的方差,而且还需要假设sample的独立性。 |
l*****e 发帖数: 594 | 29 应该是D{estimate of variance}
具体数字得看estimate是有偏还是无偏吧,我记得无偏是除N-1,这样就是sqrt(N-1)吧
【在 i********f 的大作中提到】 : 楼主第二题应该问的是the standard error of the mean吧,这个值才和取样的多少相 : 关
|
R*****g 发帖数: 33 | 30 楼主的第二个问题可是具体到“要多少样本才能降低方差”。 这哥们好像自己就不懂
【在 i********f 的大作中提到】 : 楼主第二题应该问的是the standard error of the mean吧,这个值才和取样的多少相 : 关
|
|
|
L****8 发帖数: 3938 | 31 这两个题答上来 给多少钱?
到2
【在 b****u 的大作中提到】 : 给DS的题。 : 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。 : 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。 : (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低到2 : ,然后问大概要多少用户) : 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再 : 问了。 : 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个 : 包,干了啥事。
|
r*******e 发帖数: 510 | 32 如果招统计的,这两题不会就淘汰了吧。 本科统计就学过。 我PHD 毕业五年了, 这
两题一点问题都没有, 因为确实太太基础了。 |
g****t 发帖数: 31659 | 33 我机械系毕业十几年了这问题都没问题……
: 如果招统计的,这两题不会就淘汰了吧。 本科统计就学过。 我PHD 毕业五年了
, 这
: 两题一点问题都没有, 因为确实太太基础了。
【在 r*******e 的大作中提到】 : 如果招统计的,这两题不会就淘汰了吧。 本科统计就学过。 我PHD 毕业五年了, 这 : 两题一点问题都没有, 因为确实太太基础了。
|
r*******e 发帖数: 510 | 34 你理解得没错,答得也没错。可能您也确实不是统计毕业,我猜是CS, EE之类的神。
题主确实没有表述清楚,可能打字只是打了一个大意。 这类问题太基础了, 题主刚说
前半句,按照统计的惯性思维就知道他想问什么了,如果在面试中, 让题主多解释一
下, 或者一问一答,去年才毕业,不至于呆若木鸡, 不停说忘了, 确实过于不去。
【在 w***g 的大作中提到】 : 第二个我也不会。 : 方差由分布决定,和增加采样有什么关系。 : 标准正太分布方差就是1, 再怎么采样也还是1,最多估计的精确点。 : 我又去查了下google,确定我理解没有错误。 : 肯定是你问的不对,自己搞错概念了。
|
r*******e 发帖数: 510 | 35 这话99%情况都没错, 但是组里还是需要一个懂数学或者统计的。 有时候明明是一个
数学问题, 能够很快得结论,而且很准确,缺乏这方面的训练, 可能解决方案就是上
simulation, 跑程序, 跑出来结论肯定没错,但是有时候会花很多不必要的时间。现
在很多DS 简历吹得天花乱坠,其实也就是用了PYTHON几个包, 稍微让他们评价比较
一下算法都不行,还不如花个7,8万雇个啥都不懂的,直接让他们根据指示跑程序当机
器人用。
编程能力非常重要,没话说。当然如果你算法大牛,也许编程也不重要了。
【在 g*******u 的大作中提到】 : 适合问刚毕业的 : 工作的 谁用这玩意 : 语法我都是现 stackoverflow : 我会考考算法 编程能力 这个强的话 出活快 : 基本的那些统计 感觉 自己补补也就够了 如果需要的话, 况且很多情况谁用这破玩意 : 啊都是直接用现成的工具跑啊 编程啊 实现啊 谁管具体原理, 抓住猫就是好老鼠啊
|
w********m 发帖数: 1137 | 36 统计方向面试的最大问题是,不像IT面试那样有context。
楼主问的问题没错,可以加点context。
第一题,可以问,明天天气又打雷又下雨的概率怎么求。
第二题,有一个只有一个柜台但是有一个人要checkout的商场,还有一个有十个柜台但
是有十个人准备checkout的商店,选择哪一个。
这样大家就有的东西聊了。
面试就是一个考察沟通的问题,双方都有沟通的义务。
大家都是互相学习嘛,抬头不见低头见。去面试的就算拿不到offer,学点东西也是很
高兴的。 |
G**S 发帖数: 339 | 37 楼主,你这两道题都出得有问题,就别光怪面试者了。
P(AB)是啥意思? P(A)*P(B) 还是 P(AnB)?
方差是standard deviation,是分布的固有性质,没法降低。能降低的叫标准误差
standard error,这个才可能跟采样数量相关。而且本身分布不确定的时候,你要套用
大数定理,这个数量也不够大。
到2
【在 b****u 的大作中提到】 : 给DS的题。 : 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。 : 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。 : (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低到2 : ,然后问大概要多少用户) : 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再 : 问了。 : 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个 : 包,干了啥事。
|
m*****n 发帖数: 3644 | 38 你应该不是统计口的。
【在 G**S 的大作中提到】 : 楼主,你这两道题都出得有问题,就别光怪面试者了。 : P(AB)是啥意思? P(A)*P(B) 还是 P(AnB)? : 方差是standard deviation,是分布的固有性质,没法降低。能降低的叫标准误差 : standard error,这个才可能跟采样数量相关。而且本身分布不确定的时候,你要套用 : 大数定理,这个数量也不够大。 : : 到2
|
G**S 发帖数: 339 | 39 统计口的会怎么样?
【在 m*****n 的大作中提到】 : 你应该不是统计口的。
|
R*****g 发帖数: 33 | 40 我咋觉得相反。前面都是编程的大神,不像数理统计的。这位靠谱多了
【在 m*****n 的大作中提到】 : 你应该不是统计口的。
|
|
|
s******t 发帖数: 71 | |
g****t 发帖数: 31659 | 42 书面会统计课本的知识。
和
1.用统计解决过实际问题
2.做过产品
3.对统计的物理有了解
这三种情况不是一回事。
“物理”的意思是相对独立于描述办法的那部分知识。
楼主和前面几位看一眼就知道是sqrt(N)的是靠这个
吃饭的统计专业人士。要么是EE处理测量的。等等。
: 我咋觉得相反。前面都是编程的大神,不像数理统计的。这位靠谱多了
【在 R*****g 的大作中提到】 : 我咋觉得相反。前面都是编程的大神,不像数理统计的。这位靠谱多了
|
w***g 发帖数: 5958 | 43 你路数是跟我一样的了。
应该是顺便学过点统计,但不是内行不知道切口。
所以我说面基本问题也是有意义的。话一出口就知道路数对不对。
比如说按字典念了淬(cui)火,荨(qian)麻疹,基本上就是外行滚出了。
人家zhan火,xun麻疹约定俗称了,大家心知肚明。
【在 G**S 的大作中提到】 : 楼主,你这两道题都出得有问题,就别光怪面试者了。 : P(AB)是啥意思? P(A)*P(B) 还是 P(AnB)? : 方差是standard deviation,是分布的固有性质,没法降低。能降低的叫标准误差 : standard error,这个才可能跟采样数量相关。而且本身分布不确定的时候,你要套用 : 大数定理,这个数量也不够大。 : : 到2
|
G**S 发帖数: 339 | 44 楼主那个问题究竟是不是sqrt(N),你去run个simulation就知道了....LOL...
【在 g****t 的大作中提到】 : 书面会统计课本的知识。 : 和 : 1.用统计解决过实际问题 : 2.做过产品 : 3.对统计的物理有了解 : 这三种情况不是一回事。 : “物理”的意思是相对独立于描述办法的那部分知识。 : 楼主和前面几位看一眼就知道是sqrt(N)的是靠这个 : 吃饭的统计专业人士。要么是EE处理测量的。等等。 :
|
G**S 发帖数: 339 | 45 刚查了新华字典,真的不是念qian麻疹吗?哈哈
荨麻
qiánmá
〖nettle〗∶荨麻科,尤其是荨麻属的植物,遍体多刺或接触它们会感到针刺般疼痛
〖nettlefibre〗∶该植物的纤维
【在 w***g 的大作中提到】 : 你路数是跟我一样的了。 : 应该是顺便学过点统计,但不是内行不知道切口。 : 所以我说面基本问题也是有意义的。话一出口就知道路数对不对。 : 比如说按字典念了淬(cui)火,荨(qian)麻疹,基本上就是外行滚出了。 : 人家zhan火,xun麻疹约定俗称了,大家心知肚明。
|
w***g 发帖数: 5958 | 46 您已自动撞在枪口上了。
发信人: realphone (realphone), 信区: Programming
标 题: Re: 我出的面试题是不是太难了
发信站: BBS 未名空间站 (Fri Jan 19 20:04:00 2018, 美东)
这话99%情况都没错, 但是组里还是需要一个懂数学或者统计的。 有时候明明是一个
数学问题, 能够很快得结论,而且很准确,缺乏这方面的训练, 可能解决方案就是上
simulation, 跑程序, 跑出来结论肯定没错,但是有时候会花很多不必要的时间。
【在 G**S 的大作中提到】 : 楼主那个问题究竟是不是sqrt(N),你去run个simulation就知道了....LOL...
|
g****t 发帖数: 31659 | 47 不是也没关系。更不用run什么simulation.
只要知道随着数据或者测量的增加,std曲线走的形状就可以了。
: 楼主那个问题究竟是不是sqrt(N),你去run个simulation就知道了....
LOL...
【在 G**S 的大作中提到】 : 刚查了新华字典,真的不是念qian麻疹吗?哈哈 : 荨麻 : qiánmá : 〖nettle〗∶荨麻科,尤其是荨麻属的植物,遍体多刺或接触它们会感到针刺般疼痛 : 〖nettlefibre〗∶该植物的纤维
|
g****t 发帖数: 31659 | 48 懂数学的有两种。第一种其实是懂物理,就是知道怎么用数学。能把数学知识嵌入到产
品或者一个组织,一个机器的工作序列里面。第二种是懂得如何创造数学。或者说就是
发明算法以及写新类型的程序。
他说的是第一种。一个人如果物理不对,这个人又不是第二种懂数学的狠人。那需要多
花的时间可不
是一点两点.
: 您已自动撞在枪口上了。
: 这楼好欢乐,各种行业套路都出来了。
: 发信人: realphone (realphone), 信区: Programming
: 标 题: Re: 我出的面试题是不是太难了
: 发信站: BBS 未名空间站 (Fri Jan 19 20:04:00 2018, 美东)
: 这话99%情况都没错, 但是组里还是需要一个懂数学或者统计的。 有时
候明明
是一个
: 数学问题, 能够很快得结论,而且很准确,缺乏这方面的训练, 可能解
决方案
就是上
: simulation, 跑程序, 跑出来结论肯定没错,但是有时候会花很多不必
要的时
间。
【在 w***g 的大作中提到】 : 您已自动撞在枪口上了。 : 发信人: realphone (realphone), 信区: Programming : 标 题: Re: 我出的面试题是不是太难了 : 发信站: BBS 未名空间站 (Fri Jan 19 20:04:00 2018, 美东) : 这话99%情况都没错, 但是组里还是需要一个懂数学或者统计的。 有时候明明是一个 : 数学问题, 能够很快得结论,而且很准确,缺乏这方面的训练, 可能解决方案就是上 : simulation, 跑程序, 跑出来结论肯定没错,但是有时候会花很多不必要的时间。
|
g****t 发帖数: 31659 | 49 很多年前杨振宁到我校作报告。说Einstein本来是第一种,后来是第二种。
: 懂数学的有两种。第一种其实是懂物理,就是知道怎么用数学。能把数学
知识嵌
入到产
: 品或者一个组织,一个机器的工作序列里面。第二种是懂得如何创造数学
。或者
说就是
: 发明算法以及写新类型的程序。
: 他说的是第一种。一个人如果物理不对,这个人又不是第二种懂数学的狠
人。那
需要多
: 花的时间可不
: 是一点两点.
:
【在 g****t 的大作中提到】 : 懂数学的有两种。第一种其实是懂物理,就是知道怎么用数学。能把数学知识嵌入到产 : 品或者一个组织,一个机器的工作序列里面。第二种是懂得如何创造数学。或者说就是 : 发明算法以及写新类型的程序。 : 他说的是第一种。一个人如果物理不对,这个人又不是第二种懂数学的狠人。那需要多 : 花的时间可不 : 是一点两点. : : : 您已自动撞在枪口上了。 : : 这楼好欢乐,各种行业套路都出来了。 : : 发信人: realphone (realphone), 信区: Programming
|
G****A 发帖数: 4160 | 50 何必呢,大家心里都清楚DS会操作sql就行了,有难度的问题自然是数学,物理PhD解决
DS就是给H4和文科女解决就业的
:给DS的题。
:第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。 |
|
|
g****t 发帖数: 31659 | 51 楼主要个headcount也不容易的
: 何必呢,大家心里都清楚DS会操作sql就行了,有难度的问题自然是数学,物理
PhD解决
: DS就是给H4和文科女解决就业的
: :给DS的题。
: :第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
【在 G****A 的大作中提到】 : 何必呢,大家心里都清楚DS会操作sql就行了,有难度的问题自然是数学,物理PhD解决 : DS就是给H4和文科女解决就业的 : : :给DS的题。 : :第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。
|
N*****r 发帖数: 94 | 52
到2
我面试人这两道题也常出
说实话,跑算法我找个高中生就能跑,怎么区分人啊
当然要看基础
贝叶斯公式都答不上来, 取样理论都不知道,光会调参数的话,我招谁不是招?
【在 b****u 的大作中提到】 : 给DS的题。 : 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。 : 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。 : (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低到2 : ,然后问大概要多少用户) : 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再 : 问了。 : 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个 : 包,干了啥事。
|
h*******i 发帖数: 9 | 53 第二题确实题意不清楚。我也是民科出身,试着理解一下。
假设variable S 均值E(S) 方差是 var(S). 现在有100个sample,s[1,1,2...100]
iid, 卤煮的意思应该是这样:如果 E{ [ (s1-E_100)^2 + (s1-E_100)^2 ... + (
s100-E_100)]/100 }= 10, 【E{} 外面的 “E” Expectation运算不能去掉,否则 {}
内的部分还是个变量,题目的说法就没意义了】 那么求最小的整数N,满足 E{ [(s1-
E_N)^2 + (s1-E_N)^2 ... + (sN -E_N)]/N } = 2. where E_N是 E(s)使用N个
sample的estimate,而不是 E(S):E_N = sum(si)/N 。 貌似这个题不简单 |
h**********e 发帖数: 4328 | 54 你这算是给正经ds的题
现在市面上大部分所谓的ds就是写query整理ppt的
这些不懂也正常
到2
【在 b****u 的大作中提到】 : 给DS的题。 : 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。 : 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。 : (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低到2 : ,然后问大概要多少用户) : 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再 : 问了。 : 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个 : 包,干了啥事。
|
g****t 发帖数: 31659 | 55 这问题当然不简单。如果你不是预先知道答案。
数学上来讲,倍努力,柏松,马尔可夫 都研究过。
物理上来讲,
多次测量的平均可以导致更准的结果这个思路更不简单。
人类如何从低精度测量仪器发展出来高精度的?
除了这个统计的办法,我知道的仅有的,
就是EE的办法,反馈,
现在也叫refeinforce learning.
: 第二题确实题意不清楚。我也是民科出身,试着理解一下。
: 假设variable S 均值E(S) 方差是 var(S). 现在有100个sample,s[1,1,2...
100]
: iid, 卤煮的意思应该是这样:如果 E{ [ (s1-E_100)^2 (s1-E_100)^2 ...
(
: s100-E_100)]/100 }= 10, 【E{} 外面的 “E” Expectation运算不能去掉,否
则 {}
: 内的部分还是个变量,题目的说法就没意义了】 那么求最小的整数N,满足 E{
[(s1-
: E_N)^2 (s1-E_N)^2 ... (sN -E_N)]/N } = 2. where E_N是 E(s)使用
N个
: sample的estimate,而不是 E(S):E_N = sum(si)/N 。 貌似这个题不简单
【在 h*******i 的大作中提到】 : 第二题确实题意不清楚。我也是民科出身,试着理解一下。 : 假设variable S 均值E(S) 方差是 var(S). 现在有100个sample,s[1,1,2...100] : iid, 卤煮的意思应该是这样:如果 E{ [ (s1-E_100)^2 + (s1-E_100)^2 ... + ( : s100-E_100)]/100 }= 10, 【E{} 外面的 “E” Expectation运算不能去掉,否则 {} : 内的部分还是个变量,题目的说法就没意义了】 那么求最小的整数N,满足 E{ [(s1- : E_N)^2 + (s1-E_N)^2 ... + (sN -E_N)]/N } = 2. where E_N是 E(s)使用N个 : sample的estimate,而不是 E(S):E_N = sum(si)/N 。 貌似这个题不简单
|
g****t 发帖数: 31659 | 56 那叫data engineer吧
: 你这算是给正经ds的题
: 现在市面上大部分所谓的ds就是写query整理ppt的
: 这些不懂也正常
: 到2
【在 h**********e 的大作中提到】 : 你这算是给正经ds的题 : 现在市面上大部分所谓的ds就是写query整理ppt的 : 这些不懂也正常 : : 到2
|
N*****r 发帖数: 94 | 57 第二个题我通常这么问
正方形内画个内接圆, 往上投针,根据针落在园内的比例可以估计Pi的值, 现在希望
估计的值精度能到 1%, 大概需要投多少次针
这个做过蒙特卡洛或者实验数据处理的,一口就能答上来
但如果说学过基本的统计但好无头绪的, 就太水了 |
h**********e 发帖数: 4328 | 58 这些title现在用的都很混乱
有些地方data engineer要管data infra和pipeline
反而ds干的就是我说的那种analyst的东西
然后其实有些analyst尤其是大银行里的都是stat phd这些都是小菜
【在 g****t 的大作中提到】 : 那叫data engineer吧 : : : 你这算是给正经ds的题 : : 现在市面上大部分所谓的ds就是写query整理ppt的 : : 这些不懂也正常 : : 到2 :
|
g****t 发帖数: 31659 | 59 搞毛
你这题太难了
我都答不上来
我只能告诉你
第一 次数多更准
第二 次数和标准差的关系我首先会套sqrtN试一下
三十年前我高中时候可以答
: 第二个题我通常这么问
: 正方形内画个内接圆, 往上投针,根据针落在园内的比例可以估计Pi的
值, 现
在希望
: 估计的值精度能到 1%, 大概需要投多少次针
: 这个做过蒙特卡洛或者实验数据处理的,一口就能答上来
: 但如果说学过基本的统计但好无头绪的, 就太水了
【在 N*****r 的大作中提到】 : 第二个题我通常这么问 : 正方形内画个内接圆, 往上投针,根据针落在园内的比例可以估计Pi的值, 现在希望 : 估计的值精度能到 1%, 大概需要投多少次针 : 这个做过蒙特卡洛或者实验数据处理的,一口就能答上来 : 但如果说学过基本的统计但好无头绪的, 就太水了
|
h*******i 发帖数: 9 | 60 ahh 我理解的模型好像不对。应该就是是 VAR((S1+S2..+S100)/100) = 10, 求最小的
N 使得 VAR ((S1+..SN)/N) =2。 S1, S2, ... SN ~ iid 。 如果S是正态分布那
么 VAR ((S1+S2..+SN)/N) = [VAR(S1)+VAR(S2)...VAR(SN)]/(N^2) = VAR(S)/N;
如果 N =100时候 VAR(S)/100 = 10, 那么 N = 500 时 VAR(S)/ N = 2.
s1-
【在 h*******i 的大作中提到】 : 第二题确实题意不清楚。我也是民科出身,试着理解一下。 : 假设variable S 均值E(S) 方差是 var(S). 现在有100个sample,s[1,1,2...100] : iid, 卤煮的意思应该是这样:如果 E{ [ (s1-E_100)^2 + (s1-E_100)^2 ... + ( : s100-E_100)]/100 }= 10, 【E{} 外面的 “E” Expectation运算不能去掉,否则 {} : 内的部分还是个变量,题目的说法就没意义了】 那么求最小的整数N,满足 E{ [(s1- : E_N)^2 + (s1-E_N)^2 ... + (sN -E_N)]/N } = 2. where E_N是 E(s)使用N个 : sample的estimate,而不是 E(S):E_N = sum(si)/N 。 貌似这个题不简单
|
|
|
h**********e 发帖数: 4328 | 61 s啥分布都没关系
【在 h*******i 的大作中提到】 : ahh 我理解的模型好像不对。应该就是是 VAR((S1+S2..+S100)/100) = 10, 求最小的 : N 使得 VAR ((S1+..SN)/N) =2。 S1, S2, ... SN ~ iid 。 如果S是正态分布那 : 么 VAR ((S1+S2..+SN)/N) = [VAR(S1)+VAR(S2)...VAR(SN)]/(N^2) = VAR(S)/N; : 如果 N =100时候 VAR(S)/100 = 10, 那么 N = 500 时 VAR(S)/ N = 2. : : s1-
|
h*******i 发帖数: 9 | 62 agreed
【在 h**********e 的大作中提到】 : s啥分布都没关系
|
t******o 发帖数: 61 | 63 这几年我面了n多DS了,n好几百,啥奇葩都有,这里谈谈体会。
先说点技术的吧,问这个题,相当于在高考数学里问:请证明勾股定理。
这玩意人人都会用,但是没几个能证出来。
你还别不信,我国高考历史上真有这题。。。
再说点非技术的:
1. 这题最大的用处在于,刷掉那个我们都很讨厌的群体,说的谁,你懂的。我还考过
丫们一元一次方程。想干掉他们,有一万种方法。
2. 招人的原则:不在于他能不能答上来,关键是表现如何。在面试官引导下,能不能
一步步思考接近答案。很多知识点临时不会没关系,之后态度好智力正常,招进来慢慢
学都没问题。关键是看态度,看交流能力,看思维方式。这个只能靠面试官自己体会。
3. 要是还不放心,就看学历,看GPA。名校高分的,都不会太差。我不是学校歧视,而
是这方法久经考验。
再回到技术上:
你要真想招个技术好上来能干活的,要么给他个小project,限期一天做完。要么问些
开放性的易答难精的问题,比如:
1. 如何对付数据中的missing value;
2. 如何对付over fitting;
3. 结合你以前干过的活,结合domain knowledge,再谈谈前两题;
尤其是前两题,看上去很简单,网上也有很多答案,但是干过几个月和干过几年十几年
的,干银行的干互联网广告的,回答起来是相当有区别的。有点类似于魂斗罗30条命还
是3条命通关。易学难精。 |
N*****r 发帖数: 94 | 64 搞啊三太容易了 上来问贝叶斯 贝叶斯问完了问clt 强大数定律弱大数定律区别 问的
细一点 然后三大分布的应用
对方要真能都答得挺好 我也就招了
: 这几年我面了n多DS了,n好几百,啥奇葩都有,这里谈谈体会。
: 先说点技术的吧,问这个题,相当于在高考数学里问:请证明勾股定理。
: 这玩意人人都会用,但是没几个能证出来。
: 你还别不信,我国高考历史上真有这题。。。
: 再说点非技术的:
: 1. 这题最大的用处在于,刷掉那个我们都很讨厌的群体,说的谁,你懂的。我
还考过
: 丫们一元一次方程。想干掉他们,有一万种方法。
: 2. 招人的原则:不在于他能不能答上来,关键是表现如何。在面试官引导下,
能不能
: 一步步思考接近答案。很多知识点临时不会没关系,之后态度好智力正常,招进
来慢慢
: 学都没问题。关键是看态度,看交流能力,看思维方式。这个只能靠面试官自己
体会。
【在 t******o 的大作中提到】 : 这几年我面了n多DS了,n好几百,啥奇葩都有,这里谈谈体会。 : 先说点技术的吧,问这个题,相当于在高考数学里问:请证明勾股定理。 : 这玩意人人都会用,但是没几个能证出来。 : 你还别不信,我国高考历史上真有这题。。。 : 再说点非技术的: : 1. 这题最大的用处在于,刷掉那个我们都很讨厌的群体,说的谁,你懂的。我还考过 : 丫们一元一次方程。想干掉他们,有一万种方法。 : 2. 招人的原则:不在于他能不能答上来,关键是表现如何。在面试官引导下,能不能 : 一步步思考接近答案。很多知识点临时不会没关系,之后态度好智力正常,招进来慢慢 : 学都没问题。关键是看态度,看交流能力,看思维方式。这个只能靠面试官自己体会。
|
N*****r 发帖数: 94 | 65 我曾经问过一个问题 蒙特卡洛模拟 用的fortran自带的随机数种子 十亿次 模拟后 再
增加模拟次数到100亿次 结果无法改进 请分析可能原因
: 这几年我面了n多DS了,n好几百,啥奇葩都有,这里谈谈体会。
: 先说点技术的吧,问这个题,相当于在高考数学里问:请证明勾股定理。
: 这玩意人人都会用,但是没几个能证出来。
: 你还别不信,我国高考历史上真有这题。。。
: 再说点非技术的:
: 1. 这题最大的用处在于,刷掉那个我们都很讨厌的群体,说的谁,你懂的。我
还考过
: 丫们一元一次方程。想干掉他们,有一万种方法。
: 2. 招人的原则:不在于他能不能答上来,关键是表现如何。在面试官引导下,
能不能
: 一步步思考接近答案。很多知识点临时不会没关系,之后态度好智力正常,招进
来慢慢
: 学都没问题。关键是看态度,看交流能力,看思维方式。这个只能靠面试官自己
体会。
【在 t******o 的大作中提到】 : 这几年我面了n多DS了,n好几百,啥奇葩都有,这里谈谈体会。 : 先说点技术的吧,问这个题,相当于在高考数学里问:请证明勾股定理。 : 这玩意人人都会用,但是没几个能证出来。 : 你还别不信,我国高考历史上真有这题。。。 : 再说点非技术的: : 1. 这题最大的用处在于,刷掉那个我们都很讨厌的群体,说的谁,你懂的。我还考过 : 丫们一元一次方程。想干掉他们,有一万种方法。 : 2. 招人的原则:不在于他能不能答上来,关键是表现如何。在面试官引导下,能不能 : 一步步思考接近答案。很多知识点临时不会没关系,之后态度好智力正常,招进来慢慢 : 学都没问题。关键是看态度,看交流能力,看思维方式。这个只能靠面试官自己体会。
|
P**H 发帖数: 1897 | 66 为什么改变采样会降低方差?
到2
【在 b****u 的大作中提到】 : 给DS的题。 : 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。 : 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。 : (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低到2 : ,然后问大概要多少用户) : 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再 : 问了。 : 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个 : 包,干了啥事。
|
l****e 发帖数: 25 | |
m****a 发帖数: 85 | 68 支持lz,这俩问题很基础。一个条件概率,一个样本均值的方差。如果搞ds的不懂这个
,绝对刷新我对ds这行业水平的认知。
by the way我是计量经济口的 |
a*******3 发帖数: 220 | 69 本科理工科但凡学过一门概率统计的都应该能答出来,说难的都是文科生??? |
w**z 发帖数: 8232 | 70 你,新毕业生?我二十多年前学的概率论,
然后从来没用过,你让我答?
:本科理工科但凡学过一门概率统计的都应该能答出来,说难的都是文科生??? |
|
|
a*******3 发帖数: 220 | 71 工作连条件概率都用不到还面什么ds
【在 w**z 的大作中提到】 : 你,新毕业生?我二十多年前学的概率论, : 然后从来没用过,你让我答? : : :本科理工科但凡学过一门概率统计的都应该能答出来,说难的都是文科生???
|
m*****n 发帖数: 3644 | 72 P(AB)是啥意思? P(A)*P(B) 还是 P(AnB)
显然是P(AnB)
第二题,就算楼主出错了不严谨,统计口的含生统,经济phd等,显然知道楼主的意图
是什么。就是考sample mean的variance和sample obs的关系。别说没用。看工作性质
。最简单的就是做模拟的时候如果结果不稳定,看看加多少次可以让波动变小。
【在 G**S 的大作中提到】 : 统计口的会怎么样?
|
a*********a 发帖数: 3656 | 73 这都是基本功。
第一个是基础之基础。被噎死得基本。
误差~1/sqrt(N),是设计实验得基本准则。对这个不是烂熟于心得,搞个屁得数据处
理。
【在 b****u 的大作中提到】 : 给DS的题。 : 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。 : 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。 : (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低到2 : ,然后问大概要多少用户) : 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再 : 问了。 : 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个 : 包,干了啥事。
|
m*****n 发帖数: 3644 | 74 同意
【在 a*********a 的大作中提到】 : 这都是基本功。 : 第一个是基础之基础。被噎死得基本。 : 误差~1/sqrt(N),是设计实验得基本准则。对这个不是烂熟于心得,搞个屁得数据处 : 理。
|
m*****n 发帖数: 3644 | 75 20多年不用了,还想入这个行?你可以拿30万的马工包袱,但拿不了10万的真正DS包袱。
【在 w**z 的大作中提到】 : 你,新毕业生?我二十多年前学的概率论, : 然后从来没用过,你让我答? : : :本科理工科但凡学过一门概率统计的都应该能答出来,说难的都是文科生???
|
w**z 发帖数: 8232 | 76 我是回楼上的。
本科理工科但凡学过一门概率统计的都应该能答出来,说难的都是文科生?
:20多年不用了,还想入这个行?你可以拿30万的马工包袱,但拿不了10万的真正DS包
袱。
:【 在 wwzz (一辈子当码工) 的大作中提到: 】 |
d********m 发帖数: 3662 | 77 第二题回答不出情有可原,毕竟细节。但第一个回答不出很难想象是ds专业出来的人会
完全不懂概率最初级的东西 |
d********m 发帖数: 3662 | 78 搞不懂说难的都是什么人。第一题对搞ds的应该就和1加1对我儿子的难度一样
【在 w**z 的大作中提到】 : 我是回楼上的。 : 本科理工科但凡学过一门概率统计的都应该能答出来,说难的都是文科生? : : :20多年不用了,还想入这个行?你可以拿30万的马工包袱,但拿不了10万的真正DS包 : 袱。 : :【 在 wwzz (一辈子当码工) 的大作中提到: 】
|
R*****g 发帖数: 33 | 79 楼主把题目改的具体了,如下,
(我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
信度不太高,想把标准差降低到2
,然后问大概要多少用户。 我还画了图演示)
大家不要废话,直接给答案吧。
【在 b****u 的大作中提到】 : 给DS的题。 : 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。 : 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。 : (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低到2 : ,然后问大概要多少用户) : 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再 : 问了。 : 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个 : 包,干了啥事。
|
T*******x 发帖数: 8565 | 80 我觉得这个表述问题更大了。不过我不是DS的,我也不确定。跟大家探讨一下。
一个商品的评价假设是一个0到100之间的数,是一个random variable,有一个想象中
的distribution,这个distribution有mean有标准差。我们的目标就是搞清楚这个
distribution的mean和standard deviation,进而搞清楚这个distribution的整体形状。
方法就是sampling。要定sample size。比如先定个100。做一次采样就是得到100个数
,平均值是55这个好理解。标准差是10,这句话有问题。直接的理解是这100个数的标
准差。如果这样理解的话,那这个标准差是对原distribution的标准差的一个估计。增
加sample size不能确定使这个估计变得更大或更小(因为原distribution的标准差可
能就是10左右)。
所谓增加sample size能降低的这个标准差是the standard deviation of the
sampling distribution of the sample mean。其过程是这样的:比如这100个点的采
样这个事情你做20次,每次都得到100个数,每次都可以算这100个数的平均值。比如第
一次你的平均值55,第二次你可能的平均值63,第三次你得平均值是46,等等。把这20
个平均值放在一起(55,63,46,...),这就基本上是sampling distribution of the
sample mean。这个distribution也有standard deviation,假设它是10,那么这个标
准差可以被降低--通过增加sample size。比如你sample size是1000。你还是做20次采
样,每次采样变成1000个点。也就是每次得到1000个数,每次计算这1000个数的平均值
。比如第一次得到平均值57,第二次得到平均值61,第三次得到平均值58,等等,把这
20个数放在一起(57,61,58,...),这个distribution的standard deviation就应该小于
10,关系是~1/sqrt(N).
【在 R*****g 的大作中提到】 : 楼主把题目改的具体了,如下, : (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可 : 信度不太高,想把标准差降低到2 : ,然后问大概要多少用户。 我还画了图演示) : 大家不要废话,直接给答案吧。
|
|
|
m*****n 发帖数: 3644 | 81 难道觉得回答出来很了不起么?
我们这一个培训,讲communication的。讲师原来是海军陆战队出身。典型的体育老师+
文科僧了吧。
人家举例的时候,随口的例子就是,“泊松分布的probability density fucntion是。
。" 然后把具体的form背了出来.
不过后来我想,会不会人家是雷达口的?那对ROC,泊松这些肯定特熟悉。不过能写出
form,基本功还是很了不起。毕竟不是Normal distribution。
【在 R*****g 的大作中提到】 : 楼主把题目改的具体了,如下, : (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可 : 信度不太高,想把标准差降低到2 : ,然后问大概要多少用户。 我还画了图演示) : 大家不要废话,直接给答案吧。
|
h*******i 发帖数: 9 | 82 估计出题人想要的答案是 N = 100*sqrt(10/2)
但是这个题还是出的有问题。
(1) std deviation s = sqrt (sum(x(i)-u)^2/N) 是个 random variable, 因为每
个sample x(i)是 random variable.
(2) standard deviation的期望值/均值 是个constant: E(s) = E[sqrt (sum(x(i)
-u)^2/N) ] = C
(3)均值的估计值的误差也是个 random variable: ue= sum(x_i)/N - u; E(ue)
= 0; var(ue) = var(x)/N; |
b****u 发帖数: 1130 | 83 要是面试的人能像你一样写那么多出来,马上就收了。
i)
【在 h*******i 的大作中提到】 : 估计出题人想要的答案是 N = 100*sqrt(10/2) : 但是这个题还是出的有问题。 : (1) std deviation s = sqrt (sum(x(i)-u)^2/N) 是个 random variable, 因为每 : 个sample x(i)是 random variable. : (2) standard deviation的期望值/均值 是个constant: E(s) = E[sqrt (sum(x(i) : -u)^2/N) ] = C : (3)均值的估计值的误差也是个 random variable: ue= sum(x_i)/N - u; E(ue) : = 0; var(ue) = var(x)/N;
|
T*******x 发帖数: 8565 | 84 应该是100*sqr(10/2)=2500吧。
:估计出题人想要的答案是 N = 100*sqrt(10/2)
: |
r****t 发帖数: 10904 | |
r****t 发帖数: 10904 | 86 应该是 joint distribution 把
:楼主,你这两道题都出得有问题,就别光怪面试者了。
: |
r****t 发帖数: 10904 | 87 更有趣的是画直条投针数相交数来估计 pi 的
:第二个题我通常这么问
: |
r****t 发帖数: 10904 | 88 Poisson 分布就是研究生第一门课或者本科生高年级的课会讲
:难道觉得回答出来很了不起么?
: |
b****u 发帖数: 1130 | 89 呵呵,说的对。
仔细想想,的确我的不对,下次改个好点的例子。不过我也没fail人家的面试。
【在 r****t 的大作中提到】 : 第二题耍流氓了,自己都不合格
|
d******a 发帖数: 32122 | 90 开卷不?
【在 b****u 的大作中提到】 : 给DS的题。 : 第一道 P(A|B)=P(AB)*? 把问号部分填上,写啥都行。 : 第二道,100个采样方差10,问把方差降到2,估计大概需要多少采样。 : (具体问的时候,是说100个用户给出评价,评价的方差是10,觉得太大了,想降低到2 : ,然后问大概要多少用户) : 然后把面试的人搞得很难过,一直说我忘记了,2016年DS master毕业的,我就不敢再 : 问了。 : 我是不是问的太难了?是不是不该问数学概率题了? 应该问你用过tensorflow 哪个 : 包,干了啥事。
|
|
|
s**5 发帖数: 68 | 91 第二题当年面果家DS面到过~如果是偏统计的DS职位~这些题真心不难 |
m*****n 发帖数: 3644 | 92 但海军陆战队退役然后做communication培训的老师能说出来还是厉害。再说,你记得
定义,但是能像人家那样随手写出pdf的形式么?何况你是干啥工作的,人家干啥的。
。。
【在 r****t 的大作中提到】 : Poisson 分布就是研究生第一门课或者本科生高年级的课会讲 : : :难道觉得回答出来很了不起么? : :
|
a*********a 发帖数: 3656 | 93 应该是100*(10/2)^2=2500.
采样要估计的是population mean X。不是sample mean x。 sample mean是population
mean的一个estimator X* 。 estimator和underlying population mean的偏差,当样
本足够大时可以认为是正态分布。如果estimator 是unbiased, 该正态分别的均值为0
。样本越大,该正态分布的方差越小。渐近关系是σ~sqrt(N).
这些结果都是从大数定理和中心极限定理导出的。
: 应该是100*sqr(10/2)=2500吧。
: :估计出题人想要的答案是 N = 100*sqrt(10/2)
: :
【在 T*******x 的大作中提到】 : 应该是100*sqr(10/2)=2500吧。 : : :估计出题人想要的答案是 N = 100*sqrt(10/2) : :
|
T*******x 发帖数: 8565 | 94 对。sample mean的mean等于population mean。sample mean的distribution趋近于
normal distribution。
population
0
【在 a*********a 的大作中提到】 : 应该是100*(10/2)^2=2500. : 采样要估计的是population mean X。不是sample mean x。 sample mean是population : mean的一个estimator X* 。 estimator和underlying population mean的偏差,当样 : 本足够大时可以认为是正态分布。如果estimator 是unbiased, 该正态分别的均值为0 : 。样本越大,该正态分布的方差越小。渐近关系是σ~sqrt(N). : 这些结果都是从大数定理和中心极限定理导出的。 : : : 应该是100*sqr(10/2)=2500吧。 : : :估计出题人想要的答案是 N = 100*sqrt(10/2) : : :
|
R*****g 发帖数: 33 | 95 我也来讨论一下。那些光喊容易不给答案的机器人就不要来掺乎了. :-)
这是楼主改了几遍的原题,还是一团乱麻,
(我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可
信度不太高,想把标准差降低到2,然后问大概要多少用户。 我还画了图演示.
我同意wdong所说,如果样本是iid,不管样本size多大,样本标准差(sample standard
deviation, which is an estimation of standard deviation of population)是差
不多的。第一个标准差应该就是指这个。那第二个标准差就只能理解成样本平均值(x_
bar=sum(x1:xn)/n, which is a random variable)的标准差了。我知道从题目的表述
来看这么理解很牵强,但只能这样,要不然没题可做。
给定样本size 100, 样本平均值x_bar的标准差只有1 (population std which is 10,
divided by sqrt(100)).这其实很直观:随便抽一个,标准差大概10. 100个平均下来
标准差只剩1不奇怪。
所以现在不是降低样本平均值的标准差到2,而是升到2!样本size要减少,大概25就够
了! (2=10/sqrt(25))
【在 T*******x 的大作中提到】 : 对。sample mean的mean等于population mean。sample mean的distribution趋近于 : normal distribution。 : : population : 0
|
T*******x 发帖数: 8565 | 96 对。这个我也注意到了。标准差为10对于一个(0,100)取值的评价分数的random
variable来说比较正常。但是如果说它是sample mean的标准差,那绝对太大了。所以
题出的确实欠考虑。
standard
,
【在 R*****g 的大作中提到】 : 我也来讨论一下。那些光喊容易不给答案的机器人就不要来掺乎了. :-) : 这是楼主改了几遍的原题,还是一团乱麻, : (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可 : 信度不太高,想把标准差降低到2,然后问大概要多少用户。 我还画了图演示. : 我同意wdong所说,如果样本是iid,不管样本size多大,样本标准差(sample standard : deviation, which is an estimation of standard deviation of population)是差 : 不多的。第一个标准差应该就是指这个。那第二个标准差就只能理解成样本平均值(x_ : bar=sum(x1:xn)/n, which is a random variable)的标准差了。我知道从题目的表述 : 来看这么理解很牵强,但只能这样,要不然没题可做。 : 给定样本size 100, 样本平均值x_bar的标准差只有1 (population std which is 10,
|
N*****r 发帖数: 94 | 97
standard
,
但凡你找本大学实验物理的书数据处理部分看看你也不会这么离谱了
或者任何一本蒙特卡洛模拟的书的第一章
【在 R*****g 的大作中提到】 : 我也来讨论一下。那些光喊容易不给答案的机器人就不要来掺乎了. :-) : 这是楼主改了几遍的原题,还是一团乱麻, : (我写的具体一些,是说100个用户给出评价,平均分是55,标准差是10,经理觉得可 : 信度不太高,想把标准差降低到2,然后问大概要多少用户。 我还画了图演示. : 我同意wdong所说,如果样本是iid,不管样本size多大,样本标准差(sample standard : deviation, which is an estimation of standard deviation of population)是差 : 不多的。第一个标准差应该就是指这个。那第二个标准差就只能理解成样本平均值(x_ : bar=sum(x1:xn)/n, which is a random variable)的标准差了。我知道从题目的表述 : 来看这么理解很牵强,但只能这样,要不然没题可做。 : 给定样本size 100, 样本平均值x_bar的标准差只有1 (population std which is 10,
|
g****t 发帖数: 31659 | 98 你们不要质疑楼主的水平。他这题看的是你有没有实际处理过真实的数据问题或者噪声
问题。(包括物理实验,电子实验等等)不是看书背的如何。
这题目不是抠字眼的问题。也跟正态分布什么无关。
你查查Chebyshev不等式,萨缪尔森不等式啥的。
再查查测花粉什么的算玻尔兹曼常数。具体的成功应用
统计的例子里,无数sqrt(N)。无数数学家各种估计的文章
都围绕这个做文章。
撒骰子60个一起撒,和2个撒。中间聚集的
密度和6/2=3之间的规律是什么?凡是有这种互相抵消物理过程的,首先猜sqrt(n)
有这功夫,不如去算算股票周波动率和日波动率的比例
是不是根号5
: 对。这个我也注意到了。标准差为10对于一个(0,100)取值的评价分数的
random
: variable来说比较正常。但是如果说它是sample mean的标准差,那绝对
太大了
。所以
: 题出的确实欠考虑。
: standard
: ,
【在 T*******x 的大作中提到】 : 对。这个我也注意到了。标准差为10对于一个(0,100)取值的评价分数的random : variable来说比较正常。但是如果说它是sample mean的标准差,那绝对太大了。所以 : 题出的确实欠考虑。 : : standard : ,
|
T*******x 发帖数: 8565 | 99 大神你的贴我基本都拜读了,思想广度和深度之大,我经常跟不上。
【在 g****t 的大作中提到】 : 你们不要质疑楼主的水平。他这题看的是你有没有实际处理过真实的数据问题或者噪声 : 问题。(包括物理实验,电子实验等等)不是看书背的如何。 : 这题目不是抠字眼的问题。也跟正态分布什么无关。 : 你查查Chebyshev不等式,萨缪尔森不等式啥的。 : 再查查测花粉什么的算玻尔兹曼常数。具体的成功应用 : 统计的例子里,无数sqrt(N)。无数数学家各种估计的文章 : 都围绕这个做文章。 : 撒骰子60个一起撒,和2个撒。中间聚集的 : 密度和6/2=3之间的规律是什么?凡是有这种互相抵消物理过程的,首先猜sqrt(n) : 有这功夫,不如去算算股票周波动率和日波动率的比例
|
g****t 发帖数: 31659 | 100 除了sqrt(N)这个因子有共性
具体问题下
前面的其他系数可以非常复杂
用的时候查最新文献就可以了
很难深究……数学天赋者除外
: 大神你的贴我基本都拜读了,思想广度和深度之大,我经常跟不上。
【在 T*******x 的大作中提到】 : 大神你的贴我基本都拜读了,思想广度和深度之大,我经常跟不上。
|
|
|
m******r 发帖数: 1033 | 101 我也好奇了好多年,为什么到处都是平方开方。 直到有一天,有位大师告诉我这一切
的一切,都是勾股定律的结果。 我才恍然大悟。统计上的很多定律,比如total
variance formula(一连串的sum square)都是勾股定律的应用. 高斯-马尔科夫说
least square estimator是线性系统里是最棒的,是不是也受到勾股定律的启发? 不
清楚。 |
g****t 发帖数: 31659 | 102 牛顿当初猜万有引力定律,似乎猜的不是平方反比。胡克猜的是对的.因为这点烂事,
胡克死后,牛顿销毁了胡克所有的画像。乃至于至今没有胡克的像留存。
以上内容回忆自V.I.Arnold的一本讲牛顿巴罗胡克的书。
哎,我今天又得罪了一些微信群里的AI知名学者,
心情沉痛啊。为毛啊,三分钟我就把人得罪光了……
看来每天要多读读胡克的故事
: 我也好奇了好多年,为什么到处都是平方开方。 直到有一天,有位大师
告诉我
这一切
: 的一切,都是勾股定律的结果。 我才恍然大悟。统计上的很多定律,比
如total
: variance formula(一连串的sum square)都是勾股定律的应用. 高斯
-马尔
科夫说
: least square estimator是线性系统里是最棒的,是不是也受到勾股定律
的启发
? 不
: 清楚。
【在 m******r 的大作中提到】 : 我也好奇了好多年,为什么到处都是平方开方。 直到有一天,有位大师告诉我这一切 : 的一切,都是勾股定律的结果。 我才恍然大悟。统计上的很多定律,比如total : variance formula(一连串的sum square)都是勾股定律的应用. 高斯-马尔科夫说 : least square estimator是线性系统里是最棒的,是不是也受到勾股定律的启发? 不 : 清楚。
|
T*******e 发帖数: 249 | 103 我觉得DS最重要的还是为什么要这么做, 这些算法里的数学问题本来就不是DS应该去
关心的。 DS还是要从intuition出发, 问问做过的项目数据是咋样的,为什么要选这
种machine learning方法, 以及怎么去evaluate这种方法才是合理的。 这种才是DS的
基本素质。 当然只是硕士什么的码码code的就无所谓了。 |
a*********a 发帖数: 3656 | 104 嗯,这个是中心极限定理得结果。N个随机变量,尽管本身都不是正太,但是相加和会
趋紧正太。所以有多种随机噪声得测量,基本都可以认为误差是正太,是有理论依据的。
【在 g****t 的大作中提到】 : 牛顿当初猜万有引力定律,似乎猜的不是平方反比。胡克猜的是对的.因为这点烂事, : 胡克死后,牛顿销毁了胡克所有的画像。乃至于至今没有胡克的像留存。 : 以上内容回忆自V.I.Arnold的一本讲牛顿巴罗胡克的书。 : 哎,我今天又得罪了一些微信群里的AI知名学者, : 心情沉痛啊。为毛啊,三分钟我就把人得罪光了…… : 看来每天要多读读胡克的故事 : : : 我也好奇了好多年,为什么到处都是平方开方。 直到有一天,有位大师 : 告诉我 : 这一切
|
a*********a 发帖数: 3656 | 105 但是绝对有可能出现。所以老板才会叫多测几个。
这种时候sqrt(n)估计绝对重要。如果问卷一个人要给10块,那在加2400人,就得花2万
4千块。这可能决定要不要继续这个项目的问题。
【在 T*******x 的大作中提到】 : 对。这个我也注意到了。标准差为10对于一个(0,100)取值的评价分数的random : variable来说比较正常。但是如果说它是sample mean的标准差,那绝对太大了。所以 : 题出的确实欠考虑。 : : standard : ,
|
T*******x 发帖数: 8565 | 106 来做个简单的估算:一个(0,100)取值的random variable的标准差上限是100吧?那
么sample size 100的sample mean的标准差的上限是10,实际情况不可能达到。所以原
题的数字不合理。
:
:但是绝对有可能出现。所以老板才会叫多测几个。 |
T*******x 发帖数: 8565 | 107 对。我觉得这个解释是合理的。为什么到处都是sqrt?直接原因是因为你研究的量里有
square。比如方差。为什么到处都有square?这可能是因为勾股定理,因为空间距离满
足勾股定理。
:我也好奇了好多年,为什么到处都是平方开方。 直到有一天,有位大师告诉我这一切
:的一切,都是勾股定律的结果。 我才恍然大悟。统计上的很多定律,比如total |
m******r 发帖数: 1033 | 108 后来我又学了什么hilbert 空间, L_p 空间,才知道这空间这p不一定非等于2,可以等
于0,1,2,3,3.5一直到无穷。 那么为什么勾股定理非得用2 ?
首先用奇数可能不行,搞不好计算的时候弄出一堆负数。那么用2.5呢? 好像有些莫名
其妙。 所以上帝,或者别的大神, 造世界的时候说,我造的这个世界不能太简单,怕
你们闲的无聊,所以p不能太小。 又不能太复杂, 太复杂了,你们考试怎么考? 太长
的公式怕你们记不住。我造的这个世界,让你们可以求导, 还可以求导数的导数就可
以了。 满足这两点,学统计的只需搞懂均值,方差; 炒股票的只需明白sqrt(t); 聪
明一点的可以琢磨hessian matrix 推导各种公式。
让你们每天有事情做,有楼可以盖。 所以勾股定理p要选2
一切
【在 T*******x 的大作中提到】 : 对。我觉得这个解释是合理的。为什么到处都是sqrt?直接原因是因为你研究的量里有 : square。比如方差。为什么到处都有square?这可能是因为勾股定理,因为空间距离满 : 足勾股定理。 : : :我也好奇了好多年,为什么到处都是平方开方。 直到有一天,有位大师告诉我这一切 : :的一切,都是勾股定律的结果。 我才恍然大悟。统计上的很多定律,比如total
|
r*g 发帖数: 3159 | 109 勾股定理中学生都该会证。面试的时候要是更进一步,问勾股定理是从哪一条公理推出
的,到底为什么是对的,norm-2 特殊到哪里,就又能蒙到一片了。
【在 m******r 的大作中提到】 : 后来我又学了什么hilbert 空间, L_p 空间,才知道这空间这p不一定非等于2,可以等 : 于0,1,2,3,3.5一直到无穷。 那么为什么勾股定理非得用2 ? : 首先用奇数可能不行,搞不好计算的时候弄出一堆负数。那么用2.5呢? 好像有些莫名 : 其妙。 所以上帝,或者别的大神, 造世界的时候说,我造的这个世界不能太简单,怕 : 你们闲的无聊,所以p不能太小。 又不能太复杂, 太复杂了,你们考试怎么考? 太长 : 的公式怕你们记不住。我造的这个世界,让你们可以求导, 还可以求导数的导数就可 : 以了。 满足这两点,学统计的只需搞懂均值,方差; 炒股票的只需明白sqrt(t); 聪 : 明一点的可以琢磨hessian matrix 推导各种公式。 : 让你们每天有事情做,有楼可以盖。 所以勾股定理p要选2 :
|
i****k 发帖数: 668 | 110 你没听说过“多次测量取平均值”的说法么?方差不降低取平均值干嘛。
【在 w***g 的大作中提到】 : 第二个我也不会。 : 方差由分布决定,和增加采样有什么关系。 : 标准正太分布方差就是1, 再怎么采样也还是1,最多估计的精确点。 : 我又去查了下google,确定我理解没有错误。 : 肯定是你问的不对,自己搞错概念了。
|