j*********n 发帖数: 4116 | 1 FA配合一点TA的trick才是投资的主流 这俩年为了赶时髦我也接触了一些金融工程的东
东 感觉很虚...每个人都说自己的策略backtest怎么牛比 可一用起来就扯淡
俺觉得,矿工还是好好配合产品和销售定好价 然后自己往产品和销售的方向发展 这个
才是正道 多锻炼锻炼自己忽悠的能力 在买方没啥前途
不过俺觉得矿工还是一个很好的入门职位 可以比较系统\全面的了解市场 打下基础 基
本工和思路要比行研好不少 但情商要低很多 |
c**v 发帖数: 55 | 2 你觉得虚是因为高手不会告诉你“实”的东西。靠TA做trading赚钱的人其实很多,只
是大家都闷声大发财,不像sales那么高调罢了。
【在 j*********n 的大作中提到】 : FA配合一点TA的trick才是投资的主流 这俩年为了赶时髦我也接触了一些金融工程的东 : 东 感觉很虚...每个人都说自己的策略backtest怎么牛比 可一用起来就扯淡 : 俺觉得,矿工还是好好配合产品和销售定好价 然后自己往产品和销售的方向发展 这个 : 才是正道 多锻炼锻炼自己忽悠的能力 在买方没啥前途 : 不过俺觉得矿工还是一个很好的入门职位 可以比较系统\全面的了解市场 打下基础 基 : 本工和思路要比行研好不少 但情商要低很多
|
L******g 发帖数: 1371 | 3 我每次看一些人一知半解的人谈一些似是而非的“大题目” 就想笑。
每年pnl 超过500 个M的基金至少20个,lz 竟然说“一用起来都是扯淡" |
R**T 发帖数: 784 | 4 一般的扯淡帖我会说“第一个逗号前的部分还是对的”,
这个帖实在是超凡脱俗,这么长连个逗号都没有...
【在 j*********n 的大作中提到】 : FA配合一点TA的trick才是投资的主流 这俩年为了赶时髦我也接触了一些金融工程的东 : 东 感觉很虚...每个人都说自己的策略backtest怎么牛比 可一用起来就扯淡 : 俺觉得,矿工还是好好配合产品和销售定好价 然后自己往产品和销售的方向发展 这个 : 才是正道 多锻炼锻炼自己忽悠的能力 在买方没啥前途 : 不过俺觉得矿工还是一个很好的入门职位 可以比较系统\全面的了解市场 打下基础 基 : 本工和思路要比行研好不少 但情商要低很多
|
e***z 发帖数: 7126 | 5 对的。矿特的前景根本不悲催
混几年之后,就算退而求次,去非死不可做矿特,仍旧可以拿30几w 至少
【在 R**T 的大作中提到】 : 一般的扯淡帖我会说“第一个逗号前的部分还是对的”, : 这个帖实在是超凡脱俗,这么长连个逗号都没有...
|
l***4 发帖数: 1788 | 6 去FB做矿?
【在 e***z 的大作中提到】 : 对的。矿特的前景根本不悲催 : 混几年之后,就算退而求次,去非死不可做矿特,仍旧可以拿30几w 至少
|
e***z 发帖数: 7126 | 7 对的。data scientist. 技能重叠比较大,而且配的狠高(当然这个板上都是见过世面
的,狠多人看不上20几w-30w的小钱)
https://www.facebook.com/careers/department?dept=engineering&req=
a2KA0000000LjX4MAK
【在 l***4 的大作中提到】 : 去FB做矿?
|
l********e 发帖数: 220 | 8 这可不是花街的一般quant能做的,data scientist一般都需要hard core machine
learning的技术,和big data相关的cs东西。我就知道两个人在做类似的,一个是
princeton另一个是stanford,都是cs phd,还知道有cs prof在做
【在 e***z 的大作中提到】 : 对的。data scientist. 技能重叠比较大,而且配的狠高(当然这个板上都是见过世面 : 的,狠多人看不上20几w-30w的小钱) : https://www.facebook.com/careers/department?dept=engineering&req= : a2KA0000000LjX4MAK
|
l***4 发帖数: 1788 | 9 受教了 虽然感觉不是特别对口。。
【在 e***z 的大作中提到】 : 对的。data scientist. 技能重叠比较大,而且配的狠高(当然这个板上都是见过世面 : 的,狠多人看不上20几w-30w的小钱) : https://www.facebook.com/careers/department?dept=engineering&req= : a2KA0000000LjX4MAK
|
t*******z 发帖数: 606 | |
|
|
n*****3 发帖数: 1584 | 11 to quants,or quant developers, these are not hard ba? ML is not hard, there
is hard
core ML? what is that?
【在 l********e 的大作中提到】 : 这可不是花街的一般quant能做的,data scientist一般都需要hard core machine : learning的技术,和big data相关的cs东西。我就知道两个人在做类似的,一个是 : princeton另一个是stanford,都是cs phd,还知道有cs prof在做
|
B******5 发帖数: 4676 | 12 I don't think it is that hard. Since there are so many data scientists slots
open, the bar is much lower than before...
【在 l********e 的大作中提到】 : 这可不是花街的一般quant能做的,data scientist一般都需要hard core machine : learning的技术,和big data相关的cs东西。我就知道两个人在做类似的,一个是 : princeton另一个是stanford,都是cs phd,还知道有cs prof在做
|
n*****3 发帖数: 1584 | 13 I guess the pay for data scientists will be lower too?
slots
【在 B******5 的大作中提到】 : I don't think it is that hard. Since there are so many data scientists slots : open, the bar is much lower than before...
|
B******5 发帖数: 4676 | 14 Not really. When the demand is greater than supply, pay is going to be
higher
【在 n*****3 的大作中提到】 : I guess the pay for data scientists will be lower too? : : slots
|
n*****3 发帖数: 1584 | 15 agree. BTW I think the data scientist think is very new, different
company might expect different skill sets, I guess a lot of company
themselves do not know what to expect
【在 B******5 的大作中提到】 : Not really. When the demand is greater than supply, pay is going to be : higher
|
w**********y 发帖数: 1691 | 16 unstructure data + big data+ultra high dimensional variable 然后再做ML,可能
cs科班出身的觉得不难.反正我是觉得挺难的...
家里现在的电脑根本没法用. 现在在等24线程的lenovo的deal
there
【在 n*****3 的大作中提到】 : to quants,or quant developers, these are not hard ba? ML is not hard, there : is hard : core ML? what is that?
|
k*******d 发帖数: 1340 | 17 SSD is cheap now, may help a lot. 250G $140
As far as I know, R is not very good for big data because it creates copies
very often (I am not sure, heard from others)
BTW, what is unstructure data? Data that is not a matrix?
【在 w**********y 的大作中提到】 : unstructure data + big data+ultra high dimensional variable 然后再做ML,可能 : cs科班出身的觉得不难.反正我是觉得挺难的... : 家里现在的电脑根本没法用. 现在在等24线程的lenovo的deal : : there
|
r*******t 发帖数: 8550 | 18 Where to get the 500G SSD for $140?
copies
【在 k*******d 的大作中提到】 : SSD is cheap now, may help a lot. 250G $140 : As far as I know, R is not very good for big data because it creates copies : very often (I am not sure, heard from others) : BTW, what is unstructure data? Data that is not a matrix?
|
l********e 发帖数: 220 | 19 unstructured data mostly are non-quantified, un-managed, or descriptive data
. for example web/internet data or text data.
check out this book, it is free for downloading. it is just an introductory
book, doesnt involve any real core techniques, but it covers something like
Internet-scale data mining, ML, mapReduce/hadoop. You will have some feel of
it.
http://infolab.stanford.edu/~ullman/mmds.html
My point is, in general this kind of type jobs are quite different from
quant jobs in finance, especially sell side quants. So such career switch is
not as easy as you thought (it is possible though). Also, machine learning
has already been very popular in big data world in the industry, but in
finance world it is seldom used
copies
【在 k*******d 的大作中提到】 : SSD is cheap now, may help a lot. 250G $140 : As far as I know, R is not very good for big data because it creates copies : very often (I am not sure, heard from others) : BTW, what is unstructure data? Data that is not a matrix?
|
k*******d 发帖数: 1340 | 20 Sorry I was wrong, 250G $140. 500G $280 or so....
Samsung 840.
It is not the best one, since its write speed is half of the read speed. But
I think it is good enough for data analysis because usually the bottleneck
is reading the data (not sure if this is correct in all cases).
【在 r*******t 的大作中提到】 : Where to get the 500G SSD for $140? : : copies
|
|
|
w**********y 发帖数: 1691 | 21 I am using SSD on my PC. The bottleneck for my case is number and speed of
CPUs. Cuz I need to try multi simulations with different parameters.
For some famous ML packages in R, it is very efficient, cuz the underlying
codes are either in C or Java. e.g., glmnet. But i do feel the need to
tranfer all work into either java or R someday.
copies
【在 k*******d 的大作中提到】 : SSD is cheap now, may help a lot. 250G $140 : As far as I know, R is not very good for big data because it creates copies : very often (I am not sure, heard from others) : BTW, what is unstructure data? Data that is not a matrix?
|
h*******u 发帖数: 15326 | 22 什么是24线程的lenovo?
【在 w**********y 的大作中提到】 : unstructure data + big data+ultra high dimensional variable 然后再做ML,可能 : cs科班出身的觉得不难.反正我是觉得挺难的... : 家里现在的电脑根本没法用. 现在在等24线程的lenovo的deal : : there
|
r*******t 发帖数: 8550 | 23 With 24 Hyperthreading CPU(s)
【在 h*******u 的大作中提到】 : 什么是24线程的lenovo?
|
n*****3 发帖数: 1584 | 24 高维DATA 是 RESEARCH HOT TOPIC, which means there is
no good solution yet.
unstructure data is about Parsing/clearing data,different story.
big data needs cluster/hadoop. GOOD CPU/ssd 帮助不大。
【在 w**********y 的大作中提到】 : unstructure data + big data+ultra high dimensional variable 然后再做ML,可能 : cs科班出身的觉得不难.反正我是觉得挺难的... : 家里现在的电脑根本没法用. 现在在等24线程的lenovo的deal : : there
|
k*******d 发帖数: 1340 | 25 You may consider Amazon EC2. You can buy as many CPU hours as you want. I
have never used it though....
【在 w**********y 的大作中提到】 : I am using SSD on my PC. The bottleneck for my case is number and speed of : CPUs. Cuz I need to try multi simulations with different parameters. : For some famous ML packages in R, it is very efficient, cuz the underlying : codes are either in C or Java. e.g., glmnet. But i do feel the need to : tranfer all work into either java or R someday. : : copies
|
m**********4 发帖数: 774 | 26 大牛给我们科普一下ultra high dimensional variable跟传统的high dimensional
variable有啥区别?用那些传统的dimension reduction/ variable selection
technique 吗?啥是 unstructured data? Image/text processing算不算啊?
每次听到这个"big data"我都抓瞎。这到底是什么东西?hadoop写parallel程序吗?
才刚毕业就这么落伍了。。尤其是现在BIG DATA这么火,我这边连个头绪都木有。
【在 w**********y 的大作中提到】 : unstructure data + big data+ultra high dimensional variable 然后再做ML,可能 : cs科班出身的觉得不难.反正我是觉得挺难的... : 家里现在的电脑根本没法用. 现在在等24线程的lenovo的deal : : there
|
w**********y 发帖数: 1691 | 27 要是大牛还能觉得难做么。
呼唤 nacst23来讲。。。
【在 m**********4 的大作中提到】 : 大牛给我们科普一下ultra high dimensional variable跟传统的high dimensional : variable有啥区别?用那些传统的dimension reduction/ variable selection : technique 吗?啥是 unstructured data? Image/text processing算不算啊? : 每次听到这个"big data"我都抓瞎。这到底是什么东西?hadoop写parallel程序吗? : 才刚毕业就这么落伍了。。尤其是现在BIG DATA这么火,我这边连个头绪都木有。
|
H********d 发帖数: 67 | 28 比如image/text/speech等等,这些data如果没有好的处理,直接来 (cls,clustering
,etc),就基本不太work。这就是unstructured data的特点
big data是这几年的新概念,肯定是基于ML/DM/IR/Web/等领域对large-scale data
analysis的基础上的。不同背景的人关注点会不一样,theory/alg/hardware/software
/application/etc
ultra high dimensional data(p>>N)的问题已经做了挺长时间了,bioinformatics那
边似乎应用不少
【在 m**********4 的大作中提到】 : 大牛给我们科普一下ultra high dimensional variable跟传统的high dimensional : variable有啥区别?用那些传统的dimension reduction/ variable selection : technique 吗?啥是 unstructured data? Image/text processing算不算啊? : 每次听到这个"big data"我都抓瞎。这到底是什么东西?hadoop写parallel程序吗? : 才刚毕业就这么落伍了。。尤其是现在BIG DATA这么火,我这边连个头绪都木有。
|
k*******d 发帖数: 1340 | 29 p>>N? 那compressive sensing是不是也算?。。。
clustering
software
【在 H********d 的大作中提到】 : 比如image/text/speech等等,这些data如果没有好的处理,直接来 (cls,clustering : ,etc),就基本不太work。这就是unstructured data的特点 : big data是这几年的新概念,肯定是基于ML/DM/IR/Web/等领域对large-scale data : analysis的基础上的。不同背景的人关注点会不一样,theory/alg/hardware/software : /application/etc : ultra high dimensional data(p>>N)的问题已经做了挺长时间了,bioinformatics那 : 边似乎应用不少
|
l*******s 发帖数: 1258 | 30 搞NLP和ML的飘过。
搞的东西是text data,算是unstructured data中最重要的之一。
这玩意太多的task specific东西,涉及到的东西很零碎,每块还都得懂,n多细节,n
多tricky的东西,每一部分想搞的比较理想都比较困难,而且好多东西搞起来成本很高
,比如要NB的cpu和memory,要雇人搞annotation。
另外,好多学术界最新的成果都没法直接运用到工业界,都是只在某个data set上work
,范围一广就不行了。
【在 w**********y 的大作中提到】 : unstructure data + big data+ultra high dimensional variable 然后再做ML,可能 : cs科班出身的觉得不难.反正我是觉得挺难的... : 家里现在的电脑根本没法用. 现在在等24线程的lenovo的deal : : there
|
|
|
g****e 发帖数: 1829 | 31 this is exactly right.
n
work
【在 l*******s 的大作中提到】 : 搞NLP和ML的飘过。 : 搞的东西是text data,算是unstructured data中最重要的之一。 : 这玩意太多的task specific东西,涉及到的东西很零碎,每块还都得懂,n多细节,n : 多tricky的东西,每一部分想搞的比较理想都比较困难,而且好多东西搞起来成本很高 : ,比如要NB的cpu和memory,要雇人搞annotation。 : 另外,好多学术界最新的成果都没法直接运用到工业界,都是只在某个data set上work : ,范围一广就不行了。
|
n*****3 发帖数: 1584 | 32
n
work
second this. 所以 有人说ML 是伪科学, usually the algorithm only
works well on on toy/picked dataset.
G/F have huge datasets, so they can learn some thing, through
NOT so fancy model.
【在 l*******s 的大作中提到】 : 搞NLP和ML的飘过。 : 搞的东西是text data,算是unstructured data中最重要的之一。 : 这玩意太多的task specific东西,涉及到的东西很零碎,每块还都得懂,n多细节,n : 多tricky的东西,每一部分想搞的比较理想都比较困难,而且好多东西搞起来成本很高 : ,比如要NB的cpu和memory,要雇人搞annotation。 : 另外,好多学术界最新的成果都没法直接运用到工业界,都是只在某个data set上work : ,范围一广就不行了。
|
s********r 发帖数: 2308 | 33 作data scientist最重要的是feature building吧,这个需要对specific topic 有很
深刻的理解才好建模。 |
l*******s 发帖数: 1258 | 34 aglee!
这个必须得有domain knowledge,至于那个feature应该用,有时候就靠感觉。更像是
art,不像是science。
【在 s********r 的大作中提到】 : 作data scientist最重要的是feature building吧,这个需要对specific topic 有很 : 深刻的理解才好建模。
|
s********r 发帖数: 2308 | 35 其实是几方面,一是要了解客户端的需求,这个比起quant来说就复杂一些,有时候你
需要自己brain storm出来有用的信息,如果是operation related, 还要帮助设计
process和work flow, 不同的process会对信息有不同的需求。另一方面是要对data的
表征和背后的各种semantics/motivation有充分的了解,从而指导feature design/
selection。
【在 l*******s 的大作中提到】 : aglee! : 这个必须得有domain knowledge,至于那个feature应该用,有时候就靠感觉。更像是 : art,不像是science。
|
l*******s 发帖数: 1258 | 36 second this.
有时候,不同的task,搞出来整个系统的architecture都不一样。
比如某些基于graph model的系统,就很难搞成pipeline的形式;semi-supervised再加
上online training的东西,就需要对系统实时性有很多的考虑。
【在 s********r 的大作中提到】 : 其实是几方面,一是要了解客户端的需求,这个比起quant来说就复杂一些,有时候你 : 需要自己brain storm出来有用的信息,如果是operation related, 还要帮助设计 : process和work flow, 不同的process会对信息有不同的需求。另一方面是要对data的 : 表征和背后的各种semantics/motivation有充分的了解,从而指导feature design/ : selection。
|
s********r 发帖数: 2308 | 37 对,所以很多时候还是batch居多,怎么把batch的结果用在实时系统上,怎么evaluate
结果,怎么设计feedback就都有很多algorithm以外的东西了。所以在企业里有两种
data scientist,一种就是backend的算法支持和prototype开发,一种则吃透了服务和
架构,称之为data service architect更合适。
【在 l*******s 的大作中提到】 : second this. : 有时候,不同的task,搞出来整个系统的architecture都不一样。 : 比如某些基于graph model的系统,就很难搞成pipeline的形式;semi-supervised再加 : 上online training的东西,就需要对系统实时性有很多的考虑。
|
l*******s 发帖数: 1258 | 38 成为后一种 那是相当NB啊 基本上是架构师和数据科学家的合体了。
evaluate
【在 s********r 的大作中提到】 : 对,所以很多时候还是batch居多,怎么把batch的结果用在实时系统上,怎么evaluate : 结果,怎么设计feedback就都有很多algorithm以外的东西了。所以在企业里有两种 : data scientist,一种就是backend的算法支持和prototype开发,一种则吃透了服务和 : 架构,称之为data service architect更合适。
|