p*****r 发帖数: 1883 | 1 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
你跪舔,再也不敢上来卖弄概念自寻羞辱。
看我辛苦写这么多教学的份上,请允许我宣传一下我们的白宫投票 ht... 阅读全帖 |
|
p*****r 发帖数: 1883 | 2 贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教程来,分分钟和面试官对L1
和L2 regularization 对稀疏feature的表现谈笑风生,如果搞的深入点把深度学习顺
道也会了,说个“其实dropout也是regularization什么什么的”,保证面试官立刻给
你跪舔,再也不敢上来卖弄概念自寻羞辱。
看我辛苦写这么多教学的份上,请允许我宣传一下我们的白宫投票
ht... 阅读全帖 |
|
z*********n 发帖数: 94654 | 3 嘿嘿
rabbit
wabbit
rabbit
wabbit |
|
c***z 发帖数: 6348 | 4 【 以下文字转载自 JobHunting 讨论区 】
发信人: phunter (程式猎人:LA摸机会资深成员), 信区: JobHunting
标 题: 讲个找数据科学工作的捷径 aka 刷Kaggle题迅速入门data scient
发信站: BBS 未名空间站 (Mon Apr 27 18:26:38 2015, 美东)
贡献一个我之前写的贴,刷Kaggle的题是快速成为data scientist的捷径之一,这和什
么山寨leetcode不一样,那个刷200题对实际工作毫无帮助(对面试也几乎无帮助),
刷Kaggle只要刷一俩题,差不多花三个月的业余时间,智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解,在数据清理,数据操作,建立模
型,评价模型和结果这些方面都有实际深入的了解,不会再出现“面试官问overfit了
怎么办,我说了Cross Validation,面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现,其实那个面试官
自己也不太懂就知道个概念才会问那个的问题,照着这个教... 阅读全帖 |
|
|
|
b******e 发帖数: 1861 | 7 有要一起上的么
copy from slickdeals.net
http://slickdeals.net/forums/showthread.php?t=2195543
Concealed Hangun License (CHL) Class $65 in Houston, TX
Licensed to Carry - Houston, TX
Two-Part, Ten-Hour Concealed Handgun-Licensing Class $65 per person per
visit.
A great deal if you're in the market for obtaining a CHL. Normal prices are
usually about $110-$140 for the class..
"There's no need to look like Elmer Fudd when it comes to handling a gun. To
save you from feeling like a silly wabbit, we're brin |
|
f******g 发帖数: 1697 | 8 ☆─────────────────────────────────────☆
suanputao (suanputao) 于 (Thu Feb 18 23:16:01 2010, 美东) 提到:
lg定了us airway的机票春节到我这团聚,回去前准备online check in的时候,发现回去
的机票时间给定错了,然后悲剧就开始了...
先打电话到客服,客服说,简单自己上网去改.lg去网上,说要先取消原来的,然后定新的,
你最后补个差价就行了.是挺简单的,可是付差价的时候死活不收credit card,说有问题
,lg头一热,用debit card付了.恩,网上显示终于改好了,那赶快check in吧, 还有4,5个
小时飞机就要飞了!
可是check in不了,错误信息,让联系客服。查了一下银行记录看一下钱到底扣了没(
应该是50多刀),一看,悲剧了,被一个叫US WEB CA的地方扣了4笔,2笔2刀,2笔207
刀,总共416刀。赶紧打电话,人说没改,还是原来日期,也别冤枉我们,没扣你钱!-
可是我们这网上显示日期改了。。。然后他又说我们这是technical s... 阅读全帖 |
|
|
c****e 发帖数: 1453 | 10 simple IO显不出来。HIVE用了0.13? HIVE实现stinger initiative以后,本来就快了
差不多50倍。Cloudera当时想放弃HIVE, 专心推Imapla现在也被迫回头了。
Hortonworks给Windows提供HDInsight有点结盟的意思,微软贡献了SQL query
optimization到HIVE,还有column file compression format. 这些东西都加上去,和
Spark差别没那么大。一般的逻辑处理,不是极端的算法,5倍到10倍撑死了。
Spark除了RDD, 说到底是继承了Dryad的paper, 用operator做处理比纯粹的MR效率高很
多,再加上中间i/o不要都写到硬盘上,速度一下子上来了。HIVE stinger也是搬这一
套,普通的商业逻辑处理差别只会越来越小。
迭代的算法Spark优势会比较大,但是ML-Lib东西还比较少。没有用过,有用过的出来
说说perf吗?比如我跑个vowpal-wabbit会快多少倍? |
|
w***g 发帖数: 5958 | 11 用ML和自己搞新算法这两者完全不同. 搞新算法太难了. 你别看每年那么多paper,
什么这个machine那个machine数学公式一大堆, 大部分其实都是incremental提高
甚至没有提高, 学生为了毕业老版为了funding不得不出paper, 其实太阳底下哪有
那么多新鲜事好写的? 如果你觉得sklearn玩腻了, 下一步是自己去identify一个
牛x, 但又没有好用的开源系统的算法去实现, 并且试着从常识的角度对这个算法
进行改进. 不要从数学角度去理解算法, 而是从编程的角度去理解算法. 然后测试,
fix各种corner case. 这样你在github上就能有自己的一席之地. 或者可以去看
那个啥啥wabbit和xgboost的实现, 自己改改跑跑. 要不了多就你就可以给他们提交
pull request了.
对于水平局限于到这个版来问问题的同学, 强烈不建议去搞数学推公式.
model |
|
m****v 发帖数: 780 | 12 对于IT公司来说,数据量大而且实时,大数据量machine learning的问题以前已经在解
决,最近在解决的问题变成了如何处理实时的大数据量machine learning的问题,已经
部分解决的。Vowpal Wabbit 和 spark 算是这方面的努力。当然这是解决training的
速度问题。解决testing的速度问题目前还没太有人重视。我曾经利用search engine的
算法把一个传统的模型testing的速度提高了10倍,给CS的会议投稿,但这帮学术界的
评委只关系公式,对于效率的提高没有兴趣。这是工业界和学术界的差别。但是real
time biding一共最多就几百毫秒,qps经常是million级别的,不提高速度很多模型根
本没法用。training也得快,distribution随时在变,model变慢了,预测就差了,rtb
自然就赚不到钱了。所以模型系统的准确率和效率都非常重要。效率达不到,准确率就
没用了,或者会下降。 |
|
s****h 发帖数: 3979 | 13 今天无意在kaggle上发现了这道题,要预测CTR rate:
https://www.kaggle.com/c/avazu-ctr-prediction
不利的一点是这题已经出来两个多月,还有2周就截止了。
有趣的是这题变量很多,啥machine learning的tool都可以随便试,所以目前已经提交
答案的队居然有1400+,估计都是啥顺手的toolbox都拿来试一试。
论坛上看到很多人说直接用Vowpal Wabbit,还没tuning呢,结果就接近目前排名最高的
team了。
大家有兴趣的一起看看?分享一下思路?
evaluation is based on Logarithmic Loss.
觉得不合理啊,实际应用中应该用number of correct prediction吧。
下午比较空,就下载了数据,load进hive,先算了算group by各个变量的CTR。
我目前的思路比较too simple too naive。就是每个变量替换成该group by变量的CTR
,然后general linear regression试试看效果如何。 |
|
s****h 发帖数: 3979 | 14 今天无意在kaggle上发现了这道题,要预测CTR rate:
https://www.kaggle.com/c/avazu-ctr-prediction
不利的一点是这题已经出来两个多月,还有2周就截止了。
有趣的是这题变量很多,啥machine learning的tool都可以随便试,所以目前已经提交
答案的队居然有1400+,估计都是啥顺手的toolbox都拿来试一试。
论坛上看到很多人说直接用Vowpal Wabbit,还没tuning呢,结果就接近目前排名最高的
team了。
大家有兴趣的一起看看?分享一下思路?
evaluation is based on Logarithmic Loss.
觉得不合理啊,实际应用中应该用number of correct prediction吧。
下午比较空,就下载了数据,load进hive,先算了算group by各个变量的CTR。
我目前的思路比较too simple too naive。就是每个变量替换成该group by变量的CTR
,然后general linear regression试试看效果如何。 |
|
w*******y 发帖数: 60932 | 15 Licensed to Carry - Houston, TX
Two-Part, Ten-Hour Concealed Handgun-Licensing Class $65 per person per
visit.
A great deal if you're in the market for obtaining a CHL. Normal prices are
usually about $110-$140 for the class..
"There's no need to look like Elmer Fudd when it comes to handling a gun. To
save you from feeling like a silly wabbit, we're bringing out the big guns
with today's deal -- just $65 (a 57% discount) will get you a concealed
handgun class with Licensed to Carry..."
To reser |
|
O*****a 发帖数: 11621 | 16 March 6, 2004
SATURDAY PROFILE
50 Years of Burrowing Gently Into Czech Culture
By IAN FISHER
RAGUE — In America, anvils were falling. A coyote strapped on Acme rocket
skates. A slobbering duck kept getting his beak blasted off and, sadly for
him, it may actually have been wabbit season. It was quieter here in 1954,
when a frustrated Czech animator went for an evening walk in the woods
searching for his own blockbuster of a cartoon character.
"It was already dark," the animator, Zdenek Miler, now |
|