关于wabbit的讨论汇总 - 话题女王

p*****r
发帖数: 1883

来自主题: JobHunting版 - 讲个找数据科学工作的捷径 aka 刷Kaggle题迅速入门data scientist

贡献一个我之前写的贴，刷Kaggle的题是快速成为data scientist的捷径之一，这和什
么山寨leetcode不一样，那个刷200题对实际工作毫无帮助（对面试也几乎无帮助），
刷Kaggle只要刷一俩题，差不多花三个月的业余时间，智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解，在数据清理，数据操作，建立模
型，评价模型和结果这些方面都有实际深入的了解，不会再出现“面试官问overfit了
怎么办，我说了Cross Validation，面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现，其实那个面试官
自己也不太懂就知道个概念才会问那个的问题，照着这个教程来，分分钟和面试官对L1
和L2 regularization 对稀疏feature的表现谈笑风生，如果搞的深入点把深度学习顺
道也会了，说个“其实dropout也是regularization什么什么的”，保证面试官立刻给
你跪舔，再也不敢上来卖弄概念自寻羞辱。
看我辛苦写这么多教学的份上，请允许我宣传一下我们的白宫投票 ht... 阅读全帖

p*****r
发帖数: 1883

来自主题: JobHunting版 - 讲个找数据科学工作的捷径 aka 刷Kaggle题迅速入门data scientist

z*********n
发帖数: 94654

来自主题: pets版 - 宠物的确不能随便养啊

嘿嘿
rabbit
wabbit
rabbit
wabbit

c***z
发帖数: 6348

来自主题: DataSciences版 - 讲个找数据科学工作的捷径 aka 刷Kaggle题迅速入门data scient (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: phunter (程式猎人：LA摸机会资深成员), 信区: JobHunting
标题: 讲个找数据科学工作的捷径 aka 刷Kaggle题迅速入门data scient
发信站: BBS 未名空间站 (Mon Apr 27 18:26:38 2015, 美东)
贡献一个我之前写的贴，刷Kaggle的题是快速成为data scientist的捷径之一，这和什
么山寨leetcode不一样，那个刷200题对实际工作毫无帮助（对面试也几乎无帮助），
刷Kaggle只要刷一俩题，差不多花三个月的业余时间，智力正常的理工科大学毕业生都
能对data science这个东西有个初步但是全面的了解，在数据清理，数据操作，建立模
型，评价模型和结果这些方面都有实际深入的了解，不会再出现“面试官问overfit了
怎么办，我说了Cross Validation，面试官看起来不高兴”然后下面回帖帮楼主的都是
不知所云楼主看了也是云里雾里这样的惨剧。你要是学好了就会发现，其实那个面试官
自己也不太懂就知道个概念才会问那个的问题，照着这个教... 阅读全帖

c*******m
发帖数: 522

来自主题: JobHunting版 - 讲个找数据科学工作的捷径 aka 刷Kaggle题迅速入门data scientist

Vowpal Wabbit 吧

c*******m
发帖数: 522

来自主题: JobHunting版 - 讲个找数据科学工作的捷径 aka 刷Kaggle题迅速入门data scientist

Vowpal Wabbit 吧

b******e
发帖数: 1861

来自主题: GunsAndGears版 - 休斯敦CHL课deal, $65 per person

有要一起上的么
copy from slickdeals.net
http://slickdeals.net/forums/showthread.php?t=2195543
Concealed Hangun License (CHL) Class $65 in Houston, TX
Licensed to Carry - Houston, TX
Two-Part, Ten-Hour Concealed Handgun-Licensing Class $65 per person per
visit.
A great deal if you're in the market for obtaining a CHL. Normal prices are
usually about $110-$140 for the class..
"There's no need to look like Elmer Fudd when it comes to handling a gun. To
save you from feeling like a silly wabbit, we're brin

f******g
发帖数: 1697

来自主题: Travel版 - [合集] 求助! 被us airway骗了400多...

☆─────────────────────────────────────☆
suanputao (suanputao) 于 (Thu Feb 18 23:16:01 2010, 美东) 提到:
lg定了us airway的机票春节到我这团聚,回去前准备online check in的时候,发现回去
的机票时间给定错了,然后悲剧就开始了...
先打电话到客服,客服说,简单自己上网去改.lg去网上,说要先取消原来的,然后定新的,
你最后补个差价就行了.是挺简单的,可是付差价的时候死活不收credit card,说有问题
,lg头一热,用debit card付了.恩,网上显示终于改好了,那赶快check in吧, 还有4,5个
小时飞机就要飞了!
可是check in不了，错误信息，让联系客服。查了一下银行记录看一下钱到底扣了没（
应该是50多刀）,一看，悲剧了，被一个叫US WEB CA的地方扣了4笔，2笔2刀，2笔207
刀，总共416刀。赶紧打电话，人说没改，还是原来日期，也别冤枉我们，没扣你钱！-
可是我们这网上显示日期改了。。。然后他又说我们这是technical s... 阅读全帖

Y**s
发帖数: 1632

来自主题: pets版 - 宠物的确不能随便养啊

it's wabbit season!

c****e
发帖数: 1453

来自主题: Programming版 - 试了下spark，不过如此啊

simple IO显不出来。HIVE用了0.13？ HIVE实现stinger initiative以后，本来就快了
差不多50倍。Cloudera当时想放弃HIVE, 专心推Imapla现在也被迫回头了。
Hortonworks给Windows提供HDInsight有点结盟的意思，微软贡献了SQL query
optimization到HIVE,还有column file compression format. 这些东西都加上去，和
Spark差别没那么大。一般的逻辑处理，不是极端的算法，5倍到10倍撑死了。
Spark除了RDD, 说到底是继承了Dryad的paper, 用operator做处理比纯粹的MR效率高很
多，再加上中间i/o不要都写到硬盘上，速度一下子上来了。HIVE stinger也是搬这一
套，普通的商业逻辑处理差别只会越来越小。
迭代的算法Spark优势会比较大，但是ML-Lib东西还比较少。没有用过，有用过的出来
说说perf吗？比如我跑个vowpal-wabbit会快多少倍？

w***g
发帖数: 5958

来自主题: Programming版 - ML 需不需要搞懂那些数学

用ML和自己搞新算法这两者完全不同. 搞新算法太难了. 你别看每年那么多paper,
什么这个machine那个machine数学公式一大堆, 大部分其实都是incremental提高
甚至没有提高, 学生为了毕业老版为了funding不得不出paper, 其实太阳底下哪有
那么多新鲜事好写的? 如果你觉得sklearn玩腻了, 下一步是自己去identify一个
牛x, 但又没有好用的开源系统的算法去实现, 并且试着从常识的角度对这个算法
进行改进. 不要从数学角度去理解算法, 而是从编程的角度去理解算法. 然后测试,
fix各种corner case. 这样你在github上就能有自己的一席之地. 或者可以去看
那个啥啥wabbit和xgboost的实现, 自己改改跑跑. 要不了多就你就可以给他们提交
pull request了.
对于水平局限于到这个版来问问题的同学, 强烈不建议去搞数学推公式.

model

m****v
发帖数: 780

来自主题: Statistics版 - 面了一个IT公司跟机器学习相关的职位

对于IT公司来说，数据量大而且实时，大数据量machine learning的问题以前已经在解
决，最近在解决的问题变成了如何处理实时的大数据量machine learning的问题，已经
部分解决的。Vowpal Wabbit 和 spark 算是这方面的努力。当然这是解决training的
速度问题。解决testing的速度问题目前还没太有人重视。我曾经利用search engine的
算法把一个传统的模型testing的速度提高了10倍，给CS的会议投稿，但这帮学术界的
评委只关系公式，对于效率的提高没有兴趣。这是工业界和学术界的差别。但是real
time biding一共最多就几百毫秒，qps经常是million级别的，不提高速度很多模型根
本没法用。training也得快，distribution随时在变，model变慢了，预测就差了，rtb
自然就赚不到钱了。所以模型系统的准确率和效率都非常重要。效率达不到，准确率就
没用了，或者会下降。

s****h
发帖数: 3979

来自主题: DataSciences版 - 有人考虑过kaggle上这个预测CTR的题目么？

今天无意在kaggle上发现了这道题，要预测CTR rate：
https://www.kaggle.com/c/avazu-ctr-prediction
不利的一点是这题已经出来两个多月，还有2周就截止了。
有趣的是这题变量很多，啥machine learning的tool都可以随便试，所以目前已经提交
答案的队居然有1400+，估计都是啥顺手的toolbox都拿来试一试。
论坛上看到很多人说直接用Vowpal Wabbit,还没tuning呢，结果就接近目前排名最高的
team了。
大家有兴趣的一起看看？分享一下思路？
evaluation is based on Logarithmic Loss.
觉得不合理啊，实际应用中应该用number of correct prediction吧。
下午比较空，就下载了数据，load进hive，先算了算group by各个变量的CTR。
我目前的思路比较too simple too naive。就是每个变量替换成该group by变量的CTR
，然后general linear regression试试看效果如何。

s****h
发帖数: 3979

来自主题: DataSciences版 - 有人考虑过kaggle上这个预测CTR的题目么？

w*******y
发帖数: 60932

来自主题: _DealGroup版 - 【$】Concealed Hangun License (CHL) Class $65 in Houston, TX

Licensed to Carry - Houston, TX
Two-Part, Ten-Hour Concealed Handgun-Licensing Class $65 per person per
visit.
A great deal if you're in the market for obtaining a CHL. Normal prices are
usually about $110-$140 for the class..
"There's no need to look like Elmer Fudd when it comes to handling a gun. To
save you from feeling like a silly wabbit, we're bringing out the big guns
with today's deal -- just $65 (a 57% discount) will get you a concealed
handgun class with Licensed to Carry..."
To reser

O*****a
发帖数: 11621

来自主题: _FilmArts版 - Krtek-BurrowingGentlyIntoCzechCulture[z]

March 6, 2004
SATURDAY PROFILE
50 Years of Burrowing Gently Into Czech Culture
By IAN FISHER
RAGUE — In America, anvils were falling. A coyote strapped on Acme rocket
skates. A slobbering duck kept getting his beak blasted off and, sadly for
him, it may actually have been wabbit season. It was quieter here in 1954,
when a frustrated Czech animator went for an evening walk in the woods
searching for his own blockbuster of a cartoon character.
"It was already dark," the animator, Zdenek Miler, now

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天