由买买提看人间百态

topics

全部话题 - 话题: 分类器
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
g*******u
发帖数: 3948
1
来自主题: Programming版 - 多个分类器怎么融合?
我也这么想的
先训练n个分类器, 然后每个分类器作为一个feature生成器对每个样本输出一个prob
的特征 连接起来 然后训练一个总的对吧?
有个问题
比如 有两个分类器c1 c2
对样本i c1的概率输出是 p1= [p_c1_0 p_c1_1]
c1的概率输出是 p2=[p_c2_0 p_c2_1]
你意思吧p1 p2 stack起来 形成一个特征向量 进行训练?
也就是[p1 p2] =[p_c1_0 p_c1_1 p_c2_0 p_c2_1]
如果这样的话 一个问题是 我有很多分类器 比如有50个 这样stack起来 特征维数会
很大啊
比如50个分类器 分类 20类别问题 连接起来 有1,000维度啊
是不是 特征维度会太大?
还是我理解的有问题?
谢谢
g****t
发帖数: 31659
2
来自主题: Programming版 - 多个分类器怎么融合?
再次训练你的数据够吗……
第二次训练数据比第一次少很多了吧
数据不够不会有很多问题出来


: 我也这么想的

: 先训练n个分类器, 然后每个分类器作为一个feature生成器对每个样本
输出一
个prob

: 的特征 连接起来 然后训练一个总的对吧?

: 有个问题

: 比如 有两个分类器c1 c2

: 对样本i c1的概率输出是 p1= [p_c1_0 p_c1_1]

: c1的概率输出是 p2=[p_c2_0 p_c2_1]

: 你意思吧p1 p2 stack起来 形成一个特征向量 进行训练?

: 也就是[p1 p2] =[p_c1_0 p_c1_1 p_c2_0 p_c2_1]

: 如果这样的话 一个问题是 我有很多分类器 比如有50个 这样stack起
来 特征
维数会

g*******u
发帖数: 3948
3
来自主题: Programming版 - 多个分类器怎么融合?
一堆数据训练了分类器 c1 c2 c3... 怎么融合为一个?
比如训练了一个svm的 训练了一个xgboost 训练了一个 randomforest的
最后咋融合结果呢?
最简单直接平均一下probs 输出
有没有晒微高级 并且鲁棒点的? 谢谢
g****t
发帖数: 31659
4
来自主题: Programming版 - 多个分类器怎么融合?
误差大的权重小
所有的融合不能违背这个原理
误差和权重的大小用什么数学技术衡量
以及具体多大误差的分类器多少权重
这取决于你要忽悠人还是自己用
g*******u
发帖数: 3948
5
来自主题: Programming版 - 多个分类器怎么融合?
当然自己用了啊
感觉直接vote或者 average是不是也就差不多了
先训练 50个分类器
然后 再用同样数据 继续训练
一共就那些个数据
g****t
发帖数: 31659
6
来自主题: Programming版 - 多个分类器怎么融合?
那就误差的均方差的倒数当权值。
加权平均试试看。


: 当然自己用了啊

: 感觉直接vote或者 average是不是也就差不多了

: 先训练 50个分类器

: 然后 再用同样数据 继续训练

: 一共就那些个数据

b******9
发帖数: 8
7
最近在做一些数据挖掘方面的研究
想请教一下各位你们在做数据分类的时候
1. training data的里的sample有多少,
2. samples 用多少的磁盘存储空间呢?
3. 一般用什么软件来做?
4. 要用多久来生成一个分类器?
5. 有没有其他反面的问题,比如说速度太慢等
非常感谢,如果有了包子一定请大家吃包子的
不好意思,在统计版也发了
b******9
发帖数: 8
8
最近在做一些数据挖掘方面的研究
想请教一下各位你们在做数据分类的时候
1. training data的里的sample有多少,
2. samples 用多少的磁盘存储空间呢?
3. 一般用什么软件来做?
4. 要用多久来生成一个分类器?
5. 有没有其他反面的问题,比如说速度太慢等
非常感谢,如果有了包子一定请大家吃包子的
a***a
发帖数: 149
9
Hi SVM light 同学,谢谢大驾光临阿。我就是用你分类的哦。哈哈。
这么说是不是说只要一次执行,就可以画出 ROC 了? 不需要调节参数了? 那样貌似
很方便啊。
对了, SVMlight 同学,你有啥画 ROC 的软件推荐么? 最好跟你家软件 无缝结合更
好了。
谢谢 SVMlight 同学。

.
R******d
发帖数: 1436
10
来自主题: Computation版 - 请教fuzzy分类器
最近遇到一个问题,想把数据分成几类,但不是硬分类,希望给出每个个体在不同类中
的概率,似乎fuzzy c-means等就是干这个的。但是我不懂,也不知道用什么工具来实
现。请帮助,多谢了。
举个例子,下面这个数据,我希望把a到t能分成3类,并给出a到t分属这三类各自的概
率。
a b c d e f g h i j k l m n o p q r s t
1 1 6 1 2 2 5 4 1 4 1 2 2 1 3 3 6 1 2 2
4 2 6 1 2 4 5 15 1 6 2 -9 2 4 7 3 6 1 -9 3
4 2 1 1 2 2 5 4 3 6 1 2 10 1 4 3 1 3 2 4
4 3 6 1 2 10 8 4 3 6 2 2 10 5 4 3 3 3 2 4
4 3 6 1 3 2 1 4 3 6 1 2 2 5 4 1 6 1 3 2
13 5 6 2 -9 2 4 4 3 6 1 2 4 8 5 3 6 2 3 3
7 3 4 1 2 1 1 4 2 1 1 2 2 4 4 1 6 1 2 2
12 3 6 3 2 2 6 13 3 6 1 2 3 6 4 3... 阅读全帖
e*******e
发帖数: 1144
11

training data当然越多越好,除非algorithm不能handle large data.
samples有多大就用多大磁盘.当然可以使用高效的数据结构,比如稀疏数据用链表类的
结构存可以不用存0.
matlab, R, SAS, C, C++, Java, Python。看具体的应用和数据的大小了。
取决于具体的算法。线形分类器和决策树比较快。
取决于具体算法。
这个发CS版可能更合适。
c****x
发帖数: 6601
12
http://www.sohu.com/a/190796338_260616
斯坦福大学的迈克尔·科辛斯基(Michal Kosinski)和王轶伦发现,
王轶伦(左)、科辛斯基(右)
通过从3万多张人脸图像中提取出来的特征,计算机识别出同性恋男性的准确率最高可
达到91%,同性恋女性则为83%。
论文认为,与产前激素理论一致,同性恋男性的长相更“女性化”,下巴更窄,鼻子更
长,额头更大,同性恋女性则相反。
这篇题为《深度神经网络基于人脸图像判断性取向比人类更准确》的论文于9月7日发表
在《人格与社会心理学杂志》(Journal of Personality and Social Psychology)上后
,引发了媒体和社交网络的热议。
英国《卫报》担心,这项技术会导致青少年“自测”,夫妻“互测”,而在对同性恋处
以死刑的国家,这项技术更可能沦为杀人工具。
异性恋(左)、同性恋(中)男女的复合面部图像,最右为异性恋(绿色)、同性恋(红色)男
女的平均面部标记
论文的摘要写道:“我们发现人脸中包含的有关性取向的信息远比人脑能够感知到的多
。我们用深度神经网络从35326张面部图像中提取... 阅读全帖
k*****u
发帖数: 1688
13
原作者为 爱萌@人大经济论坛,本文是我转载过来的。
文本挖掘是新时期人们对数据的更加深入的需求的,文本挖掘的原材料是各种文本格式
的文本,文字,图片,通过这些来分析相似,关键性,内部蕴涵的逻辑结构等等.
文本数据多是半结构化的数据,(结构化数据是有一定规律的数据,半结构化,是这些文本
有标题,作者,出版日期,类别等结构的东西,同时也有非结构的成分:内容)
文本挖掘有很多方法,基于关键字的方法,标记方法,信息提取方法.
web挖掘是对网页的挖掘,这是因为随着www的发展,
越来越多的信息在网络中,这些数据不仅对商业,对经济,
而且对政治,文化有很深远的影响. web挖掘可以分为web内容挖掘,web结构挖掘,web使
用挖掘,
可以根据html语言对web进行文本挖掘从而达到web挖掘,
但是很多网页并不遵守W3C html规范.
如何通过SAS进行编程对文本,web进行挖掘
为什么我一直在说SAS的文本挖掘和web挖掘,因为这些程序我还不知道如何编写,
其他程序我都知道了,也编写过了.
这是与算法相关的了!
文本挖掘是数据挖掘的一种,有时也看成是质性研究的一种方法。大致的... 阅读全帖
l********o
发帖数: 5629
14
来自主题: Military版 - 这个语言缺乏逻辑
这个语言缺乏逻辑,词汇太少,无法描述复杂的系统和逻辑。
比如我找了一下中文描述svm,居然是这样的,“软的硬的,松弛,核”, 跟黄色小说
一样,而且根本不知道在说什么:
“SVM的原理是什么?
SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面
的线性分类器。(间隔最大是它有别于感知机)
(1)当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分
支持向量机;
(2)当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性
分类器,即线性支持向量机;
(3)当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向
量机。
注:以上各SVM的数学推导应该熟悉:硬间隔最大化(几何间隔)---学习的对偶问题--
-软间隔最大化(引入松弛变量)---非线性支持向量机(核技巧)。”
中文还是用来娱乐和扯淡比较好,还有就是适合共产党进行愚民统治,国内的骗子们也
喜欢用中文进行欺骗。
N*******e
发帖数: 580
15
来自主题: Military版 - 这个语言缺乏逻辑
麻痹的,工具论老早就被翻译成中文了
[在 liyuanchao (李源潮) 的大作中提到:]
:这个语言缺乏逻辑,词汇太少,无法描述复杂的系统和逻辑。
:比如我找了一下中文描述svm,居然是这样的,“软的硬的,松弛,核”, 跟黄色小
说一样,而且根本不知道在说什么:
:“SVM的原理是什么?
:SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面
:的线性分类器。(间隔最大是它有别于感知机)
:(1)当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分
:支持向量机;
:(2)当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性
:分类器,即线性支持向量机;
:(3)当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向
:..........
l********o
发帖数: 5629
16
来自主题: Returnee版 - 中文不适用用于工作交流 (转载)
【 以下文字转载自 Military 讨论区 】
发信人: liyuanchao (李源潮), 信区: Military
标 题: 中文不适用用于工作交流
发信站: BBS 未名空间站 (Tue Jan 23 16:31:11 2018, 美东)
这个语言缺乏逻辑,词汇太少,无法描述复杂的系统和逻辑。
比如我找了一下中文描述svm,居然是这样的,“软的硬的,松弛,核”, 跟黄色小说
一样,而且根本不知道在说什么:
“SVM的原理是什么?
SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面
的线性分类器。(间隔最大是它有别于感知机)
(1)当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分
支持向量机;
(2)当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性
分类器,即线性支持向量机;
(3)当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向
量机。
注:以上各SVM的数学推导应该熟悉:硬间隔最大化(几何间隔)---学习的对偶问题--
-软间隔最大化(引入松弛变量)---非线性支持向量机(核技巧)... 阅读全帖
d******e
发帖数: 7844
17
来自主题: Statistics版 - SAS neural network 和 SVM 的macro
SVM的特点是框架清晰,理论完备,95年横空出世的时候,影响力非常大。生物圈里,
SVM基本是必备分类器之一。工业界里,也有很多公司用他来做通用分类器,比如
google搞大规模文本分类。
而且SVM是有难度啊,loss是不可导的,多类的loss不trival, 优化和理论都比
logistic regression难做。
就性能来讲,SVM绝对是最好用的通用分类器之一, 能比logistic regression略好。
d******e
发帖数: 7844
18
来自主题: Statistics版 - SAS neural network 和 SVM 的macro
SVM的特点是框架清晰,理论完备,95年横空出世的时候,影响力非常大。生物圈里,
SVM基本是必备分类器之一。工业界里,也有很多公司用他来做通用分类器,比如
google搞大规模文本分类。
而且SVM是有难度啊,loss是不可导的,多类的loss不trival, 优化和理论都比
logistic regression难做。
就性能来讲,SVM绝对是最好用的通用分类器之一, 能比logistic regression略好。
m***r
发帖数: 359
19
来自主题: DataSciences版 - 机器学习日报2015年2月楼
机器学习日报 2015-02-16
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-02-16/short.html
1) 【机器学习在量化金融里哪些方面有应用?】 by @晓风_机器学习
关键词:应用, 金融
【机器学习(非传统统计方法如回归)到底在量化金融里哪些方面有应用?】 @聪老师
ZJU永远马屁精 : 尝试回答一下这个问题,也算是对自己阅读的一些论文的总结,顺带
谈下一点自己的思考。前一阵子被吐槽说中英夹杂,也不是为了装逼,因为其实翻译过
来,意思反而… [1] (分享自 @知乎 )
[1] http://www.zhihu.com/question/27420308/answer/38632429
2) 【怎样评价「微软亚洲研究院4人团队完成视觉识别里程碑式突破」?】 by @
winsty
关键词:视觉, 马毅
我在 @知乎 回答了问题: 怎样评价「微软... 阅读全帖
m***r
发帖数: 359
20
来自主题: DataSciences版 - 机器学习日报2015年2月楼
机器学习日报 2015-02-04
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-02-04/short.html
1) 【邓力等用深度学习处理语音、文本和图像讲座】 by @算文解字
关键词:深度学习, 视觉, 语音, 资源, 自然语言处理, Richard Socher, Ronan
Collobert, 邓力, 幻灯片, 贾扬清
Bay Area Multimedia Forum: 邓力,贾扬清,Ronan Collobert, Richard Socher 讲
用深度学习处理语音、文本和图像。有slides有视频 [1]
[1] http://www.bammf.org/
2) 【机器学习入门书单】 by @hankcs
关键词:自然语言处理
【机器学习入门书单】 继NLP之后,我又开了ML这个大坑。这是因为NLP涉及到太多的
ML模型,仅仅拿过来用的话,我... 阅读全帖
p*********w
发帖数: 606
21
machine learning里boosting算法就是这种,把几个弱分类器线性组合起来可以搞出一
个强分类器。不过你得保证你的弱分类器之间相关性得小。
或者说你的三只脚得基本上是从不同角度看市场的策略。
r****z
发帖数: 12020
22
【 以下文字转载自 ScitechNews 讨论区 】
发信人: inews (inews), 信区: ScitechNews
标 题: [KJPT]谷歌AI告诉你 一根真正优秀的黄瓜是什么样的
发信站: BBS 未名空间站 (Thu Sep 1 22:41:56 2016, 美东)
编者按:Makoto Koike 原本在日本的一家车企当工程师,大约一年前,他辞去工作回到老家帮父母经营黄瓜农场。农场并不大,然而给黄瓜分类的工作却让 Makoto 吃了不少苦头。
日本各个农场对于黄瓜有不同的分类标准,并不是我们所想的分个大小那么简单。单是 Makoto 自己家的农场,同一个品种的黄瓜的分类就达了 9 种之多。一般来说,颜色鲜艳、刺多、体态匀称的才算是好瓜。
以下是令人震撼的 Makoto 家 9 类黄瓜图表,由上至下质量依次递减。
手里刚摘了一根黄瓜,你得仔细观察它的长短、粗细、颜色、纹理、是否有小刮痕、弯的还是直的、刺多不多......要跟9类标准对应,看它属于哪一等级,这并不是一个容易学的工作。
一个人要花好几个月才能熟练掌握整个分类标准体系,所以到了采摘旺季,Makoto 家... 阅读全帖
s****r
发帖数: 31686
23
来看看苏联弹射器:
研制历史
80年代,苏联开始研制配备固定翼水平起降舰机(苏一27K)的第三代航母“库兹涅佐
夫”号(代号1143.5型)和“瓦良格”号(代号1143.6型),同时开始酝酿建造第四代大型
核动力航母“乌里扬诺夫斯克”号。在动工的同一天,“瓦良格号”航空母舰也同时下
水。
苏联政府拨款对黑海造船厂进行第二次大规模技术改造,包括建成了装配和焊接车
间,允许将船体分段重量增大到200吨;装备了2台载重各为350吨的自行平板车,和建成
了从新车间到船台的运输车道;0号船台的长度加长了30米;建成了装配重达1700吨总段
的水平船台旁平台安装了船台和船台旁平台用的2台起重量各为900吨的龙门吊车,并加
装了其它新型吊车,使得整个船台上使用的吊车达到10台;同时,改造大渠舾装码头。
苏联太想追赶美国的航母了。尼古拉耶夫船厂积累了丰富的工艺、技术和生产管理
经验,生产装备及能力也有了很大提高,形成了均衡建造的节奏。即每三年有一舰上船
台,每三年有一舰下水;一舰下水,后续舰于当日上船台。乌舰的龙骨就是在瓦舰下水
当天铺上尼古拉耶夫的0号船台的。 苏联还为乌舰特别拨款对尼古拉耶夫船厂进... 阅读全帖
H***u
发帖数: 1091
24
1)程序员把他的所有袜子放在房间地上,摆成一个小顶堆,每天回家便把袜子脱下来
放在堆的末尾,然后每次拿起两双袜子放在鼻子下闻闻,不断向上调整它在堆中的位置
,直到比它的父亲更臭为止。这样,程序员每天早晨出门时便能方便地选出一双最不臭
的袜子。
2)老师让我把全班60本作业本按封面上的学号排好。
于是我灵活运用了快速排序的知识,从本堆中随便抽出一本,把学号比它小的本子放在
左边,学号比它大的本子放在右边,再从左边这一堆挑出一本……
如此一来我的排本子的时间复杂度就从普通人用的插入排序的O(n)变成了O(n log
n)。周围的同学投来好奇的目光,我洋洋自得,心想学过算法的我就是不一样。
快速排序效率果然很高,不一会儿,
我的桌子就放不下了
3)生活中的话,就只有打牌时用过插入排序了
4)吃串串火锅,就是火锅里面煮肉串的。串非常长,一端串着肉。由于很多人吃,串
放在锅里很多,所以大多数肉串都掉进汤里了。
我手里有近30个串,但是一看末端,只有一片肉。末端我是不愿意碰的,因为上面都是
油。所以我只能从另一端来挑出来那片有肉的串。
那么在最坏情况下,我需要O(n),也就是30次挑选才能选出来那... 阅读全帖
d******e
发帖数: 7844
25
来自主题: CS版 - 问两个个KNN的问题
使用KNN分类器做两类问题的分类。
实验步骤是分成80%作Training,20%做Testing。
然后再Training Set里用Leave one out cross validation来确定K.
参与cross validation的选取是K=1,3,5,,7... ...
然后选取cross validation error最小的K,如果同时有多个K达到最小的erorr,那么
这是选择最小的K还是最大的K?
另一个问题,有人说KNN的K不应该从1开始选,而是应该指定一个minimum,从这个
minimum开始。标准的KNN分类器有这个说法么?
q*w
发帖数: 313
26
来自主题: CS版 - 牛人很神奇的简历啊
你的意思是说,feature 足够好,不用那么复杂高维的分类器,对吧?
问题是,现在很多问题,找好的feature,很难。
如果做分类的说,你feature要好。
提feature的人说,你的分类器要强大。
这就成了chicken-egg问题了。
事实上,处理很多高维问题,现存的方法也还可以。
比如Linear SVM.....
可以用,但不完美。但是总比没有用的好。
这也是我这么崇拜Vapnik的原因了。

fundamental
model,
number
not
number
sin(ax)
q*w
发帖数: 313
27
来自主题: CS版 - 牛人很神奇的简历啊
你的意思是说,feature 足够好,不用那么复杂高维的分类器,对吧?
问题是,现在很多问题,找好的feature,很难。
如果做分类的说,你feature要好。
提feature的人说,你的分类器要强大。
这就成了chicken-egg问题了。
事实上,处理很多高维问题,现存的方法也还可以。
比如Linear SVM.....
可以用,但不完美。但是总比没有用的好。
这也是我这么崇拜Vapnik的原因了。

fundamental
model,
number
not
number
sin(ax)
d******e
发帖数: 7844
28
来自主题: Statistics版 - 问两个个KNN的问题
【 以下文字转载自 CS 讨论区 】
发信人: drburnie (专门爆料), 信区: CS
标 题: 问两个个KNN的问题
发信站: BBS 未名空间站 (Sat Jan 9 18:37:31 2010, 美东)
使用KNN分类器做两类问题的分类。
实验步骤是分成80%作Training,20%做Testing。
然后再Training Set里用Leave one out cross validation来确定K.
参与cross validation的选取是K=1,3,5,,7... ...
然后选取cross validation error最小的K,如果同时有多个K达到最小的erorr,那么
这是选择最小的K还是最大的K?
另一个问题,有人说KNN的K不应该从1开始选,而是应该指定一个minimum,从这个
minimum开始。标准的KNN分类器有这个说法么?
l***y
发帖数: 1166
29
由麦可·莎朗(Michael E. Salla)博士所著作的“研究外星物种的动机与行动:和人类
互动较受关注的几大种族的分类研究”
本书前文摘要:“目前与地球人类互动的种族数目庞大,1998年的采访,Clifford
Stone,一位美国服役长达22年的陆军退伍中士参与了秘密进行的摧毁的外星船与外星
生物体(EBE’s)搜捕行动,泄漏了美国军队其实已经认识总数高达57种的外星人种;从
这些外星人群种中,有一个与人类互动较其他种族活跃的外星人种,可称为对人类演进
最关注与较具主导权的一个种族。这份报导形容主要外星人种通常是指文献中对于人类
主宰与进化的过程有显著策略性影响的那个种族,而且对于全球系统问题带来一定程度
的冲击。报导中将这些外星人种以他们所属的一或两种分组为根据进行分类。
外星種族表
第一组的外星人种与“影子政府(shadow government)”合作,以负责外星事务为主,
有达成共识并进行过多项项案件;这些外星人种与影子政府和美国有着大规模又环环相
扣的共同利益连结,联想到军工业外星联合营的存在。
另外也有第二组是在外星人种与“影子政府/国家安全局”秘密达成共识之外的脉... 阅读全帖
h********3
发帖数: 2075
30
来自主题: JobHunting版 - deep learning的工业前景咋样啊
工业应用很小,基本上都是被吹嘘出来的。
现实当中绝大多数分类问题,logistic regression和SVM比deep learning效果更好速
度更快。deep learning只有在超高维的数据,比如图像,声音,和具有海量训练数据
的情况下,才有极微弱的优势战胜logistic regression和SVM。工业应用当中,
feature engineering是最能决定精度的,而不是分类算法。如何做feature是主要问题
,而不是选择什么分类算法。
现实当中很多重要的问题,例如医学生物,训练出一个分类器,只是得到一个基于临床
数据的猜想。专业人员还要对学习出来的coefficient和feature进行专门的隔离和病理
分析验证,最后才能得到可靠的结论。deep learning中间太多层了,所以logistic
regression和SVM更方便一些。
此外,在deep learning吹大之前就有很多基于监督的高维数据的降维和feature
reconstruction的算法。用这些算法先对超高维度的feature进行一个预处理,然后再
用logistic regre... 阅读全帖
J*****w
发帖数: 180
31
来自主题: TVChinese版 - 《龍器》播出過半,豆瓣評分9.2
靳东做制片人前路漫漫 《龙器》关注传统匠人文化
2016年05月25日 08:13
来源:华龙网
演员跨界的现象在圈内早已是见怪不怪,演而优则导、演而优则唱以及演而优则投资等
。只不过有的人发现了自己更为擅长的领域,从此把副业当成了主业,比如从台前转向
幕后的成功案例——任泉,从开火锅店做起,一步步成为了响当当的投资人;而更多的
人还是对跨界只是兴趣而已,过把瘾、玩玩票或是为了圆一个曾经的梦,回过头去还是
该干嘛干嘛。
《伪装者》、《琅琊榜》、《欢乐颂》,三部热播剧将靳东顺其自然地送上了一线的位
置,尤其是《欢乐颂》中霸道又暖心的总裁“老谭”更是让靳东圈粉无数,一个原本打
酱油的角色却生生被靳东演成了男二号。有人会说,人红了气场都大,实则这与靳东在
影视圈摸爬滚打二十年的沉淀和积累密不可分。
在北京台影视频道热播剧《龙器》中,靳东一改往日塑造出的各种“大人物”形象,从
《欢乐颂》中跺跺脚就能让上海抖一抖的商界大鳄,摇身一变成为天真可爱的傻小子,
演绎了因故失忆的“傻蛋儿”在寻找“龙器”的过程中找回自己身世的故事。在一部剧
中既要演出“傻蛋儿”的呆萌,又要演出公子哥的纨绔,这对靳东来说是... 阅读全帖
z****8
发帖数: 13
32
来自主题: DataSciences版 - 特征工程简介
特征工程简介
原文链接:
http://mp.weixin.qq.com/s?__biz=MzIzODExMDE5MA==&mid=403826129&
(I)特征工程可以解决什么样的问题?
特征工程是一个非常重要的课题,是机器学习中不可缺少的一部分,但是它几乎很少出
现于机器学习书本里面的某一章。在机器学习方面的成功很大程度上在于如果使用特征
工程。在机器学习中,经常是用一个预测模型(线性回归,逻辑回归,SVD等)和一堆
原始数据来得到一些预测的结果,人们需要做的是从这堆原始数据中去提炼较优的结果
,然后做到最优的预测。这个就包括两个方面,第一就是如何选择和使用各种模型,第
二就是怎么样去使用这些原始的数据才能达到最优的效果。那么怎么样才能够获得最优
的结果呢?贴上一句经典的话就是:
Actually the sucess of all Machine Learning algorithms depends on how you
present the data.
—— Mohammad Pezeshki
直接翻译过来便是:事实上所有机器学习算法上面的成功都在于你怎么样去展示这些数
... 阅读全帖
h**k
发帖数: 3368
33
来自主题: JobHunting版 - Another interview problem ~
分类器处理的问题不同。对于分类器,输入的点本来就标定为两类。这个问题中输入点
没有区别。
d*k
发帖数: 207
34
来自主题: JobHunting版 - 工业界的机器学习 (转载)
这个不同公司的风格和要求差别太大了。
从你的理解看,还是把machine learning想的太简单了。
选feature是一个需要持续迭代的过程 ,解决一个问题,我的经验是domain knowledge
和feature engineering占到70%以上的工作量。
SVM是一个很强大的分类器,但如果是linear kernel,训练成本并不比logistic
regression高。不用SVM的原因是过于复杂,至少对我来说,弄清所有数学细节太难了
。SVM和神经网络都是如此,work了没问题,不work的话不好调。
“连”SVM都没用?这么说是不合适的,因为logistic regression也是很强大的分类器
,虽然理论简单。用SGD,线性的模型训练成本差别不大。
现在一个崛起的潮流是用简单的线性模型并发训练超大数据集,例如google的word2vec
。复杂模型处理不了这么大的数据量,所以效果秒杀任何复杂算法。我认为搞model是
没多大前途的,因为那么多前人不比你傻多少,都是很常见的问题,能搞出来的早就有
人做了。现在从数学上能做的只可能是边际提升。
另外,如何选择合... 阅读全帖
p*****9
发帖数: 273
35
来自主题: JobHunting版 - Amazon data scientist面经
被放过一次鸽子 重新安排之后有人打进电话 烙印
(按时间顺序)
1. 他介绍组
2. 介绍我自己
3. 会不会A, 会不会B,会不会C。 答:C不熟。要求用C写几个操作。
4. 要求设计一个分类器。数据是10M个点,每个点15k的feature,输出时0/1。 阳性样
本非常少。围绕这这个项目,问了很多问题
1)怎么处理这种unbalanced的数据
2)怎么给数据降维
3)哪些分类器可以选择
4)logistic regression的相关问题
5)decision tree的相关问题
6)random forest的相关问题
7)confusion matrix及相关指标相关问题
8)分布式logistic regression计算的相关问题 如何online
整个面试过程还是蛮中规中矩。烙印问的题也大多是基本题。有的知道,有的不清楚他
也给来些提示 有一点奇怪的就是 有时候他竟然自问自答 刚把题目问了你还没来得及
回答 他就把答案说了 不知道是不是在黑我 最后说一两周之后给结果 不知道结果怎么
u**l
发帖数: 2335
36
之前有做一个眼睛跟踪的小演示,发现用opencv就十分简单,但是分类器是固定的,导
致特征在一定角度的旋转后不能被识别,之前有考虑过 实时的分类器扩展训练 ,但是
基础的薄弱和动力不足没有继续下去。
有空研究一下这哥们提供的源码,学习点idea
希望有同好的朋友,多多交流。
http://www.opencv.org.cn/index.php/Cv%E6%A8%A1%E5%BC%8F%E8%AF%8
http://www.opencv.org.cn/index.php/%E7%89%B9%E5%BE%81%E6%A3%80%
http://www.opencv.org.cn/index.php/HaarTraining%E7%AE%97%E6%B3%
http://www.opencv.org.cn/index.php/%E4%BA%BA%E8%84%B8%E6%A3%80%
k**o
发帖数: 3006
37
☆─────────────────────────────────────☆
boycott (haha) 于 (Thu Apr 14 14:02:11 2011, 美东) 提到:
我刚刚看到了这个用来演示一种新的物体跟踪的算法的视频,它是一个博士论文里的一
部分。Zdenek Kalal是英国萨里大学的一个捷克学生。他演示的是他的神奇的精确定位
系统,这个系统几乎可以跟踪镜头里的任何物体,只要你能看见它,并把它选中。它能
做很多神情的事情。在这个视频中,他演示了通过摄像机拍摄他的手指、把他的手指选
做目标。系统于是就能精确的跟踪他的手指的动作。更令人惊奇的是,这个系统能够通
过分析物体的运动来完善跟踪算法。你能在很短的时间里教会它跟踪你的手指、面孔或
在高速公路上狂颠的轿车。有了这套系统,我们几乎真的可以实现”Minority Report
“那样的人机界面。就像微软Xbox的Kinect那样,而这个效果更好。
Kalal有12个视频来演示他的这套算法都能做什么。只要你有一个好的摄像头,把
这个软件装到计算机上、平板电脑上或手机里,它就能精确的定位跟踪你的前额上... 阅读全帖
f*******a
发帖数: 663
38
有点了解,说几句,抛砖引玉
这个问题确实是一个很普适性的问题,肯定不简单,但思路一般来说还是差不多的
1. 预处理:配准和增强
配准是一个空间归一化的过程,正如做人脸数据分析的都要把尺度归一化一样。如果对
运动状况能建模的话,可以考虑SIFT算法,公认的好用
增强是因为医学图像往往对比度和分布不均,为突出特征而做的种种手段
2. 特征提取
这个一般就是大显神通的地方。看点文献别人怎么下手吧。特征点、轮廓线、局部直方
图、滤波器、变换域等都是常见方法,具体问题具体分析。
3.分类器
一般到了这一步就是挑合适的用,哪个效果好用哪个。这些年SVM及各变种风头很盛,
效果也不错。AdaBoost这种简单还可以挑特征的做检测问题也很不错,甚至可能不要配
准。另外在分类器的训练集问题上,有些算法可以处理较高不确定性的训练样本,如
MIL和Structured SVM,这种进阶问题有余力可尝试。
m***r
发帖数: 359
39
来自主题: Programming版 - Python日报 2015年3月楼
Python日报 2015-03-08
@好东西传送门 出品, 过刊见
http://py.memect.com
订阅:给 h*[email protected] 发封空信, 标题: 订阅Python日报
更好看的HTML版
http://py.memect.com/archive/2015-03-08/short.html
1) 【Python中的默认参数】 by @Python开发者
关键词:基础
《Python中的默认参数》文本介绍了Python中的默认参数,作者从自己的经历中总结了
Python默认参数的使用中,易犯的错误。通过本篇文章可以深入掌握Python默认参数的
细节。 [1] ( @XX含笑饮砒霜XX 译,欢迎加入翻译组: [2] )
[1] http://python.jobbole.com/81105/
[2] http://www.jobbole.com/groups/6/
2) 【Python的Twitter情感预测工具】 by @路遥_机器学习
关键词:资源, 课程
和小伙伴 @黑皮肖特 用Python做个了基于CNN的Twitter Sentiment Predic... 阅读全帖
m***r
发帖数: 359
40
来自主题: Programming版 - Python日报 2015年3月楼
Python日报 2015-03-14
@好东西传送门 出品, 过刊见
http://py.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅Python日报
更好看的HTML版
http://py.memect.com/archive/2015-03-14/short.html
1) 【用Python解决蒙提霍尔问题(Monty Hall problem)】 by @Python传送门
关键词:Monty Hall, 蒙提
用Python解决蒙提霍尔问题(Monty Hall problem) [1]
[1] http://trevorappleton.blogspot.co.uk/2015/03/solving-monty-hall-problem-with-python.html?utm_content=buffer28355&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer
2) 【利用Python和OpenCV将URL直接转换成OpenCV... 阅读全帖
m***r
发帖数: 359
41
来自主题: Programming版 - 好东西传送门周报汇总 2015-03-08
Python周报 2015-03-08
http://py.memect.com/weekly/2015-03-08/
2015-03-08 星期日,完整版 9 条
Python中的默认参数 @Python开发者
Python的Twitter情感预测工具 @路遥_机器学习
Python中的类和对象 @Python开发者
Python下的数据处理和机器学习 @爱可可-爱生活
Python下用线性SVM分类器做Twitter作者预测 @爱可可-爱生活
2015-03-07 星期六,完整版 12 条
Python下利用GetStream.io快速搭建一个实时通知系统 @Python传送门
Python中备忘功能和装饰器 @Python开发者
用Docker部署Python应用的一点建议 @Python传送门
IPython的单元Magic命令 @陈晓鸣在硅谷
SnowNLP @limodou
2015-03-06 星期五,完整版 14 条
深度讲解Python Decorators和Context Managers @Python传送门
SciPy'13上用Python做统计数据分析的Tut... 阅读全帖
g****t
发帖数: 31659
42
来自主题: Programming版 - [bssd]AI血泪史
前几天有人在EE问为毛深度学习这么像自适应滤波。
哎....
1.
早先神经网络一个人叫罗什么。和明斯基是高中同学。
罗什么是最早一种神经网络的鼓吹人和计算机程序实现人。
名噪一时。据说得罪了不少人。明斯基早先是他这边的。
后来明斯基写了本名著攻击神经网络。这明星学者罗什么
早早的就死了。不知是否自杀。
2.
然而,当时有个不是那么出名的分类器,叫做
widrow-hoff学习算法什么的。widrow在这摊子烂事
出来之后,就不提神经网络了。本身widrow就是EE的。
也不和这帮人一个资金来源。
3.
为了实现硬件方便,
Widrow 把Sigmoid改成y=x纯线性的滤波器,只保存
学习办法,也就是approximate gradient.还有网络结构,
就是线性权值互联。这就是世界上应用最广泛的least mean square 滤波器的来源。
今日我们很难想象,数字滤波器的一大源头其实是神经网络。但在当时是很自然的。因
为那时候还没有大规模的
大规模的线性数字滤波器件。
后来社会需要大规模集成电路上的各种自适应滤波--也就是学习。不然自适应个蛋啊。
4.
当时懂大规模信号连接和... 阅读全帖
g*******u
发帖数: 3948
43
来自主题: Programming版 - encode high cardinality categorical features
binary 应该不适合tree 类型的分类器吧 。素以首先排除
flamewalker 说的后面几个可能可以把?我想的就是根据分布 用直方图。这样就转化
为numerical的了。 吧所有很小的 都轨到一类
因为 5000多种 很多 直方图数值很小 直接用 我担心都接近0 可能会有问题 所以想
小于某个值的都归到 一个数值。
wudong说的word2vec貌似比较高级? 听过没用过。 我可以看看 。 问一下,
word2vec适合这种tree类型的 分类器吗?
thx
l**i
发帖数: 8144
44
来自主题: Military版 - 哥呼吁:让偶们的校园充满美女
我给你出个民主方案:
网上列出一个女学生图库 起码百万数量
然后由wsn投票 分为若干类别
根据人工分类结果 进行模式识别分类器学习 建立自动的分类标准
哈哈 然后 你就懂怎么做了

发帖数: 1
45
中国航天科技集团对火箭家族分类的权威定义:近地轨道运载能力50吨级及以上的火箭
称为重型运载火箭。
火箭家族分类有讲究
据不完全统计,迄今为止世界各国已经完成了5000多次运载火箭发射,将6000余颗航天
器送入了太空。按照运载能力划分,运载火箭分为小型、中型、大型和重型四类。由于
各国运载火箭技术发展阶段存在差异,即使同一国家的不同历史阶段,对运载火箭的规
模定义也是不同的。
在我国,一般将近地轨道运载能力2吨及以下的火箭称为小型运载火箭,近地轨道运载
能力2吨~20吨的火箭称为中型运载火箭,近地轨道运载能力20吨~50吨的火箭称为大
型运载火箭,近地轨道运载能力50吨级及以上的火箭称为重型运载火箭。
http://www.spacechina.com/n25/n148/n272/n4791/c837242/content.html
p*****e
发帖数: 7299
46
中国人吃贵了美国山核桃 种植者意外赚翻
华尔街日报 2011-04-19 19:54:56
山核桃可谓是一种最能代表美国的产品。美国开国元勋华盛顿(Washington)和杰斐
逊(Jefferson)就曾种过山核桃树,山核桃还是阿肯色州、阿拉巴马州和德克萨斯州的
代表性干果。美国山核桃种植规模约占全球三分之二,其中大多数都由美国本土所消化。
世代以来,山核桃价格丰年便跌,收成不好时便猛涨,但最近却一路上涨。美国农
业部(U.S Department of Agriculture)数据显示,一磅(约合0.45公斤)带壳山核桃去
年平均售价2.14美元,是三年前的近两倍。
涨价原因:中国人要美国的山核桃。
五年前,中国几乎不进口任何山核桃。2009年,美国山核桃有四分之一卖给了中国
,并且目前看不到中国需求减少的迹象。
在北京三元桥附近的一个家乐福(Carrefour)超市里,61岁的退休化学老师刘薇(音
)正在购买一袋260克的Orchard Farmer美国进口山核桃,售价为人民币38元(合5.78美
元),是中国官方规定每小时最低工资的近六倍。她说,我们过去只吃核桃,... 阅读全帖
d*****u
发帖数: 17243
47
现在机器学习都是用高维度特征去训练一个分类器。
比如自然语言处理,现在最流行的方法之一是把每个词用300维向量表示
然后把文档里的词(向量)逐个输入一个有记忆功能的神经网络
再输出一个几十到几百维的向量来表征这个文档的语义
进而进行分类或其他处理

based
d*****u
发帖数: 17243
48
但是pca是unsupervised,并不一定能根据需要来transform。
你用CNN做一个图形分类器的话,CNN会根据分类的需要来生成卷积kernel,而不是对所
有任务都一样的kernel。
(当然这个有时也是缺点,不展开说了)
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)