关于训练样本的讨论汇总 - 话题女王

全部话题 - 话题: 训练样本

g*******u
发帖数: 3948

来自主题: Programming版 - 机器学习训练样本重复问题

如果有些重复样本进行训练有啥影响呢？
1用boost
2用cnn
大家觉得负面还是正面还是没啥关系？
谢谢

g*******u
发帖数: 3948

来自主题: Programming版 - 请问xgboost训练需要保持不同类别样本数尽量一致吗？

需要保持不同类别训练样本数目 balanced吗？还是无所谓？
thx

发帖数: 1

来自主题: Biology版 - AI医疗界的3大乱象以及如何评价医学人工智能的成果？

导语：回观国内市场，这些不靠谱、不合医学逻辑和没有临床价值的事情反而愈演愈烈
，耗费了大量的资本和医疗资源，可谓几大乱象
本文作者代号HHH，目前为一家人工智能医疗创业公司的CEO，有10多年硅谷的高科技公
司的工作经历(Google, Cisco等)，斯坦福商学院Sloan Fellow。
业内人的“针砭时弊”：AI医疗界的3大乱象以及如何评价医学人工智能的成果？
With machine learning situated at the peak of inflated expectations, we
can soften a subsequent crash into a “trough of disillusionment” by
fostering a stronger appreciation of the technology’s capabilities and
limitations.
今年6月底的《新英格兰》刊出了一篇观点文章《Machine Learning and Prediction
in Medicine — Beyond the Peak of ... 阅读全帖

s*****V
发帖数: 21731

来自主题: Go版 - 人工智能自行学习国际象棋72小时从零到达国际大师水准

离IBM的“深蓝”机器人击败国际象棋世界冠军已经有20年了。一旦人们了解了如何将
象棋规则用数学表示，电脑玩象棋的技术就一直突飞猛进——现在即使是最优秀的棋手
，面对运行在一台手机上的象棋游戏AI也未必是对手。
但是，尽管计算机在飞快地变快，象棋引擎运作的方式却一直没有大的变化。象棋算法
仍然是暴力算法——通过搜索所有可能的未来情况来找出当前的最佳走法。
当然，面对这种算法人类没有任何胜算。深蓝当时能够每秒钟计算超过2亿步，但是他
的对手，人类象棋世界冠军，也许每秒能算不会超过5步。即使表面上计算能力有如此
之大的差距，人脑和计算机的象棋水平却基本持平。显然，人脑有一些机器不具备的技
巧。
这种技巧就是通过经验缩小搜索范围的能力。通过预测最有价值的走法，人脑极大地简
化了计算任务。用计算机的语言说，搜索树被砍掉大半，只留下少数几个枝桠。
长久以来，计算机一直不擅长这个。但是今天，这种情况被伦敦皇家学院的Matthew
Lai改变了。Lai写出了一个名字叫长颈鹿的程序，通过一种完全不同于传统象棋算法的
方式来自行学习象棋。
国际上早有通用的象棋水平测试标准，这些方法同样常用来测试游戏AI... 阅读全帖

m*****n
发帖数: 2152

来自主题: Stock版 - 我对AlphaGo的理解

AlphaGo的算法等技术分析
2016-03-10 田渊栋算法与数据结构
来源：知乎专栏-远东轶事
作者：田渊栋（微博@远东轶事）
链接：http://zhuanlan.zhihu.com/yuandong/20607684
作者简介：田渊栋是卡耐基梅隆大学机器人系博士。曾就职于 Google X 部门，目前是
Facebook 的智能围棋 darkforest 的负责人和第一作者。
最近我仔细看了下AlphaGo在《自然》杂志上发表的文章，写一些分析给大家分享。
AlphaGo这个系统主要由几个部分组成：
1、走棋网络（Policy Network），给定当前局面，预测/采样下一步的走棋。/2
2、快速走子（Fast rollout），目标和1一样，但在适当牺牲走棋质量的条件下，速度
要比1快1000倍。
3、估值网络（Value Network），给定当前局面，估计是白胜还是黑胜。
4、蒙特卡罗树搜索（Monte Carlo Tree Search，MCTS)，把以上这三个部分连起来，
形成一个完整的系统。
我们的DarkForest和AlphaGo同样是用4搭建的系统。Dar... 阅读全帖

o*****p
发帖数: 2977

来自主题: Go版 - 田渊栋【facebook 围棋程序负责人】：我怎么看 AlphaGo？

http://zhuanlan.zhihu.com/yuandong/20607684
原链接有Nature文章中的数据图，我就不转贴了。
最近我仔细看了下AlphaGo在《自然》杂志上发表的文章，写一些分析给大家分享。
AlphaGo这个系统主要由几个部分组成：
1. 走棋网络（Policy Network），给定当前局面，预测/采样下一步的走棋。
2. 快速走子（Fast rollout），目标和1一样，但在适当牺牲走棋质量的条件下，速度
要比1快1000倍。
3. 估值网络（Value Network），给定当前局面，估计是白胜还是黑胜。
4. 蒙特卡罗树搜索（Monte Carlo Tree Search，MCTS)，把以上这三个部分连起来，
形成一个完整的系统。
我们的DarkForest和AlphaGo同样是用4搭建的系统。DarkForest较AlphaGo而言，在训
练时加强了1，而少了2和3，然后以开源软件Pachi的缺省策略 (default policy)部分
替代了2的功能。以下介绍下各部分。
1. 走棋网络：
走棋网络把当前局面作为输入，预测/采样下一步的走棋... 阅读全帖

M*****s
发帖数: 3436

来自主题: Go版 - AlphaGo的算法等技术分析

c****x
发帖数: 6601

来自主题: Military版 - Deepmind与暴雪开源接口，人工智能挑战星际争霸到哪一步了？

【文/观察者网专栏作者陈经】
早在2016年3月AlphaGo挑战围棋成功之后，就传出Deepmind下一步计划是在星际争霸上
打败人类。
人工智能开发者研究算法很喜欢用计算机游戏。一是研究目标清楚，游戏目标定义得很
完善，科研有时最重要的是提出问题。二是最近流行的深度学习需要极多的训练样本，
人类的线上高水平比赛很多能够提供足够的样本。三是问题足够难，进展如何通过人机
对战、线上测试一清二楚，而不是研究者自说自话。
围棋是“完全信息博弈”（局面摆明，理论上有确定结论）游戏里最复杂的一个，又很
有艺术性。在围棋上战胜人类，就实现了Deepmind负责人哈萨比斯的说法，机器自我对
弈不断自我学习的方法可以解决一切基于推理的棋类游戏。
这个自学习的框架，能否在“非完全信息博弈”上打败人类，令人非常有兴趣，同时又
极有学术价值。星际争霸是一个很合适的测试对象。星际争霸最常见的是两个玩家对战
，各自从一个基地开始发展，没有兵力在附近就看不见对方的动作，对方在干什么自己
不知道，因此是“非完全信息博弈”。
1998年暴雪公司推出的星际争霸，经过数次升级到“母巢之战”版本，终于成为一款平
衡性极... 阅读全帖

c****x
发帖数: 6601

来自主题: Programming版 - 陈经：Deepmind与暴雪开源接口，人工智能挑战星际争霸到哪一步

【文/观察者网专栏作者陈经】
陈经
风云学会副会长，《中国的官办经济》
http://www.guancha.cn/chenjing/2017_08_24_424174_s.shtml
早在2016年3月AlphaGo挑战围棋成功之后，就传出Deepmind下一步计划是在星际争霸上
打败人类。
人工智能开发者研究算法很喜欢用计算机游戏。一是研究目标清楚，游戏目标定义得很
完善，科研有时最重要的是提出问题。二是最近流行的深度学习需要极多的训练样本，
人类的线上高水平比赛很多能够提供足够的样本。三是问题足够难，进展如何通过人机
对战、线上测试一清二楚，而不是研究者自说自话。
围棋是“完全信息博弈”（局面摆明，理论上有确定结论）游戏里最复杂的一个，又很
有艺术性。在围棋上战胜人类，就实现了Deepmind负责人哈萨比斯的说法，机器自我对
弈不断自我学习的方法可以解决一切基于推理的棋类游戏。
这个自学习的框架，能否在“非完全信息博弈”上打败人类，令人非常有兴趣，同时又
极有学术价值。星际争霸是一个很合适的测试对象。星际争霸最常见的是两个玩家对战
，各自从一个基地开始发展，没有兵力在附近就看不... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 关于样本空间，欢迎大家前来讨论

本讨论的话题是由于以下讨论引发的：
网名houselover (love my house)在MITBBS的Statistics版询问：“四十岁了，从生物
研究改到统计硕士生，可行吗？有成功的例子吗?”
smileguy (身在资本主义大农村)：“有呀。老陈，陈立功。自强不息搞研究，虽然新
的理论不被主流看好，但是仍然不屈不挠。老陈，我看好你。上次你被群殴，我顶你还
被关进小黑屋14天。你得空，发个包子吧。”
TNEGIETNI (lovewisdom)：“借此机会告诉大家，我百分之百地成功了！统计学的历史
将就此被改写！无人能够相信一个国内医学院毕业的卫生统计学硕士以独自一人的能力
为统计学筑起了一道崭新的地平线！毫无疑问，这是科学史上的一个奇迹。
当前的所谓统计学的主流，是以数学家们的思维建立起来的，混合着大量的确定
性假设等的逻辑思维，因而存在着许多荒谬。是的，他们不会认可自己的错误，但真理
终将获胜，因为随机系统不可被假定；我们唯一能够假定的是，它是非确定的，因而任
何确定性假设下的方法论都是不可接受的。”
bearJhonson (八棵七七葚)：“FT，今天终于明... 阅读全帖

g*******u
发帖数: 3948

来自主题: Programming版 - 求教 xgboost train error 非常小，咋回事

features dim 大概有60
做多类分类
总共有训练样本10，000 测试样本2000
iteration set 1000
训练样本从1000 逐渐增加到10，000， train error 一直是 0 .。。
test error 在样本增加到7000左右的时候变很小
其他还可以解释.
这个training error 随着样本增加都不变而且一直是 0.
哪里可能出问题？谢谢

发帖数: 1

来自主题: Military版 - 不存在某人0.6%的白人基因

错。训练数据做标记，样本可以定义为100%白人，甚至100%英国人。某个样本100%中
国人。模型训练好之后，即使把这写训练样本放进去，出来的结果也不会是100%白人，
100%中国人。否则就是过拟合，泛化效果极差

M********t
发帖数: 5032

来自主题: Joke版 - 上海交大人工智能成功鉴别“清纯”和“妖艳”美女快科技 ugmbbc 4小时18分钟前人工智能识别人脸已经不易，要想给人再贴上标签，比如“清纯”和“妖艳”二字，就更难了。但近日，上海交通大学教授武筱林训练人工智能，成功鉴别了“清纯”美女和“妖艳”美女，其审美与中国高校男生高度一致。据悉，11月下旬训练机器以86%的成功率识别罪犯和非罪犯的照片后，武筱林推出的“机器看相”第二季。澎湃新闻报道，武筱林的研究团队首先进行了半自动化的样本采集，在百度图片上“单纯美女”、“甜美少女”等关键词进行检索，并把照片分为S+和S-两组。据了解，S+包含带有以下标签的美女照片：清纯、柔美、甜美、秀美、单纯、大方；S-则包含以下标签：娇艳、俗气、张扬、风骚、轻佻、轻浮、妩媚。然后，所有搜索结果又由中国男性研究生进行了人工排查，去掉一些由于复杂语义造成的错误搜索结果，比如有些照片带有反讽性质的标签。研究团队最后得到了共3954张中国美女照片，其中“褒义组”2000张，“贬义组”1954张。实验的结果是，经过训练的机器鉴别“褒义组”和“贬义组”的准确率达到了80%。以下为人工智能鉴别出的“褒义组”和“贬义组”样张： http://static.cnbetacdn.com/article/2016/1220/1914c9c88da5f90.jpg 清纯 http://static.cnbetacdn.com/article/2016/1220/a88e577e0f28c57.jpg 妖艳 http://static.cnbetacdn.com/article/2016/1220/5308208cb64fd7a.jpg http://static.cnbetacdn.com/article/2016/1220/e69dee8c0312392.jpg http://static.cnbetacdn.com/article/2016/1220/a74f1eed0439bbe.jpg

上海交大人工智能成功鉴别“清纯”和“妖艳”美女
快科技
ugmbbc
4小时18分钟前
人工智能识别人脸已经不易，要想给人再贴上标签，比如“清纯”和“妖艳”二字，就
更难了。但近日，上海交通大学教授武筱林训练人工智能，成功鉴别了“清纯”美女和
“妖艳”美女，其审美与中国高校男生高度一致。据悉，11月下旬训练机器以86%的成
功率识别罪犯和非罪犯的照片后，武筱林推出的“机器看相”第二季。
澎湃新闻报道，武筱林的研究团队首先进行了半自动化的样本采集，在百度图片上“单
纯美女”、“甜美少女”等关键词进行检索，并把照片分为S+和S-两组。
据了解，S+包含带有以下标签的美女照片：清纯、柔美、甜美、秀美、单纯、大方；S-
则包含以下标签：娇艳、俗气、张扬、风骚、轻佻、轻浮、妩媚。
然后，所有搜索结果又由中国男性研究生进行了人工排查，去掉一些由于复杂语义造成
的错误搜索结果，比如有些照片带有反讽性质的标签。
研究团队最后得到了共3954张中国美女照片，其中“褒义组”2000张，“贬义组”1954
张。
实验的结果是，经过训练的机器鉴别“褒义组”和“贬义组”的准确率达到了80%。
以下为人工智能鉴别... 阅读全帖

i******t
发帖数: 22541

来自主题: Programming版 - 深度学习对时间序列数据有什么好办法吗？

假设我在做图片的　分类问题
假设识别猫
我的训练样本　　只知道　此图是１　还是　－１
我不知道　猫具体在那里？　具体多大？　也就是说我的训练样本　没有猫　的具体的
位置和大小信息。　猫可能是　在边也可能是在中间　　，　可以比较大　整个图像，
也可能比较小　，　也可能多个猫
这样的　　训练样本　　如何搞特征呢？
谢谢讨论

i******t
发帖数: 22541

来自主题: Programming版 - ｃｎｎ大牛们，这种特征如何提取呢？

L****8
发帖数: 3938

来自主题: Programming版 - 郁闷啊

目前的DL还不行底层问题也没解决太好
比如说输入给三幅黑白图，分别对应下面三个符号
第一个
|
|
第二个
__
|
第三个
\
|
(以上是两个棍子连接在一起，老邢bbs太垃圾了)
用前两个做训练对应两类最后一个做测试
请问测试样本根哪个训练样本距离接近？
如果用CNN，距离大体相等
人来看显然通过上面棍子的角度来决定相似度
用上千万训练样本搞题海战术这不是智能

T*******I
发帖数: 5138

来自主题: Statistics版 - 陈大师，　我很好奇

我其实早已看过。那个里面说，要在原始样本基础上随机抽样建一个训练样本，建立一
组训练模型，然后用剩下的样本对这个模型做CV。所以，按照这个逻辑，我将有做不完
的CV。

T*******I
发帖数: 5138

来自主题: Statistics版 - 对goldmember的数据的三分回归分析结果

让我们就事论事。
从goldmember的数据来看，如果它是来自总体的一个随机样本，我们首先要弄明白我们
想要从中得到什么？在我看来就是两个变量间的关系及其在整个空间上的可变性的描述
，由此需要找到关系模型及其可能发生改变的临界点，从而找到根据关系改变进行决策
的依据。除此之外，我们还想要得到什么？
对于我们要认识的那个不可知的总体，该样本就是我们所能拥有的关于它的全部信息。
除此之外我们没有任何其它可资利用的信息。如果在方法论中事先给定一个连续性的假
设，这将是一个错误，因为总体并没有给予你这个确定性，因而你根本不可知，从而又
怎能事先假设它就是一个连续的过程？你需要做的是找到关系和临界点，并对连续性做
出概率推断。
尽管从数学的角度你可以假设一个样本可以被分成n/2甚至n段，但从统计学的角度，这
样的假设是荒谬可笑的，因而是根本不需要被考虑在内的。
在没有做出连续性检验之前，我是不知道我的分段模型是否是连续的。正如实例检验的
结果告诉我的那样，在低端临界点处，两个模型不连续是显著的，而在高端临界点处可
以认为在总体中的两段模型是连续的，尽管它们在样本中看起来是离断的。
在我看来，o... 阅读全帖

T*******I
发帖数: 5138

来自主题: Statistics版 - 陈大师，　我很好奇

这样吧。我们讨论一个抽象的样本。看看你的cross validation应该如何实现。
假设我手里只有150人的学生总评成绩和几个影响因素。我做三分回归分析。分段前，
我用逐步回归法在全部样本基础上建了一个多因素模型。然后以该模型为基本结构进行
三分法的数据迭代。如果总评成绩服从正态分布，我可以断定两个临界点应该以均数为
对称分布。于是以均数为界在两边各假设存在一个临界点。将全部数据排序后同步由远
端向中心方向开始搜索，每迭代一次就建一组三分模型。所以，如果sample size=150,
迭代次数可以达到75次，从而得到75个权重测量结果，每个权重对应于一对被迭代的点
。显然，搜索的过程就是为每一侧的临界点构建了一个可测空间，例如，低段临界点的
可测空间是[min(X), mean(X)]，其中包含75个原始观察值；而高段的则是[mean(X),
max(X)]，也包含着75个原始观察值。于是，以权重和这两组75个观察值计算每一侧的
临界点的期望估计。从而将原始样本分解为三个子空间，最后在每个子空间内建一个临
界模型。于是，原来搜索临界点时的临界模型都是随机的“点”模型，不是我们需... 阅读全帖

o*****p
发帖数: 2977

来自主题: Biology版 - 华中科技大学发明神经元connectome重要工具【zz】

https://zhuanlan.zhihu.com/p/21760484?refer=zhishifenzi
“它的确是一个世界级的工作”：中国科学家发明了什么？
饶毅
编者按：
人的大脑大约有1000亿个神经元，它们如何连接以及错误的连接产生何种问题，一直是
人类认知的黑洞。最近，《自然·通讯》杂志发表了华中科技大学骆清铭研究团队的一
种称为全脑定位系统的全自动显微成像方法，这项技术有望帮助基础神经科学和临床研
究者们最终绘制一个完整脑的神经连接地图，被中外科学家视为”世界一流的工作“。
欧美日在数年前纷纷启动了自己的脑计划，脑科学正处在重大突破的前夜，尽管中国脑
计划尚未上线，但注定要在这一领域扮演重要角色。
撰文 | 叶水送
责编 | 徐可
●　●　●
莎士比亚笔下的哈姆雷特有一句旷世名言：To be or not to be，that's the
question。如同哈姆雷特一样，我们也经常处在这种犹豫、纠结的状态。人以及其他认
知水平较高的动物，之所以会有这种复杂的情感，这与我们大脑的认知有关。
事实上，对音乐的感知也与大脑有关。在出生之前，我们就能对音乐进行感知，不同旋... 阅读全帖

d******e
发帖数: 7844

来自主题: Statistics版 - 对goldmember的数据的三分回归分析结果

都说了你不懂overfitting了，可你偏偏不信邪。
你所谓的二分三分，乃至四分五分，每加入一段都会增加模型的复杂度。
只有一段的时候，你只有p个变量，两段时2p个，... ...随着模型复杂度的上升，你的
对样本的fit会越来越好，终于，当你选择的段数是n/2的时候，你可以达到对训练样本
的完美fit（任意两点确定一条支线）。
不指望你能看懂，spline的强制连续和平滑假设都不过是一种model的regularization
，大家通常都不认为这个假设是完全正确的，但因为这两个假设可以很少的控制模型的
复杂程度，所以在实际使用中通过控制bias variance trande off一样可以得到不错的
性能。
你所谓的这种不连续的分段线性模型，会随着variable数量上升，很快死掉。想想只有
几百个数据，而有上万个variable的时候，哪怕是普通的linear model fit都是
rediculous的。你这种分段fit,那就totlally wrong了。

方法依然是灵敏的，导致结果发生偏差是由于其它因素造成的，即一个尽可能好的全域
模型的定义。
，改进本样本估计的方... 阅读全帖

f****e
发帖数: 24964

来自主题: Military版 - 观察了无数样本数理化没几把用

重点是逻辑能力，不是辞藻
中国文科生问题是只会死记硬背，没有逻辑训练，而且根本上是鳖木有逻辑瞎搞，文科
生也得马上跟进拍马屁
米帝文科生如律师逻辑训练甚至超过理工，和土鳖两码事

：观察了无数样本
：数理化没几把用，女人都能学的好

发帖数: 1

来自主题: Biology版 - 求教一个GWAS的问题

首先，训练样本几十个？？？？？那么这个问题就over了。
现在的GWAS，都是几千个的
第二，GWAS主要的对象是common variants；我个人的观点是，部分common variants有
明确的功能，比如对promoter的影响，但影响甚微，比如2-fold差别对于基因表达
第三，就算你有几千个样本，每个样本几万个SNP，最后依然不会对治病有啥帮助。
这种研究，就是现代版的算命
GWAS难以重复，大量artifact，计算得到重要SNP，功能研究也是头疼。
个人认为，遗传学的金标准，依然是family linkage study的那些有重大致病作用的
rare mutation。至于GWAS/common variants这一套，我们目前的人类文明水平难以企及

n*l
发帖数: 1126

来自主题: Military版 - 请教一下搞机器学习的

答案是有些可以提高有些不能，你得对AI/ML的概念有些基本了解才能理解
棋类游戏本质上是在可能解法空间里的搜索算法，但是围棋的牛X之处在于他的搜索空
间太大，而且权值的计算也很微妙，现有计算机的能力不可能遍历所有的分支来找到最
优解，只能搜一部分分支和有限的步数
新的算法具体怎么做的还不知道，从媒体报道上我理解在于使用deep network让这个搜
索过程更有效率，这就有点往人类下棋的方式靠的感觉。人下棋是靠大量训练之后的感
觉，看棋形的势决定怎么下，不会去穷举每一个可能下的点哪个最优。使用训练好的
deep network也可以快速搜索方向。
棋谱可以理解为经过人类总结的好训练样本，但是不是说只有棋谱可以用于优化参数，
一般对局也可以，计算机自己跟自己下也可以（这个样本数是无限的）。所以即使没有
棋谱，继续提高也是可能的，但不是无限的，取决于当前计算能力能够支持多复杂的模
型而不至于overfit。

l********o
发帖数: 5629

来自主题: Military版 - 这个语言缺乏逻辑

这个语言缺乏逻辑，词汇太少，无法描述复杂的系统和逻辑。
比如我找了一下中文描述svm，居然是这样的，“软的硬的，松弛，核”，跟黄色小说
一样，而且根本不知道在说什么：
“SVM的原理是什么？
SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面
的线性分类器。（间隔最大是它有别于感知机）
（1）当训练样本线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分
支持向量机；
（2）当训练数据近似线性可分时，引入松弛变量，通过软间隔最大化，学习一个线性
分类器，即线性支持向量机；
（3）当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向
量机。
注：以上各SVM的数学推导应该熟悉：硬间隔最大化（几何间隔）---学习的对偶问题--
-软间隔最大化（引入松弛变量）---非线性支持向量机（核技巧）。”
中文还是用来娱乐和扯淡比较好，还有就是适合共产党进行愚民统治，国内的骗子们也
喜欢用中文进行欺骗。

N*******e
发帖数: 580

来自主题: Military版 - 这个语言缺乏逻辑

麻痹的，工具论老早就被翻译成中文了
[在 liyuanchao (李源潮) 的大作中提到：]
:这个语言缺乏逻辑，词汇太少，无法描述复杂的系统和逻辑。
:比如我找了一下中文描述svm，居然是这样的，“软的硬的，松弛，核”，跟黄色小
说一样，而且根本不知道在说什么：
:“SVM的原理是什么？
:SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面
:的线性分类器。（间隔最大是它有别于感知机）
:（1）当训练样本线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分
:支持向量机；
:（2）当训练数据近似线性可分时，引入松弛变量，通过软间隔最大化，学习一个线性
:分类器，即线性支持向量机；
:（3）当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向
:..........

l********o
发帖数: 5629

来自主题: Returnee版 - 中文不适用用于工作交流 (转载)

【以下文字转载自 Military 讨论区】
发信人: liyuanchao (李源潮), 信区: Military
标题: 中文不适用用于工作交流
发信站: BBS 未名空间站 (Tue Jan 23 16:31:11 2018, 美东)
这个语言缺乏逻辑，词汇太少，无法描述复杂的系统和逻辑。
比如我找了一下中文描述svm，居然是这样的，“软的硬的，松弛，核”，跟黄色小说
一样，而且根本不知道在说什么：
“SVM的原理是什么？
SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面
的线性分类器。（间隔最大是它有别于感知机）
（1）当训练样本线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分
支持向量机；
（2）当训练数据近似线性可分时，引入松弛变量，通过软间隔最大化，学习一个线性
分类器，即线性支持向量机；
（3）当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向
量机。
注：以上各SVM的数学推导应该熟悉：硬间隔最大化（几何间隔）---学习的对偶问题--
-软间隔最大化（引入松弛变量）---非线性支持向量机（核技巧）... 阅读全帖

发帖数: 1

来自主题: Military版 - 观察了无数样本数理化没几把用

逻辑太牛的也不行
比如我就很牛
我老婆看不懂我写得东西

: 重点是逻辑能力，不是辞藻

: 中国文科生问题是只会死记硬背，没有逻辑训练，而且根本上是鳖木有逻
辑瞎搞
，文科

: 生也得马上跟进拍马屁

: ：观察了无数样本

: ：数理化没几把用，女人都能学的好

N*******e
发帖数: 3872

来自主题: Military版 - 到目前为止美国检测样本没超过1000

数量和价格本来就成反比，因为成本会被很大的数量摊薄，国内人工、材料又便宜
武汉那突然爆发的几万例样本正好给新冠肺炎检测试剂盒操作人员一个高强度的训练机
会，初期可能比较乱，现在都轻车熟路了。
其实中国领导人可以跟日韩意大利商量一下，把检测队伍整建制的派过去支援，一个样
本1000刀，又快又好。。。

c******d
发帖数: 906

来自主题: CS版 - 请教一下SVM和ANN的区别

俺是新手，大牛请尽量拍
俺要作的项目要求用现有的model去predict实际应用中的参数
现有的model能生成训练样本，实际样本的参数范围能被包括在内
input大概6，7个，output有1，2个
俺听说SVM和ANN都可以实现俺的目标，如果是作regression，
哪个比较合适？
ANN俺看了一下，还不是很理解。SVM也看了，觉得libsvm作classification
挺好用，不知道作regression怎么样？
先多谢指教

w*****r
发帖数: 197

来自主题: Programming版 - [bssd]wdong,lightroom....来猜个东西

这个要基于模型和数据样本空间。一个简单的例子，1000张图如果可以用来分狗和猫，
现在我们要把猫在分出波斯猫和土猫。仅在这个子问题上需要的训练样本，估计就要远
远超过之前的一千张。

发帖数: 1

来自主题: Programming版 - 请问xgboost训练需要保持不同类别样本数尽量一致吗？

xgboost内部有对样本的平衡
但每种样本不能太少，至少得到统计显著吧

r*****m
发帖数: 3619

来自主题: Military版 - 方舟子博士训练的缺陷，是常见现象

一群剽窃训练出来的渣滓，就是这样。
你让它举出几个国内牛校有几个国际承认的写进教材的发现，它一个举不出。
它证明自己牛的，就是院士和数文章。
这里不否认工程的重要性，两弹一星都是写进美国史册的工程，因为美国爹知道这个对
等要它的狗命。
美国爹没有的中子弹，中国有。如果中央能果断的投入实战，那么肯定国际上首先承认
中国发明中子弹。美国可能有一段时间做出一个中子弹样本弹头，但是现在肯定是做不
出来了。
好比很难的实验，换几个千老，确实就重复不出来了，美国爹以前能登月，现在叫它重
新登月，它反倒上不去了，一套人员全部老化了。

f***y
发帖数: 4447

来自主题: Military版 - ImageNet2016竞赛，海康威视研究院斩获场景分类世界第一

海康威视在PASCAL VOC目标检测中夺冠刷新世界纪录
近日，海康威视参与PASCAL VOC视觉识别竞赛，其中目标检测任务成绩mAP性能达到87.
9，刷新了世界记录，排名第一名，领先第二名4.1个点。评测中，海康威视20类目标中
的19类结果在所有的算法中均处于领先地位。
（数据来源：http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4）
PASCAL VOC目标检测任务囊括了车、人、猫、狗等20类常见目标。训练样本较少、场景
变化多端，非常具有挑战性。提到夺冠之道，海康威视研究院常务副院长浦世亮表示：
“我们的预研团队基于Faster R-CNN深度学习目标检测算法，通过调整网络结构、上下
文建模、优化训练和预测等策略，大幅提升了检测性能。研究成果可以应用到视频监控
的车辆检测、车牌识别、人体检测、人体属性分析、视频结构化等产品中，将大幅提升
产品性能与应用效果。长远来看，在智能安全监控、汽车辅助驾驶、智能交通感知、视
频语义理解、机器人和无人机等各方面都有着巨大的... 阅读全帖

L****8
发帖数: 3938

来自主题: Military版 - 100伪币悬赏：CNN这个东西本质上处理不了形变 (转载)

【以下文字转载自 Programming 讨论区】
发信人: Liber8 (Space-Time continuum), 信区: Programming
标题: 100伪币悬赏：CNN这个东西本质上处理不了形变
发信站: BBS 未名空间站 (Wed Nov 22 00:14:51 2017, 美东)
物体大形变只能通过 data augmentation 进行题海战术记住所有变化
物体形变本身是连续变化 Lagrangian view
但是变成图像用像素描述物体就是 Eulerian view，所有的基本距离度量，在像素
空间内统统失效。
举个例子：在MNIST数据集上
很多基于deformable model的算法可以获得非常高的准确度用很少的训练样本完全
不用data augmentation
如果用DNN，那就非得data augmentation 才能获胜
100伪币悬赏 ---------------------------------------------
图像是一个三角形的瀑布从上而下流
两个任务
1）请设计一个多入单出的DNN regre... 阅读全帖

发帖数: 1

来自主题: Military版 - 观察了无数样本数理化没几把用

你这是闭门造车
啥垃圾学校文科生没有阅读训练？
还死记硬背
你傻理公式不靠背？
元素周期表不靠背？
基础知识靠背，逻辑训练不等于基础知识

f****e
发帖数: 24964

来自主题: Military版 - 观察了无数样本数理化没几把用

问题就是你尽背知识了，木有逻辑训练

：你这是闭门造车
：啥垃圾学校文科生没有阅读训练？

s*****r
发帖数: 11545

来自主题: Military版 - 观察了无数样本数理化没几把用

米帝文科生如律师有个屁逻辑训练,最多就是入学考试时遴选一下, 整个训练就是依样
画葫芦。美帝律师就是政治历史社会心理等本科生的集散地,数理基础差得很,没啥逻辑
要求。

S********t
发帖数: 18987

来自主题: Fitness版 - 哪里有5X5的训练计划样本

为毛现在的科学训练都是一天全部做一半,
而不是盯着一个部位一天都做部位

LB）

u******a
发帖数: 7843

来自主题: Fitness版 - 哪里有5X5的训练计划样本

这是最近所谓科学训练的趋势。说法是因为普通人没药支持，一周只练一次的话那一次
的后半段基本是浪费时间，因为太累了。dave tate几年前就说他觉得一块肌肉一周2-3
练会是健美界的next big thing。

w***n
发帖数: 9040

来自主题: Running版 - 感觉围绕AvgHR@marathon训练比MAF更靠谱

嗯，这都有可能，得多找点样本，改变训练方法，看看结果。
但是数据帝上来就说我说心脏不好，我才发个帖子解释一下。

f*f
发帖数: 121

来自主题: TexasHoldem版 - 扑克训练网站教练招聘事宜

扑克训练网站因业务发展需要，特面向广大德州扑克爱好者招聘10-15名中级教练，具
体内容如下：
要求：
1、不论级别不论游戏种类，该领域的长期盈利选手（请自供第三方查询含网站、HM、
PT等手数不少于五万手的记录）
2、一定的书面文章撰写能力（提供样本）
3、标准中文普通话能力（如会其他语种请告知）
4、遵守本网站根据本行业特性所制定的章程。
5、优先考虑有教练经验的选手
6、优先考虑有其他特长的选手（比如视频处理，广告推广等等）
7、初试通过后，要求录制一个教学视频做进一步考核
待遇：
1、视频费+业务提成+内部返佣+月度奖励
2、全站视频和教程等免费观看
3、入职1年正式签约，提供更优先的福利
4、德州扑克技能培训计划和升级BR支持（签约后）
5、网站提供教练后勤保障支援，网站年度集会等等福利
具体联系方式：
1、准备个人简历一份：包括真实姓名，常用ID，个人经历，联系方式（手机或者
固定电话必需）等等
2、提供一篇对德州扑克的认知（文体不限、文风不限，字数不限）
3、有公开发表的文章，技术贴等请附上
4、以上材料请email给chinapoker

f*******a
发帖数: 663

来自主题: Programming版 - 请教图像识别的人工智能算法 (转载)

有点了解，说几句，抛砖引玉
这个问题确实是一个很普适性的问题，肯定不简单，但思路一般来说还是差不多的
1. 预处理：配准和增强
配准是一个空间归一化的过程，正如做人脸数据分析的都要把尺度归一化一样。如果对
运动状况能建模的话，可以考虑SIFT算法，公认的好用
增强是因为医学图像往往对比度和分布不均，为突出特征而做的种种手段
2. 特征提取
这个一般就是大显神通的地方。看点文献别人怎么下手吧。特征点、轮廓线、局部直方
图、滤波器、变换域等都是常见方法，具体问题具体分析。
3.分类器
一般到了这一步就是挑合适的用，哪个效果好用哪个。这些年SVM及各变种风头很盛，
效果也不错。AdaBoost这种简单还可以挑特征的做检测问题也很不错，甚至可能不要配
准。另外在分类器的训练集问题上，有些算法可以处理较高不确定性的训练样本，如
MIL和Structured SVM，这种进阶问题有余力可尝试。

w***g
发帖数: 5958

来自主题: Programming版 - 被opengl害惨了！

还不是为了搞kaggle那个比赛。我想试试三维的神经网络，
但是要对三维数据进行带旋转的采样是一个非常expensive
的操作，如果用CPU做的话第一可能跟不上GPU训练速度，
第二也找不到开源的库来做这个事情，所以我在用opengl，
通过对三维texture进行采样来得到训练样本。
我估计结果不会好，但是这个project本身很有意思，
opengl用内置显卡，tensorflow用外置显卡，一个程序把
机器的所有计算能力全都发掘出来了。

L****8
发帖数: 3938

来自主题: Programming版 - 100伪币悬赏：CNN这个东西本质上处理不了形变

物体大形变只能通过 data augmentation 进行题海战术记住所有变化
物体形变本身是连续变化 Lagrangian view
但是变成图像用像素描述物体就是 Eulerian view，所有的基本距离度量，在像素
空间内统统失效。
举个例子：在MNIST数据集上
很多基于deformable model的算法可以获得非常高的准确度用很少的训练样本完全
不用data augmentation
如果用DNN，那就非得data augmentation 才能获胜
100伪币悬赏 ---------------------------------------------
图像是一个三角形的瀑布从上而下流
两个任务
1）请设计一个多入单出的DNN regressor，从图片计算瀑布下尖位置(决定整个形状)
2）请设计一个generative DNN，根据下尖位置生成瀑布图片
请用前64张图训练后64张图测试
不用data augmentation 不用transfer learning
能做出来的我出100伪币估计google会给你100w美元

w***g
发帖数: 5958

来自主题: Programming版 - 用纸笔做图像标注

有几个技术细节还需提高，版上有愿意练手的同学欢迎contribute:
- 如何尽量多pack图片省纸(NP难)。在pack方案已经定的前提下
要尽量放大图片。
- pixel颜色分类。Sample box里的颜色是训练样本。图片中所有标注
的颜色需要根据sample box里的颜色进行分类。目前就是简单求平均和
thresholding。我估计训练一个SVM能显著改进容错性。
- 是否有比用圈圈做registration更好的办法。我试了用叉叉，根本
检测不到-_-!
- 如何自动对输入图片的颜色进行预处理，使得打印在纸上看起来明显。
- 目前用的儿童marker虽然便宜，但是毕竟precision不够。
再要提高可能就得上fine marker了，但是fine marker估计就会出现
颜色检测不到的问题了。

w*****r
发帖数: 197

来自主题: Programming版 - 用纸笔做图像标注

一般配准用实心圈拟合圆心或checker board检测corner
也有用椭圆的，这样配置时可以加入角度信息
在美国国企待久了，手已经废了。只能动动嘴皮子，希望有用

: 有几个技术细节还需提高，版上有愿意练手的同学欢迎contribute:

: - 如何尽量多pack图片省纸(NP难)。在pack方案已经定的前提下

: 要尽量放大图片。

: - pixel颜色分类。Sample box里的颜色是训练样本。图片中所有标注

: 的颜色需要根据sample box里的颜色进行分类。目前就是简单求平均和

: thresholding。我估计训练一个SVM能显著改进容错性。

: - 是否有比用圈圈做registration更好的办法。我试了用叉叉，根本

: 检测不到-_-!

: - 如何自动对输入图片的颜色进行预处理，使得打印在纸上看起来明显。

: - 目前用的儿童marker虽然便宜，但是毕竟precision不够。

Z*R
发帖数: 40

来自主题: Engineering版 - 有没有大侠做Hidden Markov Model(HMM)啊？

用一条训练样本训练一个模型有意义吗？有没有人这么做过？

l*****i
发帖数: 20533

来自主题: Military版 - 献给剃须刀：我航空母舰顺利进行歼—15飞机起降飞行训练 (转载)

可能是想加入战忽局写的样本？
这年头是个公务员位子就有人抢。。。
不过从9月底西媒的相关报道来看，战忽局的工作的确成绩斐然。望再接再励。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天