由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - 为什么我极端厌恶很多做生物的说什么hypothesis driven
相关主题
生物学研究中的试错法很可怕paper Help please
relative entropy (求教bioinformati 高手Treg 和 Th17的转变
3D culture by Collagen I求paper, 10 baozi
关于: 胡乱选的基因比发表出来的“cancer marker”能更准确请教一下cancer subtype的问题
免疫荧光,用IgM做对照的问题求一篇paper
现在有关癌症方面的研究越来越胡扯在细胞内A诱导B,但在肿瘤标本中不是,为什么?谢谢!
乙肝受体的文章出来了,没有大牛来评评?有谁知道卡特的黑色素瘤脑转移是怎么治愈的
如何证明tumor是Mesenchymal问一下IHC staining of breast cancer subtype markers
相关话题的讨论汇总
话题: hypothesis话题: driven话题: data话题: hypotheses话题: 数据
进入Biology版参与讨论
1 (共1页)
c******d
发帖数: 306
1
现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
要脸跟这个原理,那个pathway扯上关系。
看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
不自觉的恶心。不知道为啥。
c******d
发帖数: 306
2
NIH那班老儒们,还非要grant里面有变态的hypothesis。
l******e
发帖数: 427
3
不知道为啥。
because you don't get it -
回炉 重修 -

【在 c******d 的大作中提到】
: 现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
: ,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
: 要脸跟这个原理,那个pathway扯上关系。
: 看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
: 不自觉的恶心。不知道为啥。

c******d
发帖数: 306
4
有意思么,与道理就说道理。
重修就不必了,坑人的烂坑,我是跳出来了。这是觉得这么多人在坑蒙拐骗,这个行业
迟早要完蛋。

【在 l******e 的大作中提到】
: 不知道为啥。
: because you don't get it -
: 回炉 重修 -

t*********l
发帖数: 90
5
什么hypothesis都没有的话,你怎么开始实验,怎么计划下一步实验?data怎么drive
?不还是得有一个想法或思路,也就是一个hypothesis吗?关键是别太把hypothesis当
回事,要随时根据data做出修正。
l***y
发帖数: 190
6
good point.

【在 c******d 的大作中提到】
: 现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
: ,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
: 要脸跟这个原理,那个pathway扯上关系。
: 看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
: 不自觉的恶心。不知道为啥。

c******d
发帖数: 306
7
不是说不能有hypothesis,但不能完全hypothesis driven。data应该是处于研究的核
心,而不是什么乱七八糟的这样那样的假设。

drive

【在 t*********l 的大作中提到】
: 什么hypothesis都没有的话,你怎么开始实验,怎么计划下一步实验?data怎么drive
: ?不还是得有一个想法或思路,也就是一个hypothesis吗?关键是别太把hypothesis当
: 回事,要随时根据data做出修正。

y**********n
发帖数: 478
8
你只听到了一半,完整的应该是
u gotta have a hypothesis based on the data...LOL

【在 c******d 的大作中提到】
: 现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
: ,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
: 要脸跟这个原理,那个pathway扯上关系。
: 看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
: 不自觉的恶心。不知道为啥。

t*********l
发帖数: 90
9
当然得是hypothesis driven. 你制造那么些data干什么用?数据本身是没有意义的,
数据只有在对不同的hypotheses提供支持或否定时才产生了意义。科研的最终目的是把
你的hypothesis修正成理论,而不是为了产生大量乱七八糟的data。

【在 c******d 的大作中提到】
: 不是说不能有hypothesis,但不能完全hypothesis driven。data应该是处于研究的核
: 心,而不是什么乱七八糟的这样那样的假设。
:
: drive

w***a
发帖数: 4361
10
这东西看你怎么看了,data只要是客观的,reproducible的,就是有意义的。不match这
个hypothesis,总会match那个。
过分强调hypothesis driven导致很多垃圾data publish出来而无法重复,
害人害己。

【在 t*********l 的大作中提到】
: 当然得是hypothesis driven. 你制造那么些data干什么用?数据本身是没有意义的,
: 数据只有在对不同的hypotheses提供支持或否定时才产生了意义。科研的最终目的是把
: 你的hypothesis修正成理论,而不是为了产生大量乱七八糟的data。

相关主题
现在有关癌症方面的研究越来越胡扯paper Help please
乙肝受体的文章出来了,没有大牛来评评?Treg 和 Th17的转变
如何证明tumor是Mesenchymal求paper, 10 baozi
进入Biology版参与讨论
s*******a
发帖数: 8827
11
应该是vision driven吧。没vision的话,连要朝哪个方向去收集data都不清楚啊。
b*******n
发帖数: 8420
12
这个太绝对了
纯data本身也是有信息的,看你怎么分析
如果是屁data,的确分析不出什么牛逼的东西来,但好处就是这些屁data不会被过分夸张
另外分析data的人也不会傻到把手上所有的data一次用完,可能会分一部分出来用于建
立模型,剩下的用于分析验证
hypothesis driven更像是演绎法
而data driven是归纳法
现在的主流趋势太看重演绎了,导致很多结论不能重复

【在 t*********l 的大作中提到】
: 当然得是hypothesis driven. 你制造那么些data干什么用?数据本身是没有意义的,
: 数据只有在对不同的hypotheses提供支持或否定时才产生了意义。科研的最终目的是把
: 你的hypothesis修正成理论,而不是为了产生大量乱七八糟的data。

D*a
发帖数: 6830
13
推荐楼主 猜想与反驳 和 科学革命的结构。
I***a
发帖数: 13467
14
跟楼主差不多,
每次听到hypothesis就想吐,
hypothesis driven让人有挑拣数据倾向
m***6
发帖数: 8479
15
lz的意思就是要有好的rationale
s*******2
发帖数: 499
16
说的好。

【在 c******d 的大作中提到】
: 现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
: ,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
: 要脸跟这个原理,那个pathway扯上关系。
: 看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
: 不自觉的恶心。不知道为啥。

w********e
发帖数: 21
17
John Sulston干了两件纯data driven的大事: 线虫的 Cell lineage 和人类(先是线
虫)的基因组。
C*******I
发帖数: 151
18
完全同意!如果没有足够量的原始data,有意义的hypothesis根本无从谈起。单纯强调
hypotehsis-driven,其实就是预先在研究结论中过多引入主观意志,会导致很多类似
于“青蛙听觉在腿上”的研究报告。

夸张

【在 b*******n 的大作中提到】
: 这个太绝对了
: 纯data本身也是有信息的,看你怎么分析
: 如果是屁data,的确分析不出什么牛逼的东西来,但好处就是这些屁data不会被过分夸张
: 另外分析data的人也不会傻到把手上所有的data一次用完,可能会分一部分出来用于建
: 立模型,剩下的用于分析验证
: hypothesis driven更像是演绎法
: 而data driven是归纳法
: 现在的主流趋势太看重演绎了,导致很多结论不能重复

t*****2
发帖数: 213
19
有hypothesis倒不是不对,只是后来自圆其说的过程就比较恶心了,就造成了凡
hypothesis没有不正确的情况,都是按照老板的意愿来拿结果,拿不到想要的结果,就
让你重作,直到拿到为止。。。。
p*****e
发帖数: 332
20
agree

【在 t*********l 的大作中提到】
: 当然得是hypothesis driven. 你制造那么些data干什么用?数据本身是没有意义的,
: 数据只有在对不同的hypotheses提供支持或否定时才产生了意义。科研的最终目的是把
: 你的hypothesis修正成理论,而不是为了产生大量乱七八糟的data。

相关主题
请教一下cancer subtype的问题有谁知道卡特的黑色素瘤脑转移是怎么治愈的
求一篇paper问一下IHC staining of breast cancer subtype markers
在细胞内A诱导B,但在肿瘤标本中不是,为什么?谢谢!求两篇文章
进入Biology版参与讨论
s*********l
发帖数: 204
21
俺最近一个小grant被据,其中一个reviewer说我没有hypothesis.
s******8
发帖数: 2131
22
your intuition or imagination could be hypothesis, then you collect data to
prove it or disprove it.

【在 c******d 的大作中提到】
: 现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
: ,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
: 要脸跟这个原理,那个pathway扯上关系。
: 看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
: 不自觉的恶心。不知道为啥。

D******n
发帖数: 2836
23
it is always
(data,experience,chance,random observations) --> hypothesis ---> Design of
Experiment --> Experiment and generate lots of data ---> prove or disprove
hypothesis.
so there is nothing wrong with hypothesis-driven. Not getting credited by
disproving/proving a hypothesis (depends on which is more scientifically
interesting or publishable) is the culprit. People have to find all means to
prove it is true/wrong by only showing favoring results or even fabricating
data.
On the other hand, without proper set up of the above flow, making conlusion
just based on some data quirks will be fallible. In statistics, it is
called "data scooping"(e.g. when doing multiple comparision).

【在 c******d 的大作中提到】
: 现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
: ,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
: 要脸跟这个原理,那个pathway扯上关系。
: 看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
: 不自觉的恶心。不知道为啥。

D*a
发帖数: 6830
24
倒是想知道现在的data driven的都drive到什么地方去了,如果还没有drive到什么地
方去,那么data如何才能drive到什么地方去?
s******h
发帖数: 47
25
I hate hypothesis driven too.
z*******9
发帖数: 112
26
The hypothesis driven is most efficient way, at least in terms of
productivity. However, since science has already became industrialized, tons
of examples there shown that PIs are turned to tweak the data to prove
their ideas.
z*******9
发帖数: 112
27
BTW, I always heard that science does not prove anything, just discovering
the truth.
t****a
发帖数: 1212
28
+1

【在 t*********l 的大作中提到】
: 当然得是hypothesis driven. 你制造那么些data干什么用?数据本身是没有意义的,
: 数据只有在对不同的hypotheses提供支持或否定时才产生了意义。科研的最终目的是把
: 你的hypothesis修正成理论,而不是为了产生大量乱七八糟的data。

l***y
发帖数: 4671
29
有没有听说过 alternative hypotheses? Single hypothesis 本来就是有问题的。
至于 data-driven -- 没有 hypotheses,往哪里 driven?
所以貌似 lz 没有搞清楚 data 和 knowledge 的区别,应该不是从事 data mining /
bioinformatics 这些天天跟海量数据打交道的方向的。那又奢谈什么 data-driven?
比如说,我现在手头就有 19 万组数据,每组几个 MB。每种数据对应三类刺激,多个
时间点,十几种细胞,七八个不同的 control,一堆的外部 annotation databases。
没有几个 hypotheses,都不知道该先处理哪些,做哪些分析,control 和
normalization 都用什么策略,该怎么做 fast prototyping。
所以呢,凭想象说什么 data-driven,不过空谈而已。叶公好龙,等真见了龙就明白了
。等到真正拿到几个硬盘的数据要你一个月出报告,就知道 hypothesis driven 的重
要性了。

【在 c******d 的大作中提到】
: 现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
: ,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
: 要脸跟这个原理,那个pathway扯上关系。
: 看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
: 不自觉的恶心。不知道为啥。

b*******n
发帖数: 8420
30
你以为那些epidemiology做的调查最后都掉坑里去了?

【在 D*a 的大作中提到】
: 倒是想知道现在的data driven的都drive到什么地方去了,如果还没有drive到什么地
: 方去,那么data如何才能drive到什么地方去?

相关主题
什么是试错法, 什么不是relative entropy (求教bioinformati 高手
大量搞结构的回国不是好事3D culture by Collagen I
生物学研究中的试错法很可怕关于: 胡乱选的基因比发表出来的“cancer marker”能更准确
进入Biology版参与讨论
b*******n
发帖数: 8420
31
你把生物学的hypothesis的验证方法和统计学的hypothesis的验证方法混为一谈了。
data snooping的原因就是对于data的过分解释,这就是hypothesis driven的一个弊端。
另外没有你所说的这个flow,一样可以做出伟大的科学。不少药物在上市之后若干年都
不知道具体的作用机理如何,根本就不需要对它的作用机理提出任何hypothesis并进行
验证,但是这不影响这个药物的应用,比如aspirin.同样,流行病学调查也是可以没有
hypothesis的,但是这些调查数据一样可以提供有用的信息。

to
fabricating
conlusion

【在 D******n 的大作中提到】
: it is always
: (data,experience,chance,random observations) --> hypothesis ---> Design of
: Experiment --> Experiment and generate lots of data ---> prove or disprove
: hypothesis.
: so there is nothing wrong with hypothesis-driven. Not getting credited by
: disproving/proving a hypothesis (depends on which is more scientifically
: interesting or publishable) is the culprit. People have to find all means to
: prove it is true/wrong by only showing favoring results or even fabricating
: data.
: On the other hand, without proper set up of the above flow, making conlusion

b*******n
发帖数: 8420
32
你这个也是把生物学的hypothesis和统计学的hypothesis混为一谈
统计学里的hypothesis必然有alternative hypothesis,reject其中一个就要接受另一
个。但是你让生物学PI们把自己苦心孤诣搞出来的central hypothesis reject掉试试
?他不跟你吹胡子瞪眼才怪呢。
所以,统计学里的hypotheses是中性的,无论接受也好拒绝也好,对于PI来说都是可以
接受的。但是现在生物学研究的hypothesis几乎变成了需要加以验证的潜在真理,导致
为了证明hypothesis而manipulate data(你看,data manipulation在统计学和生物学
里的意义也不同吧),这是楼主发的原贴的主要原因。

/

【在 l***y 的大作中提到】
: 有没有听说过 alternative hypotheses? Single hypothesis 本来就是有问题的。
: 至于 data-driven -- 没有 hypotheses,往哪里 driven?
: 所以貌似 lz 没有搞清楚 data 和 knowledge 的区别,应该不是从事 data mining /
: bioinformatics 这些天天跟海量数据打交道的方向的。那又奢谈什么 data-driven?
: 比如说,我现在手头就有 19 万组数据,每组几个 MB。每种数据对应三类刺激,多个
: 时间点,十几种细胞,七八个不同的 control,一堆的外部 annotation databases。
: 没有几个 hypotheses,都不知道该先处理哪些,做哪些分析,control 和
: normalization 都用什么策略,该怎么做 fast prototyping。
: 所以呢,凭想象说什么 data-driven,不过空谈而已。叶公好龙,等真见了龙就明白了
: 。等到真正拿到几个硬盘的数据要你一个月出报告,就知道 hypothesis driven 的重

P****D
发帖数: 11146
33
做统计的表示你说的这个是症结所在。
不光你们反复做实验觉得恶心,我们被你们的老板们逼着把同一数据用不同方法翻来覆
去分析也很恶心。

【在 t*****2 的大作中提到】
: 有hypothesis倒不是不对,只是后来自圆其说的过程就比较恶心了,就造成了凡
: hypothesis没有不正确的情况,都是按照老板的意愿来拿结果,拿不到想要的结果,就
: 让你重作,直到拿到为止。。。。

g*******l
发帖数: 239
34
呵呵谁说不是,有些数据postdoc1分析不出来,然后走人了,接着老板让postdoc2分析
,换一种方法嘛,总会有点变化。

【在 P****D 的大作中提到】
: 做统计的表示你说的这个是症结所在。
: 不光你们反复做实验觉得恶心,我们被你们的老板们逼着把同一数据用不同方法翻来覆
: 去分析也很恶心。

b*******n
发帖数: 8420
35
这个倒没啥
本来每一批数据都有不同,另外实际当中数据的噪音也很大
做统计的就是要找到更好的方法来分析数据
当然如果是一堆屎data非要包装成牛逼轰轰的,那确实很恶心。

【在 P****D 的大作中提到】
: 做统计的表示你说的这个是症结所在。
: 不光你们反复做实验觉得恶心,我们被你们的老板们逼着把同一数据用不同方法翻来覆
: 去分析也很恶心。

P****D
发帖数: 11146
36
“做统计的就是要找到更好的方法来分析数据”这是当然,但是手段不能是通过反复分
析同一数据来得到。统计学不是这么发展的。
另外那些恶心PI的目的可从来不是“帮助统计学发展”。

【在 b*******n 的大作中提到】
: 这个倒没啥
: 本来每一批数据都有不同,另外实际当中数据的噪音也很大
: 做统计的就是要找到更好的方法来分析数据
: 当然如果是一堆屎data非要包装成牛逼轰轰的,那确实很恶心。

F*Q
发帖数: 3259
37
从纯学术角度来看,hypothesis driven 本身似乎问题没那么大.真正的问题在于"形
而上学",有很多人倾向于把 hypothesis 当教条.在他们看来,任何data 都得按
hypothesis 去解释,hypothesis解释不了的数据就不是好数据,和hypothesis相冲突
的数据一定是错误的.尤其是这些问题往往还受现实名利左右.

【在 c******d 的大作中提到】
: 现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
: ,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
: 要脸跟这个原理,那个pathway扯上关系。
: 看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
: 不自觉的恶心。不知道为啥。

h******1
发帖数: 16295
38
有的人假说和结果符合得天衣无缝,每次都是这样.
我不知道是应该佩服这种人,还是应该鄙视他.
l***y
发帖数: 4671
39
首先,两种 hypothesis 本质上是一样的,而且实际上也经常根据 bio hypothesis 来
设计 hypothesis for statistical test。
另外,alternative hypotheses 早就在生物学中广泛应用了。而且作为方法论,
alternative hypotheses 并不限于生物学,别的学科一样适用。以前就推荐过 Platt
1964 年发在 Science 上的这篇文章:
http://256.com/gray/docs/strong_inference.html
这是当年做 PhD 时老板要求组里每个人都读的。文章写得很精彩。Hypothesis-driven
research 分两个流派,一个是 multi-hypothesis,一个是 single hypothesis。前
者在生物学上用得比较多,后者有时见于理论物理。其实仔细回想一下,很多情况下虽
然没有意识到,但思考问题和设计实验时,用的其实就是 multi-hypothesis。
统计上就更不用说了,满眼都是 multi-hypothesis。例如,multi-test 的本质就是
multi-hypothesis。比如说分析 microarray 的数据,找出 differentially
expressed genes,就是用得一组 (几万对) hypotheses: {H_oi: the variation of
gene_i is due to randomacy |H_1i: the math expectation of gene_i is
different from the majority}
抄一段 Platt 的文章在这里:
Strong inference consists of applying the following steps to every problem
in science, formally and explicitly and regularly:
- Devising alternative hypotheses;
- Devising a crucial experiment (or several of them), with alternative
possible outcomes, each of which will, as nearly is possible, exclude one or
more of the hypotheses;
- Carrying out the experiment so as to get a clean result;
- Recycling the procedure, making subhypotheses or sequential hypotheses to
refine the possibilities that remain, and so on.

【在 b*******n 的大作中提到】
: 你这个也是把生物学的hypothesis和统计学的hypothesis混为一谈
: 统计学里的hypothesis必然有alternative hypothesis,reject其中一个就要接受另一
: 个。但是你让生物学PI们把自己苦心孤诣搞出来的central hypothesis reject掉试试
: ?他不跟你吹胡子瞪眼才怪呢。
: 所以,统计学里的hypotheses是中性的,无论接受也好拒绝也好,对于PI来说都是可以
: 接受的。但是现在生物学研究的hypothesis几乎变成了需要加以验证的潜在真理,导致
: 为了证明hypothesis而manipulate data(你看,data manipulation在统计学和生物学
: 里的意义也不同吧),这是楼主发的原贴的主要原因。
:
: /

a***y
发帖数: 19743
40
不知所云。hypothesis就是来自data的。
你钻牛角尖了。

【在 c******d 的大作中提到】
: 不是说不能有hypothesis,但不能完全hypothesis driven。data应该是处于研究的核
: 心,而不是什么乱七八糟的这样那样的假设。
:
: drive

相关主题
关于: 胡乱选的基因比发表出来的“cancer marker”能更准确乙肝受体的文章出来了,没有大牛来评评?
免疫荧光,用IgM做对照的问题如何证明tumor是Mesenchymal
现在有关癌症方面的研究越来越胡扯paper Help please
进入Biology版参与讨论
l***y
发帖数: 4671
41
哪怕是 single-hypothesis-driven research 也是分两个阶段。第一个阶段是 proof
of concept,是 positive 的,也就是说,尽一切努力来证明自己的 hypothesis 是正
确的。第二个阶段是 defense,是 negative 的,也就是说,尽一切努力来攻击自己的
hypothesis,证明别的可能的原因都是错的。
当然,生存压力会导致很多 PI 生拉硬套,但这与 hypothesis-driven method 无关。
不管用什么方法论,都有自己灌水作弊的方式。说到药物筛选,我就正在做这样一个
project,里面猫腻更多。

端。

【在 b*******n 的大作中提到】
: 你把生物学的hypothesis的验证方法和统计学的hypothesis的验证方法混为一谈了。
: data snooping的原因就是对于data的过分解释,这就是hypothesis driven的一个弊端。
: 另外没有你所说的这个flow,一样可以做出伟大的科学。不少药物在上市之后若干年都
: 不知道具体的作用机理如何,根本就不需要对它的作用机理提出任何hypothesis并进行
: 验证,但是这不影响这个药物的应用,比如aspirin.同样,流行病学调查也是可以没有
: hypothesis的,但是这些调查数据一样可以提供有用的信息。
:
: to
: fabricating
: conlusion

b*******n
发帖数: 8420
42
无意引起争执
但是你所说的这两个阶段,在现实的生物学科研中并没有很好的执行
因此也就出现了歪曲data用来解释hypothesis的事情
毕竟验证一个hypothesis,统计学家可能只需要几个星期或者几个月的时间,而且null
hypothesis被reject之后可以接受alternative hypothesis,即使是没有差异也算是
结果。但是生物学PI们的hypothesis验证起来要花更长的时间,而且这个hypothesis直
接关系到他的R01 grant是否能得到资助。目前的生物学科研只重视positive data而无
视negative data,所以一旦hypothesis被reject,那就什么都不剩了。
如果只是普通的药物筛选,其实和microarray之类的都差不多,应该是非常中性的。但
是之后要选出compound进行验证,就变成了hypothesis driven,所谓的猫腻应该就出
在这里。

proof

【在 l***y 的大作中提到】
: 哪怕是 single-hypothesis-driven research 也是分两个阶段。第一个阶段是 proof
: of concept,是 positive 的,也就是说,尽一切努力来证明自己的 hypothesis 是正
: 确的。第二个阶段是 defense,是 negative 的,也就是说,尽一切努力来攻击自己的
: hypothesis,证明别的可能的原因都是错的。
: 当然,生存压力会导致很多 PI 生拉硬套,但这与 hypothesis-driven method 无关。
: 不管用什么方法论,都有自己灌水作弊的方式。说到药物筛选,我就正在做这样一个
: project,里面猫腻更多。
:
: 端。

b*******n
发帖数: 8420
43
总结一下
无论什么学科,hypothesis的本质是一样的,hypothesis driven所需要的流程也是大
致相同的。
但是由于现实原因,不同领域的科学家对于hypothesis以及alternative hypothesis的
看法并不相同,这是导致某个领域内hypothesis driven被人诟病的原因,所以说到底
还是"winner gets all"的体制问题。就如同温拿科学家拿到所有funding一样,温拿
hypothesis得到所有的鲜花和掌声,而非温拿hypothesis (alternative hypothesis)
没人关心。

Platt
driven

【在 l***y 的大作中提到】
: 首先,两种 hypothesis 本质上是一样的,而且实际上也经常根据 bio hypothesis 来
: 设计 hypothesis for statistical test。
: 另外,alternative hypotheses 早就在生物学中广泛应用了。而且作为方法论,
: alternative hypotheses 并不限于生物学,别的学科一样适用。以前就推荐过 Platt
: 1964 年发在 Science 上的这篇文章:
: http://256.com/gray/docs/strong_inference.html
: 这是当年做 PhD 时老板要求组里每个人都读的。文章写得很精彩。Hypothesis-driven
: research 分两个流派,一个是 multi-hypothesis,一个是 single hypothesis。前
: 者在生物学上用得比较多,后者有时见于理论物理。其实仔细回想一下,很多情况下虽
: 然没有意识到,但思考问题和设计实验时,用的其实就是 multi-hypothesis。

b*******n
发帖数: 8420
44
我听过一个做得还不错的faculty做报告
讲的就是用新的方法来分析以前旧的方法分析不出来的一堆数据
如果是被人逼着反复用类似的方法分析同一批数据,那的确是要发疯了
类似于曹锟逼着国民议会的议员“今天非要选出个大总统出来”

【在 P****D 的大作中提到】
: “做统计的就是要找到更好的方法来分析数据”这是当然,但是手段不能是通过反复分
: 析同一数据来得到。统计学不是这么发展的。
: 另外那些恶心PI的目的可从来不是“帮助统计学发展”。

l***y
发帖数: 4671
45
multi-hypothesis 的最关键的环节是 critical experiments:如何用尽量少的实验,
来尽可能多地检验一系列互斥的 hypotheses 之中哪些是错的,哪些可能是对的。只能
证伪一个 hypothesis 的实验要尽量避免,因为效率低。
这样子,实验结果在大多数情况下总是能继续推进 research,而不是 negative 的结
果导致 project 挂掉。
microarray 的筛选也谈不上有多中性。比如说,GSEA 和 IPA pathway enrichment
analysis 都有很强的 bias,原因就是用到的 hypothesis 有问题:使用不带权重的
Fisher exact test,并且不考虑各 gene set 或者各 pathway 的 overlap。
再结合前一段时间版上热闹过的 plos one 上的攻击 disease signature 的那篇文章
看 microarray assay,所谓中性可想而知了。
而基于 high-throughput screening 和 bioinformatics 来做 mechanism/hypothesis
,大家都在做,文章一大堆,真正做成功了找到重要机制的有几个?数来数去每年也就
那么几篇经典文章,还无一例外都是在有清晰的 hypothesis 的前提下做的 screening
/mining。
药物筛选更是如此。Scoring 很 tricky。比如说,一万种药,筛了 20 个 cell lines
,看 apoptosis rate -- 先不管 dose/time points 这些更复杂的参数。那么,如何
根据这 20 个 cell lines 的数据来衡量这些药对临床的哪些疾病有效果?毒性呢?先
要把各 cell line 对应到疾病和健康组织的 subtypes 上去,再结合各个 subtypes
的发病率和预后或者对健康组织的毒性做权重修正,构建一个 scoring 的 model。构
建 scoring model 的过程就要基于一系列的 hypothesis,有 bio 的也有 stats 的,
更不用说数不清的 assumptions 了。这个 model 里随便调几个权重或者分类,最后筛
出来的药的 ranking 就会千差万别。比如说,用 geno-subtype 还是 pheno-subtype
来分类,对不同种类的药的药效的预测准确率差别就很大。而再拿 patient samples
来 in vitro 测试筛出来的药的药效,会发现这些 ranking 大多很不靠谱。in vivo
就更不用说了,药动力学问题,micro-environment 问题,老鼠和人的代谢差异,等等
,要是 ranking 有 1% 的正确率,制药公司都要欣喜若狂了。筛药这活儿,水太深了
,我现在正一肚子的苦水。

null

【在 b*******n 的大作中提到】
: 无意引起争执
: 但是你所说的这两个阶段,在现实的生物学科研中并没有很好的执行
: 因此也就出现了歪曲data用来解释hypothesis的事情
: 毕竟验证一个hypothesis,统计学家可能只需要几个星期或者几个月的时间,而且null
: hypothesis被reject之后可以接受alternative hypothesis,即使是没有差异也算是
: 结果。但是生物学PI们的hypothesis验证起来要花更长的时间,而且这个hypothesis直
: 接关系到他的R01 grant是否能得到资助。目前的生物学科研只重视positive data而无
: 视negative data,所以一旦hypothesis被reject,那就什么都不剩了。
: 如果只是普通的药物筛选,其实和microarray之类的都差不多,应该是非常中性的。但
: 是之后要选出compound进行验证,就变成了hypothesis driven,所谓的猫腻应该就出

w***x
发帖数: 265
46
“而基于 high-throughput screening 和 bioinformatics 来做 mechanism/
hypothesis
,大家都在做,文章一大堆,真正做成功了找到重要机制的有几个?数来数去每年也就
那么几篇经典文章,还无一例外都是在有清晰的 hypothesis 的前提下做的 screening
/mining。”
强烈同意啊。我们实验室也号称是hypothesis free,也搞筛药神马的,但弄来弄去就
像没头苍蝇,除了收集了一堆high noise数据外没有什么concept或者mechanism的贡献
。因为都做的很粗浅,没有细致深入的分析。
我的耳边总是萦绕着Sydney Brenner的批评: "low input, high throughput, no
output" .

+10086

【在 t*********l 的大作中提到】
: 当然得是hypothesis driven. 你制造那么些data干什么用?数据本身是没有意义的,
: 数据只有在对不同的hypotheses提供支持或否定时才产生了意义。科研的最终目的是把
: 你的hypothesis修正成理论,而不是为了产生大量乱七八糟的data。

n******7
发帖数: 12463
47
data driven现阶段在生物学也很有些恶心
因为产生了data就必须来点东西交差,最后往往还是不得不瞎编
有些p都没有的文章还扯了半天,我真的要看得吐了
l**********1
发帖数: 5204
48
托勒密的第72位大弟子说过 他/她很讨厌卡普勒和牛顿的万有引力定律公式
hypothesis driven 天体物理学
还是LEGO 拼接齿轮的系统 实在啊

【在 c******d 的大作中提到】
: 现代科学证明,data driven才是科学的出路,hypothesis driven最终都归于自圆其说
: ,胡编乱造,坑蒙拐骗。很多差的十万八千里的东西,为了发paper,搞funding,就不
: 要脸跟这个原理,那个pathway扯上关系。
: 看到很多biologist,搞来搞去,总要来一句,u gotta have a hypothesis.我就觉得
: 不自觉的恶心。不知道为啥。

S**I
发帖数: 15689
49
斯大林:“如果理论与事实不符,就修改事实。”

【在 t*****2 的大作中提到】
: 有hypothesis倒不是不对,只是后来自圆其说的过程就比较恶心了,就造成了凡
: hypothesis没有不正确的情况,都是按照老板的意愿来拿结果,拿不到想要的结果,就
: 让你重作,直到拿到为止。。。。

r******e
发帖数: 209
50
Good points!
I agree with you.

null

【在 b*******n 的大作中提到】
: 无意引起争执
: 但是你所说的这两个阶段,在现实的生物学科研中并没有很好的执行
: 因此也就出现了歪曲data用来解释hypothesis的事情
: 毕竟验证一个hypothesis,统计学家可能只需要几个星期或者几个月的时间,而且null
: hypothesis被reject之后可以接受alternative hypothesis,即使是没有差异也算是
: 结果。但是生物学PI们的hypothesis验证起来要花更长的时间,而且这个hypothesis直
: 接关系到他的R01 grant是否能得到资助。目前的生物学科研只重视positive data而无
: 视negative data,所以一旦hypothesis被reject,那就什么都不剩了。
: 如果只是普通的药物筛选,其实和microarray之类的都差不多,应该是非常中性的。但
: 是之后要选出compound进行验证,就变成了hypothesis driven,所谓的猫腻应该就出

相关主题
Treg 和 Th17的转变求一篇paper
求paper, 10 baozi在细胞内A诱导B,但在肿瘤标本中不是,为什么?谢谢!
请教一下cancer subtype的问题有谁知道卡特的黑色素瘤脑转移是怎么治愈的
进入Biology版参与讨论
t*****2
发帖数: 213
51

哈,恐怕这hypothesis离理论还有一定距离嘞

【在 S**I 的大作中提到】
: 斯大林:“如果理论与事实不符,就修改事实。”
w***a
发帖数: 4361
52
有了海量的,客观的,solid的data以后,去寻找解释现象的hypothesis
这个跟先有hypothesis,然后拼老命挑选或者制造data去迎合hypothesis,完全是两回
事。
目前海量的文献里面,依照后面这种思路炮制出来的research,比比皆是呀。
你去重复重复人家的实验就明白了。

/

【在 l***y 的大作中提到】
: 有没有听说过 alternative hypotheses? Single hypothesis 本来就是有问题的。
: 至于 data-driven -- 没有 hypotheses,往哪里 driven?
: 所以貌似 lz 没有搞清楚 data 和 knowledge 的区别,应该不是从事 data mining /
: bioinformatics 这些天天跟海量数据打交道的方向的。那又奢谈什么 data-driven?
: 比如说,我现在手头就有 19 万组数据,每组几个 MB。每种数据对应三类刺激,多个
: 时间点,十几种细胞,七八个不同的 control,一堆的外部 annotation databases。
: 没有几个 hypotheses,都不知道该先处理哪些,做哪些分析,control 和
: normalization 都用什么策略,该怎么做 fast prototyping。
: 所以呢,凭想象说什么 data-driven,不过空谈而已。叶公好龙,等真见了龙就明白了
: 。等到真正拿到几个硬盘的数据要你一个月出报告,就知道 hypothesis driven 的重

1 (共1页)
进入Biology版参与讨论
相关主题
问一下IHC staining of breast cancer subtype markers免疫荧光,用IgM做对照的问题
求两篇文章现在有关癌症方面的研究越来越胡扯
什么是试错法, 什么不是乙肝受体的文章出来了,没有大牛来评评?
大量搞结构的回国不是好事如何证明tumor是Mesenchymal
生物学研究中的试错法很可怕paper Help please
relative entropy (求教bioinformati 高手Treg 和 Th17的转变
3D culture by Collagen I求paper, 10 baozi
关于: 胡乱选的基因比发表出来的“cancer marker”能更准确请教一下cancer subtype的问题
相关话题的讨论汇总
话题: hypothesis话题: driven话题: data话题: hypotheses话题: 数据