由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 请教一个问题
相关主题
请教一个R:K-means的问题这种情况应该用什么hypothesis test。
data clustering by vector correlation distancelinear regression的时候
请教一个数据分类的问题用什么可以画这个clustering 图? R?
发一个统计part-time的job怎么样才能提高R SQUARE的值--using SPSS?
PCA and linear regressionIs there any correlation between the two data set?
如何 group vectorAR(1) and clustering by firms
[合集] k-mean clustering如何确定什么情况time series,什么情况linear reg?
请教一个频率优化问题(相关性?)How to avoid if statement in R
相关话题的讨论汇总
话题: features话题: feature话题: 特征话题: 同源话题: clustering
进入Statistics版参与讨论
1 (共1页)
d*****u
发帖数: 17243
1
我没什么统计的基础,在这里请教一个问题。不一定要有现成的答案,各位能指点一下
看什么书也行。
我现在要对一些语言进行分类,原则上有两个方法。一是基于同源特征,就是把那些语
言跟他们共同的祖语进行比较(feature矩阵我都有了),看从古到今有哪些变化。有
相同变化的亲缘更近。另外一个就是不管同源性,把feature直接进行相互比较,然后
clustering。
用同源特征的话,这里面还有两个考虑:
一是有些变化其实是同质的,也就是不相互independent。这里面有些是可以事先规定
的,但是我也想顺便看看哪些变化最correlated with each other。
二是有些变化是普遍的语言现象,出现概率大,所以在分类时的权重应该小一些。
先问这么多吧。不知道有什么建议呢?Thanks.
g*******y
发帖数: 380
2
我ft,居然验证失败,我白敲了半天。
建议不敢当,有错误的地方有多指正。
首先觉得你这个思路和生物上的生物分类学的方法比较接近,可以试试找他们的文章看
看,或者直接看multiple variate analysis的书。
从统计的角度,我学到的皮毛:先用SAS做个scatter plots的矩阵,便于你初步检查每
个变量间的相关性。factor analysis的输出结果里可以检查相关性。然后选择合适的
factors进行聚类分析。
d*****u
发帖数: 17243
3
多谢。
有关生物分类的有什么经典paper吗?
或者有那些journal?
印象中好像人类学里搞过不少这种东西。

【在 g*******y 的大作中提到】
: 我ft,居然验证失败,我白敲了半天。
: 建议不敢当,有错误的地方有多指正。
: 首先觉得你这个思路和生物上的生物分类学的方法比较接近,可以试试找他们的文章看
: 看,或者直接看multiple variate analysis的书。
: 从统计的角度,我学到的皮毛:先用SAS做个scatter plots的矩阵,便于你初步检查每
: 个变量间的相关性。factor analysis的输出结果里可以检查相关性。然后选择合适的
: factors进行聚类分析。

g*******y
发帖数: 380
4
这个我就不知道了。咱就是半瓶子醋晃荡,借着讨论来学点东西的主。
我不是学生物的,这个是我们系必修课里的一点内容,基础课被压缩到一个学期的三分
之一,大概也就一个月的时间,讲的也很零碎。中文是不是这么叫我都不知道。英文大
概是这么几个词:systematics, taxonomy, cladistics, or phenetics。

【在 d*****u 的大作中提到】
: 多谢。
: 有关生物分类的有什么经典paper吗?
: 或者有那些journal?
: 印象中好像人类学里搞过不少这种东西。

D******n
发帖数: 2836
5
what do u mean by homogeneity? If they are homologous, ur features should
pick it up
or u can say homogeneity is defined by the similarity between the feature
vectors of two languages which may or may not overlap with the ones u are
interested in.
in biology ppl build phylogenic trees,
u can do a simple hierachical clustering of the langauges using the
euclidian distanc of the feature vectors.

我没什么统计的基础,在这里请教一个问题。不一定要有现成的答案,各位能指点一下
看什么书也行。
我现在要对一些语言进行分类,原则上有两个方法。一是基于同源特征,就是把那些语
言跟他们共同的祖语进行比较(fe

【在 d*****u 的大作中提到】
: 我没什么统计的基础,在这里请教一个问题。不一定要有现成的答案,各位能指点一下
: 看什么书也行。
: 我现在要对一些语言进行分类,原则上有两个方法。一是基于同源特征,就是把那些语
: 言跟他们共同的祖语进行比较(feature矩阵我都有了),看从古到今有哪些变化。有
: 相同变化的亲缘更近。另外一个就是不管同源性,把feature直接进行相互比较,然后
: clustering。
: 用同源特征的话,这里面还有两个考虑:
: 一是有些变化其实是同质的,也就是不相互independent。这里面有些是可以事先规定
: 的,但是我也想顺便看看哪些变化最correlated with each other。
: 二是有些变化是普遍的语言现象,出现概率大,所以在分类时的权重应该小一些。

d*****u
发帖数: 17243
6
嗯,实际上历史语言学上的“同源特征”往往是假定的,
因为谁也不知道古代语言什么样子。
都是用reconstruction的方法做出来,然后再拿去用。
这个可能跟生物里的基因不同。
但是古生物学也有单纯研究化石形状的,可能就差不多了。
所以我的目的之一就是看用那些“同源特征”划分的类别与单纯比较特征得出的结果是
否一致。
另外,以前的研究没有强调那些同源特征的相关性,所以independent假设可能太强
我想看看哪些特征是相关的

【在 D******n 的大作中提到】
: what do u mean by homogeneity? If they are homologous, ur features should
: pick it up
: or u can say homogeneity is defined by the similarity between the feature
: vectors of two languages which may or may not overlap with the ones u are
: interested in.
: in biology ppl build phylogenic trees,
: u can do a simple hierachical clustering of the langauges using the
: euclidian distanc of the feature vectors.
:
: 我没什么统计的基础,在这里请教一个问题。不一定要有现成的答案,各位能指点一下

D******n
发帖数: 2836
7
so the features u picked up are quite different with the canonical "
homogeneity" features? So basically you wanna compare ur features with those
cannoical features in terms of clustering ?
without looking at the raw data and understanding the lingistics underlying
this problem i dont have much to say. But if u concern about co-linearity ,
u might google feature selection,mrmr . Clustering is non-supervised
learning though. dependance amoungst features might not harm(not sure, hope
some1 gives

【在 d*****u 的大作中提到】
: 嗯,实际上历史语言学上的“同源特征”往往是假定的,
: 因为谁也不知道古代语言什么样子。
: 都是用reconstruction的方法做出来,然后再拿去用。
: 这个可能跟生物里的基因不同。
: 但是古生物学也有单纯研究化石形状的,可能就差不多了。
: 所以我的目的之一就是看用那些“同源特征”划分的类别与单纯比较特征得出的结果是
: 否一致。
: 另外,以前的研究没有强调那些同源特征的相关性,所以independent假设可能太强
: 我想看看哪些特征是相关的

d*****u
发帖数: 17243
8

those
我想feature还是基本一样的
简单说,过去的“同源特征法”就是比较各种现代语言和拟构好的古代语言
从古今feature mapping里找差异
有时还定性地给一些很不同的权重
至于这些mapping怎么量化,我还没想过
另外一种alternative就是不管什么古代语言
直接比较现代语言的distance
这样直接用feature vectors就可以了
我想关于同源特征至少有两点考虑
一是语言里有些变化是很常见的,有些是罕见的,罕见的系统特征是主要分类指标
这个用海量语言数据也能自己得出,但是对小部分data进行整理时是不行的
这就不像基因突变在哪里概率都认为是一样的,而且都很小
所以特种基因非继承性重现的概率被认为是0
更重要的是,具体到历史事件上,
有些变化发生得早,是分类的决定指标;有些发生得晚,是分类的次要指标
这些变化的早晚有些是根据数据推定的,有些是根据文献之类得出的
不过我觉得这点在实际操作时影响可能不大,大部分跟实际数据是自然吻合的
underlying
,
hope

【在 D******n 的大作中提到】
: so the features u picked up are quite different with the canonical "
: homogeneity" features? So basically you wanna compare ur features with those
: cannoical features in terms of clustering ?
: without looking at the raw data and understanding the lingistics underlying
: this problem i dont have much to say. But if u concern about co-linearity ,
: u might google feature selection,mrmr . Clustering is non-supervised
: learning though. dependance amoungst features might not harm(not sure, hope
: some1 gives

1 (共1页)
进入Statistics版参与讨论
相关主题
How to avoid if statement in RPCA and linear regression
新手问个R里vectorization的问题如何 group vector
Clustered Data能用GEE或Mixed Model吗?[合集] k-mean clustering
请问哪里有PCA的SAS code 啊请教一个频率优化问题(相关性?)
请教一个R:K-means的问题这种情况应该用什么hypothesis test。
data clustering by vector correlation distancelinear regression的时候
请教一个数据分类的问题用什么可以画这个clustering 图? R?
发一个统计part-time的job怎么样才能提高R SQUARE的值--using SPSS?
相关话题的讨论汇总
话题: features话题: feature话题: 特征话题: 同源话题: clustering