O*******f 发帖数: 926 | 1 看着没有问题啊。THF应该是最常用的溶剂了。
NaH的反应应该干净些,但是固体称量;LiHMDS、LDA和BuLi也应该考虑。 |
|
d******e 发帖数: 7844 | 2 上网很容易搜到的。
做机器学习算法的人95%估计都用matlab。
查的时候查Fisher Linear Discriminant查到的结果应该会更多。 |
|
c*******h 发帖数: 1096 | 3 dim reduction is not just for classification. it can be used for
visualization or data exploration.
FLD& |
|
|
发帖数: 1 | 5 大家好,
本人是研究生统计毕业,正在寻求一份与专业相关的工作,找工作好几个月了,海投简
历也没有任何消息,很是着急上火,还请大家帮忙内推。
本人有 SAS Base证书, SAS Advance也正在考,熟练用 R, SAS, SQL, Minitab 等。
还有 1 年的 Statistical Consulting experience,2年的teaching experience。会
一些machine learning的知识,如:classification(SVM, PCA&LDA, Random Forest,
Decision Tree),clustering (K-means, Hierarchical)等。
坐标亚特兰大附近,但是愿意被relocated根据工作需要。
还请大家帮忙内推,万分感谢!
再次谢谢!!! |
|
e**********n 发帖数: 359 | 6 LDA should be good enough. |
|
c***c 发帖数: 67 | 7 呵呵,今天刚做了一个签名档,就有人问我知道的问题,这不是给我机会表现呢么。
楼上说的对,LDA就成了。建议用免费的Quantum Espresso,输入几个参数就可以跑了
。 |
|
m*****r 发帖数: 3822 | 8 DFT说到底还是工具,这里面有两类人,一类是开发工具,一类是使用工具的。
Louie这种就属于两个都做的,但是现在DFT对于大多数计算都已经非常成熟了。
所以看上去这些大牛也就是‘低层次’的算算。这些人其实也一直在发展DFT,
只不过现在文章看上去不怎么fancy,我觉得还处在积累阶段,这个基本上和
高温超导这个老牛肉差不多。DFT一个很有意思的事情是像LDA这种很ugly的东西,
居然在大部分情况下都挺work的,搞成hybrid改进并不明显。
对于把DFT当做工具的,懂底层原理和不懂的差别还是很明显的,而且真正
的大牛也主要是在想物理,code本身只不过是个实验工具。照STM和测光谱的水平
还有差别呢。
还有个好玩的事情,PR系列里前十引用的paper有6个是和DFT能带计算有关的,
top10另外还有两个RMP的。
算.
里
更加
想也 |
|
t****a 发帖数: 3544 | 9 我倒觉得LDA很好
后面发展的那些泛函, 搞不清楚其中的物理, 到底该怎么用. |
|
f**********r 发帖数: 61 | 10 It depends on the system considered.
For example, LDA overestimates the vdW interactions, GGA underestimates the
vdW interactions. So I use GGA+vdW to deal with organic system. |
|
v****x 发帖数: 498 | 11 LDA和GGA应该不会有大的差别
pseudo-potential的质量更关键 |
|
|
l**********n 发帖数: 72 | 13 It's quite unusual to have endohedral structure like this. Generally according
to the LDA calculation, the covalent bonding of the IV elements could easily
form a cage. While for metals, when the cluster size is small, the electrons
are quite energetic and very active. I know some metal clusters with 10-15 Fe
atoms but with hydrogen binding outside.
Tell me if you have any results. It's very nice to know. |
|
o****o 发帖数: 8077 | 14 这么久远的帖子。。。
市场分析用的LDA,CCA,MDS,MCA,MDPREF这些至少用过吧,虽然都是线性的模型,但是也不应该算是粗大糙的东西了
还有很多sampling,power calculation,DOE,survey的东西也是需要学习的。融会贯通了,需要的时候信手拈来,还能给business讲个不错的故事。 |
|
o****o 发帖数: 8077 | 15 这么久远的帖子。。。
市场分析用的LDA,CCA,MDS,MCA,MDPREF这些至少用过吧,虽然都是线性的模型,但是也不应该算是粗大糙的东西了
还有很多sampling,power calculation,DOE,survey的东西也是需要学习的。融会贯通了,需要的时候信手拈来,还能给business讲个不错的故事。 |
|
c*********t 发帖数: 340 | 16 我还真不知道有多维数据的t-test.。。ls可以讲讲吗
LZ你的情况,为什么不分别检验三个维度呢,可以得到多一点的信息
要是想三个维度一起考虑的话,可以试试LDA(linear discriminant analysis)
或者做个clustering analysis,看看它们怎么Separate
我比较入门级,等大师来讲:) |
|
c*********t 发帖数: 340 | 17 去wiki研究了一下,学到了好多啊,谢谢ls&lss
然后到处乱翻,看到
Mahalanobis distance is widely used in cluster analysis and classification
techniques. It is closely related to Hotelling's T-square distribution used
for multivariate statistical testing and Fisher's Linear Discriminant
Analysis that is used for supervised classification.
Hotelling's T-square distribution和Linear Discriminant Analysis原来是有关系的
我昨天想到lda,但是它是用来build classifier的,我想应该是种差不多原理的方法
。。但是就是不知道哪种方法,统计底子差>。<
再次谢谢:) |
|
a***r 发帖数: 420 | 18 在做一个课程project,用到nonparametric discrim
快做完了发现SAS不提供jackknife cross validation 的error rate
题目是个open question,倒也不是必须要这个,但是教授上课提到用R可以做
我看了半天,MASS里面似乎只提供lda和qda两种方法
如果是npar discrim,应该怎么做呢(做discrim分析和获得jack...error rate)?
谢谢大家! |
|
l*********s 发帖数: 5409 | 19
cononical variate and correlation analysis, reduced rank regression,
multiclass LDA, bagging, boosting, support vector machine,random
forest, blablabla |
|
A*******s 发帖数: 3942 | 20 i'm having a problem with adaboost. I try to write my own sas codes to
implement adaboost algorithm, using LDA(linear discriminant analysis) as the
base classifier and misclassfication rate as the loss function. However i
find out the weighted misclassfication rate increases at every step, goes to
.5 very soon and ends the procedure just after a few steps, and thus of
course does not help for improving the base model at all.
I check my codes many times but cannot find out my mistakes. So is it n... 阅读全帖 |
|
|
A*******s 发帖数: 3942 | 22 the original version of adaboost is not difficult to be implemented in SAS.
Just need to reweight the sample and use weight statement which is available
in almost every classification or regression sas procedure. However it is
said that a weaker base classifier like tree works better than a stronger
one like logit regression or LDA. And sas/stat doesn't have trees. |
|
A*******s 发帖数: 3942 | 23 你是搞LDA/QDA么?T test这个就相当于做多次anova,还不如直接搞一个manova。但是
效果应该不如forward/backward selection。或者用RDA来搞搞也行。
40000 |
|
A*******s 发帖数: 3942 | 24 我看你check normality又做t test,猜你大概想要做LDA。如果只是classification的
话,variable selection for high dimension的方法就多了。楼上提了几点你可以看
看。
truncated PCA用来classficiation效果不一定好,可以看看Hastie的那篇supervised
PCA文章。 |
|
w********t 发帖数: 96 | 25 大家好!
我想自学一些统计的课程。我们学校新开统计的program,所以也没有什么人可以问。
这些课程的名字如下,希望大家能够根据课程名字推荐一些经典书籍。硕士水平的就可
以。如果能够提供电子书下载资源不甚感激!
Fundamentals of Probability
Contemporary Statistical Inference
Advanced Regression Analysis I (L&GLM)
Advanced Regression Analysis II (GLM&LDA)
Applied Survival Analysis
Introduction to Statistical Computing(这个一门什么样的课?讲计算理论还是讲一
门软件)
谢谢大家提供宝贵意见! |
|
|
s********i 发帖数: 111 | 27 一个连续的predictor X,一个3-class categorical response Y,用R做分类,要求
给出每个class的(conditional)probability P(Y|X),应该用哪个函数?
P(X|Y)不知是什么分布,不想用LDA,这样考虑:
用density()估计f(X)和f(X|Y),然后P(Y|X) = f(X|Y)*P(Y)/f(X),取最大值,有什么
不妥吗?如果这么容易,R有专门的函数做吗?
多谢多谢,呵呵 |
|
发帖数: 1 | 28 大家好,
本人是研究生统计毕业,正在寻求一份与专业相关的工作,找工作好几个月了,海投简
历也没有任何消息,很是着急上火,还请大家帮忙内推。
本人有 SAS Base证书, SAS Advance也正在考,熟练用 R, SAS, SQL, Minitab 等。
还有 1 年的 Statistical Consulting experience,2年的teaching experience。会
一些machine learning的知识,如:classification(SVM, PCA&LDA, Random Forest,
Decision Tree),clustering (K-means, Hierarchical)等。
坐标亚特兰大附近,但是愿意被relocated根据工作需要。
还请大家帮忙内推,万分感谢!
再次谢谢!!! |
|
C*********e 发帖数: 587 | 29 1 .... ft ... do you have any idea why big data is hot now??? MapReduce, Big
Table, Apache Hadoop, etc, all are computer science
btw, most algorithms (theory to implementation), e.g., latent dirichlet
allocation (LDA), hashing, are created by CS ppl too
2. In IT firms, business decision is made by CS people (include machine
learning engineer, data engineer, etc), not DS ppl without CS background
3. In IT firms (Google, Facebook, etc), SDE salary /DS + engineer > pure DS
(without CS background) s... 阅读全帖 |
|
C*********e 发帖数: 587 | 30 1 ML没有包括所有的统计(for sure),但是对于分析数据有用的statistics,大都在里
面了. ML expert or researcher绝大部分都有很好的统计基础(学统计不需要有统计学
位)
ML/Data Mining/Information Retrieval, 最近20年那些有用的算法(SVM, boosting,
LDA, hashing, clustering, etc),基本都是CS的人发明的
2. CS对其他行业的改造自然要domain knowledge, Amazon对于零售业的改造就是如此,
same for Ebay etc. 不过这部分domain knowledge也不是pure data analyst的长处.
比如一个data analyst在制药业工作了很久,那自然对制药业有很多knowledge, 但如
果他换到零售业,又要重新学
3. 如果一个data analyst有了好的编程背景,不管在哪个公司都能用上的(IT or non-
IT), 那他就不是一个pure data analyst,而是data engineer了,不管是... 阅读全帖 |
|
s****h 发帖数: 3979 | 31 多谢楼主的努力。
粗看了一下,这个word2vec(还有glove)挺有意思的。
和LDA,传统的NLP啥的结合起来,可以有很多有趣的应用。
词出现的order还是没有考虑到,但是基于类似思路,设计一个考虑词的先后顺序的算
法貌似也可以成功。应该有一些group已经开始做了吧。有谁知道有什么成果么? |
|
|
b******g 发帖数: 88 | 33 NER 应该就可以,python 的nltk可以基本实现。如果做的复杂也许要用topic
modeling方面的东西,看看lda/llda. |
|
s****h 发帖数: 3979 | 34 楼上找得挺好,这两个方法应该都有效:
基于cluster的metrics,和entropy
看过有人这样弄:
方法A,和方法B,分别搞出一个vector
然后基于vector跑SVM, 方法A结果更好,所以号称方法A生成的vector更有代表性。
上次有人问LDA如何evaluate,不是有人回答么?当时没继续看如何做的,是不是也算? |
|
|
发帖数: 1 | 36 遇到一个聚类的问题,一直没有好的处理方法
原始数据是300个词的定义,我用LDA从定义中抽出关键词然后用word-net算出了pair
similarity.因此形成了一个300*300的similarity matrix.
我的设想是measure出词之间的distance,然后将他们聚类。
但我的理解是,这是一个高维空间,如果map到二维,距离就不能反应真实的语义差别。
请问各位
1) distance如何measure?
2)是否需要降维,还是就直接聚类。用何种算法?DBSCAN 或者Spectral Clustering
是否可以应用在这里?
3)聚类完了之后如何evaluate 聚类效果?
过去没有弄过这方面的数据,对聚类的理解也比较初级,希望各位指点一下。 |
|
l*******s 发帖数: 1258 | 37 首先没搞清你的目标到底是啥?
如果是就把这300个词聚类,那么不难,啥LSA LDA都可以,或者考虑下neutral
network language model,都有现成的实现。
至于evaluation,是个问题,目前要么靠目测,要么算不同k值下每个cluster从
centroid到各个点的距离之和,plot出来,看看拐点在哪,那个k值一般就是最好的。
或者你要是有label的数据,那就用类似classification的方法验证。 |
|