|
|
|
|
|
h***i 发帖数: 89031 | 6 笑个屁
那些基因的扯淡,都是些O2比O3更猴子之类 |
|
d*****u 发帖数: 17243 | 7 应该是聚类分析的结果
也叫unsupervised learning |
|
T**********s 发帖数: 2135 | 8 扬子晚报霸道 三年年级名次第一、世界顶级的计算机视觉会议CVPR审稿人,各种奖学
金拿到手软。清华大学一位学计算机的大三男生被网友曝光了超强履历表,让很多学计
算机专业的未来“程序猿”感慨自己瞬间变成“学渣”,而不少网友也惊呼“这不是学
霸是学神!学神,我想和你做朋友”。
学霸履历曝光 网友纷纷表示膜拜
“清华新一代学霸出现了!论文数量质量赶超老师,清华新一代学霸男神吴佳俊,2010
年从华东师大二附中考入清华大学计算机科学与技术系。三年年级名次第一、世界顶级
的计算机视觉会议CVPR审稿人,发表论文数量质量向老师看齐,各种奖学金拿到手软。
看到审稿人三个字疯了!学渣默默飘过。”昨天,人人网推荐的一个热门话题引来不少
网友的关注。
事件原由是清华大学学生李轻飏上传网络的一张照片,照片显示的是清华大学交叉信息
研究院大三学生吴佳俊参选2013年清华大学本科生特等奖学金的个人履历介绍。履历表
上各种获奖信息和成绩排名让不少网友感慨,“新学霸出现了!”李轻飏告诉记者,该
奖学金是清华大学最高级别的奖学金,全校仅10个名额左右。
对吴佳俊的个人简历,网友最称道的是其“CVPR2014审稿人”的... 阅读全帖 |
|
xt 发帖数: 17532 | 9 不能生可以离啊,我们这里有个就是这样的,大家好聚好散。 |
|
d*****u 发帖数: 17243 | 10 Y染色体类型按地域聚类得也很整齐
比如O只有远东地区才有较高分布,所以还是有一定可信度
当然分得太细就不太可靠了 |
|
Q***5 发帖数: 994 | 11 俺对脸识别也是外行,但也学过点儿相关的知识,说说俺的理解。不敢说俺说得都对,
至少给楼主解释下思路,说明这东东也并不那么神秘。
就拿上面有同学提到的两眼的距离举例(或更准确些,眼,嘴,鼻距离的比例),这样
,从一张脸的图像就可以提取得到一组数据(行话叫“features"). 然后通过这些
features区分人。
当然,具体操作时情况很复杂,比如从图像里自动找到眼,嘴,鼻就不简单。得到
features后,怎么分类也不容易。比如同一个人的“features”在不同照片里可能不一
样(人正脸和侧脸都会导致差别),所以简单的用数学里的距离效果肯定不好。但如果
有个大的图像库,并有标注那些图像是同一人的,那些不是,那就可以通过统计学习,
让识别系统知道如何聚类。 |
|
发帖数: 1 | 12 8位韩国美女 挑战中国人脸识别技术
亚洲四大奇术指的是泰国变性术、日本化妆术、中国PS术、韩国整容术,其中韩国整容
术虽让众多女性拥有一张美丽动人的脸庞,但“撞脸”现象频出,让大家傻傻分不清楚
,更不说那些脸盲症人群了。
可人类无法办成的事机器是否能做到?2月10日,八位韩国美女在韩国江陵奥林匹克公
园的阿里巴巴冬奥展馆挑战中国人脸识别技术。虽说这八位韩国美女面貌极其相似,其
中还有一对双胞胎姐妹,但在“Smart Pass”智能技术面前,全部败下阵来,被一一识
别出,让大家惊讶无比。有网民就调侃到这是技术与技术之间的碰撞:整容术VS人脸识
别技术。
人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术,也是最为激烈
的前沿领域之一。有资料显示,在国际权威人脸识别数据库LFW发布的最新名单上,中
国的人脸识别技术位居榜首,并且刷新了准确率纪录,达到99.80%,系全球最高。
之所以能做到这点,全依靠十大关键技术。分别是人脸检测、人脸配准、人脸属性识别
、人脸提特征、人脸比对、人脸验证、人脸识别、人脸检索、人脸聚类、人脸活体。通
过这些技术将人脸特征一步一步收集起来,然后分析、... 阅读全帖 |
|
d*****u 发帖数: 17243 | 13 所以上面两位嗷嗷叫死爹葬妈的我可以理解成从来没给中国纳过税?
这居然语言风格也能聚类。婊子牌坊还真不是人人都能立。 |
|
s**********a 发帖数: 1853 | 14 原来ML就是这个玩意儿啊?
我还以为什么因子分析,聚类分析,主成分分析,现在早没人搞了呢。
真是out了。 |
|
发帖数: 1 | 15 【 以下文字转载自 DataSciences 讨论区 】
发信人: hydrophobic (茶茶), 信区: DataSciences
标 题: 我在美国当猎头
关键字: 数据科学,猎头,面经
发信站: BBS 未名空间站 (Wed Aug 15 17:11:51 2018, 美东)
在美国做猎头和职业培训两年多了,专攻数据科学家(Data Scientist),审了一千多
份简历,面了几百人,简单说说一些个人的经验和感受。数据科学是一门新兴行业,对
专业的要求比较高,我经手的candidate基本都是个各个领域的PhD,最后加入的团队也
都是在数据行业肯投资,发展快的一线技术公司。有些经验可能不适合其他行业,请自
行斟酌。
1. 招人难,招数据科学家更难
先说说什么是数据科学吧。2010年左右,硅谷几大发展势头迅猛的公司(我不说你们也
知道,不外乎Facebook, LinkedIn, Twitter,Apple, Amazon几家,这里不提Google因
为G家早几年就自己闷头发展Google X了,数据科学对他们来说太小儿科了)意识到数
据堆里有黄金,简单作几个模型预测就可以... 阅读全帖 |
|
a***m 发帖数: 5037 | 16 深度学习的成功是基于两条:数据本身的内在规律,深度学习技术能够揭示并利用这些
规律。
数据科学(或者信息科学)中的基本定律(或者更为保守的,基本假设)可以归结为:
1. 流形分布定律:自然界中同一类别的高维数据,往往集中在某个低维流形附近。
2. 聚类分布定律:这一类别中不同的子类对应着流形上的不同概率分布,这些分布之
间的距离大到足够将这些子类区分。
深度学习的主要目的和功能之一就是从数据中学习隐藏的流形结构和流形上的概率分布
。 |
|
d*****u 发帖数: 17243 | 17 这个有很多算法。
第一,可以看听过那首歌的用户一般还听什么歌。
第二,可以对歌曲本身进行聚类。 |
|
d******a 发帖数: 32122 | 18
平话人在遗传结构上更靠近
南方原住民族,而与汉族距离甚远。
因此,我们得出结论:桂北平话人在遗传结构上并非汉族的后裔,他们的遗传成分主要
源于当地
少数民族。是被汉族在语言文化,自身认同感上同化了的广西原住居民。
桂北平话汉族的遗传成分
主要源于当地少数民族
甘瑞静 1
,潘尚领 1
,覃振东 2
,蔡晓云 2
,徐杰舜 3
,李辉 2
1 广西医科大学基础医学院,南宁 530021;2 复旦大学生命科学学院现代人类学教育
部重点实验室,上海 200433;
3 广西民族大学民族学与社会学学院,南宁 530006
摘要:目前,对汉族群体遗传结构的研究已经日趋完善和深入,除平话人外的汉族九大
支系人群 Y 染色体和
mtDNA 的遗传结构都已经有了相关研究和报道,他们无一例外的都显示了汉族在遗传结
构上的高度一致性。
平话人作为汉族一支古老支系,杂居于侗台、苗瑶等南方少数民族人口占局部优势的广
西及其周边地区,其
遗传结构的归属问题越来越受到关注。本文对中国广西壮族自治区北部贺州、富川县、
罗城县、金秀县和武
宣县五个地区的平话汉族人群及其周边部分壮族,侗族,仫佬族,拉伽人和瑶族共 4... 阅读全帖 |
|
i****o 发帖数: 11 | 19 貌似水很深
其实谁要有空,跑一个聚类分析就知道个大概了
: 本版职业发帖第一人绝对是老轮子,几十年如一日,每天从早到晚不停。另一个
就是王
: 五了,一发一大批,都是短时间内一起贴出来,一看就是按要求事先准备好的,
可能是
: 团队制作。而且基本不回帖子,自己空贴顶自己倒是很来劲。
|
|
|
|
|
s*****r 发帖数: 11545 | 23 土鸡男的其实跟小黄人也挺像的,黑直发棕眼睛泛黄肌肤,但土鸡的祖先希腊人就显得
高大上多了,咋回事?
: 应该是土耳其的大部分基因本来就是希腊的。
|
|
发帖数: 1 | 24 不关心她的研究,只是这几天看她抢人血馒头那个劲儿很恶心才去看文章的
病毒学那篇扫了一眼,看到一个聚类树,以为是灌水文章,没注意是review
-1 |
|
m******8 发帖数: 2153 | 25 与其被动地同意别人的看法,不如理智地表示反对
在我看来,答案显而易见:有关联,关联甚大。
我的朋友中,有些认为韩寒有道理,有些认为方舟子有道理。我一直以为,对此事
的看法,朋友之间,观点有差异再正常不过,所谓“君子之交,和而不同”,本应如此。
作为少数群体中的一员,也作为一个科学家,对方韩之争,我关注的重点是争论的
过程,以及由此衍生出的问题。对我来说, “韩寒的作品是否有他人代笔?”或“方
舟子的质疑是否属于诽谤?”这两个问题的结论,反而相对次要。
没有人否认,同性恋议题已经是而且还将是引发剧烈争论的公众议题。同志运动的
根本诉求,无非是希望在这场长期争论中,通过言论、行动或其他表现,争取更多的人
理解同性恋,进而谋求同志们社会生活方方面面的改善。所以我们希望揭露恐同的危害
,我们尝试沟通,我们试图获得更多的理解…我们要怎样做,才能实现这些愿望?
我的答案是:使得这些愿望实现的方法应该合乎逻辑,合理使用社会人文学科和自
然科学的证据、方法和工具,并采取合理的论证策略,组织得体的言论,进而影响沉默
的大多数。我希望多数人会认同这个答案。所以,要想通过同性恋议题的争论赢得社会
大众,取决... 阅读全帖 |
|
T*******e 发帖数: 6425 | 26 写在前面:(前几天写的,懒得改了)
服务器崩溃了??在这个没有了网络的宁静的夜晚,心也难得如此的平静下来。。。
随意的放入一张CD, 里面悠然飘出一首熟悉的老歌: 糊涂的爱
想来很多人都对这个歌不陌生, 今天听来, 依然觉得不错。无限感慨之余,进而神经
错乱、湿性大发,竟然抑止不住想把些许感慨写下来和大家分享。。。。。
写完以后, 却又不知道先该发在哪儿。按规类嘛应该发到那个不熟悉的版面去,其实
也偶尔去那儿得, 可是总觉得那儿水太深、也太严肃, 把音乐玩成了技术活的话,
也就没有意思了。而发在这儿嘛,显然是有些文不对版、招认讨厌的。可是, 既然抓
耳挠腮的憋出来了,如果又不给人看的话,大抵都是不甘心、会撕心裂肺、没准还会憋
出毛病来的。
Z Turn 了半天,可就是忘不了这儿:一来嘛, 版面重启, 一下子可能还沉淀不了什
么热点, 我可以来一个乘虚而入, 就当是开幕前的垫场演出、活跃气氛罢了;二来嘛
,这儿本就是三呆子最近的蛰伏栖息之地,有很多熟悉的水友在这儿,琢磨着即使我写
的不是什么指点江上、针砭时事而能登大雅之堂的激扬文字,我的水友们大概也许会留
些情面、不会狠扁的。再有嘛,到 |
|
k********6 发帖数: 6 | 27 单位介绍
广州中国科学院软件应用技术研究所(中国科学院软件研究所广州分部,简称
广州软件所),成立于2011年05月27日,是由广州市人民政府与中国科学院共建的具有
独立法人资格、行政上隶属于广州市人民政府的直属事业法人单位,是广州市政府创新
发展模式的试点单位之一。
广州软件所同时也是中科院软件所广州分部,充分依托中科院软件所强大的科
研能力,以市场为导向,结合广州地区的区位政策优势、人才资源优势及 市场优势,
与当地政、产、学、研广泛合作,深入开展智慧城市和云计算产品的研发、生产和销售
工作,促进广州地区软件产业的快速发展。
预期在2014年,广州软件所人员规模达到550人,通过国家、中科院和广东省的
各类人才计划,聘任10名以上学科、领域带头人,引进40名 以上科研骨干,形成科技
成果50项;申请国家工程中心或实验室,孵化2家以上软件企业,形成产业集群,年销
售收入超过4000万元,带动企业新增销售收入 超过4亿元。
岗位1:数据挖掘分析助理研究员/研究实习员
岗位职责:
1、研究、分析业务数据,给业务部门提供优化建议;
2、研究大数据... 阅读全帖 |
|
f*******l 发帖数: 8811 | 28 【 以下文字转载自 ChinaNews 讨论区 】
发信人: funnymall (Sam), 信区: ChinaNews
标 题: 西南交大副校长黄庆因论文抄袭被取销博士学位
发信站: BBS 未名空间站 (Wed Jul 15 20:58:48 2009, 美东)
成都7月15日电(刘贤)7月15日下午5点,西南交通大学校长陈春阳向媒体宣布了副校
长黄庆学术不端问题的处理办法:取销黄庆管理学博士学位,撤销其研究生导师资
格。
放假后的西南交通大学本来清幽宁静,绿柳拂波的镜湖旁却从下午四点开始陆
陆续续聚集了数百人。西南交大的助理以上干部和研究生导师在只开了一扇小门的
大楼前依次签到,参加处理副校长黄庆学术不端的内部会议。
校方此次处理的并不是十四日起在网上热议的黄庆学术论文抄袭问题,而是性
质更为严重的学位论文抄袭问题。陈春阳特别指出,校方对网络上的举报内容不会
理睬。此次处理所涉及论文是黄庆的博士论文《国有企业集团研究与铁路企业集团
实证分析》,而非网上所传的发表于期刊上的学术论文《一种新的综合评价方法―
―粗糙集灰色聚类评价》和《新世纪管理科学发展的战略思考》。
据介绍,校方 |
|
发帖数: 1 | 29 太误人子弟,毁了多少博士,二学历二学位都不行,只会c渣渣,数学不行,统计不行
,概率不行,分类和聚类都不知道是啥区别,搞毛阿,还能腾牛,还能full,妈蛋不就
是个女的吗 |
|
m*****f 发帖数: 1243 | 30 一个简单的性质,假设最左边点坐标为A1=0, 然后依次为A2, A3....An
如果 k=1, 可以证明k必然在Am和A(m+1)之间 (m = n/2, n为偶数), 或k和A(m+1)重
合(n为奇数). 也就是说左边和右边的点个数相等,
用data mining中的k-means方法, k已经给定, 初始聚类点为
A(n/2k), A(3*n/2k)....A((2k-1)n/2k)
其实就是把n个点分成K段然后取中点, 利用了上述性质
最后算法给出K个cluster 中心点即为答案 |
|
f*****w 发帖数: 52 | 31 这就是我被问的第一个问题。。。。我是说说优化所有雇员去最近站点的距离的和。貌
似人家的意思要用什么kmeans聚类分析,我虽然学过,但是全忘光了。我就说可以用遗
传算法优化。。。。 |
|
j**l 发帖数: 2911 | 32 给定地球表面上的一个点集,集合中每个点的坐标用经纬度表示。你如何找到所有的点
that are within N km?
在平面上的类似问题,是不是就是模式识别中的聚类问题? |
|
|
|
d********w 发帖数: 363 | 35 1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
算时间
2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
基站一样
4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒1/10
到橙汁,问橙汁中的咖啡跟咖啡中的橙汁数量关系
5. 判断有向图中是否有环
6. 如何抽取feature,如何判断2个用户的相似度,维度大(几千)而稀疏(很多缺失
),比如a用户
[{age:30}, {salary: 100}, {score: 0.21}, {xxx:aas}, ....]
b用户
[{age:30}, {gender: 1}, {score: 0.21}, {xyz:aas}]
... 阅读全帖 |
|
d********w 发帖数: 363 | 36 1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
算时间
2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
基站一样
4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒到橙汁,最后它们体积仍然是10,问橙汁
中的咖啡跟咖啡中的橙汁数量关系
5. 判断有向图中是否有环
6. 如何抽取feature,如何判断2个用户的相似度,维度大(几千)而稀疏(很多缺失
),比如a用户
[{age:30}, {salary: 100}, {score: 0.21}, {xxx:aas}, ....]
b用户
[{age:30}, {gender: 1}, {score: 0.21}, {xy... 阅读全帖 |
|
b*********6 发帖数: 19 | 37 面了一些公司,目前收到了Amazon和Linkedin的intern offer,在这两家公司之间有点
犹豫不定。要下周一回复,时间比较紧张,所以来版上求助。
Amazon的是general offer,但貌似只有确定了才可以知道自己被分配到哪里,要选择
一个职位的优先度,我现在这个时间点,恐怕好的职位都被分配光了。
Linkedin是data scientist的实习职位,项目听起来比较有趣,是对用户的数据分析,
然后向用户推荐最有可能的connection等。涉及机器学习的算法和聚类,graph theory
等。我主要是感觉从我的boss的资料来看他挺偏研究的,不知道对未来找工作是不是有
些限制。(就是感觉我如果未来想去做研究的话比不过phd,所以感觉还是实现靠谱,
当然实习的工作估计也就是打打下手)
我现在在读研究生一年级,打算二年级硕士毕业后就开始找工作。 |
|
b*********6 发帖数: 19 | 38 面了一些公司,目前收到了Amazon和Linkedin的intern offer,在这两家公司之间有点
犹豫不定。要下周一回复,时间比较紧张,所以来版上求助。
Amazon的是general offer,但貌似只有确定了才可以知道自己被分配到哪里,要选择
一个职位的优先度,我现在这个时间点,恐怕好的职位都被分配光了。
Linkedin是data scientist的实习职位,项目听起来比较有趣,是对用户的数据分析,
然后向用户推荐最有可能的connection等。涉及机器学习的算法和聚类,graph theory
等。我主要是感觉从我的boss的资料来看他挺偏研究的,不知道对未来找工作是不是有
些限制。(就是感觉我如果未来想去做研究的话比不过phd,所以感觉还是实现靠谱,
当然实习的工作估计也就是打打下手)
我现在在读研究生一年级,打算二年级硕士毕业后就开始找工作。 |
|
l****p 发帖数: 397 | 39 最后一轮面试由4次视频面试组成,每次45分钟,总共持续3小时。相比前两轮面试,这
轮的面试官都是比较有经验的工程师,问的问题难度也相应加大。
第一次面试。上来先问一些我研究相关的问题。然后出编程题:给一个二叉树,找出最
长不重复的结点间路径。
第二次面试。面试官大部分时间都在聊他们组在做的项目,面临的问题,然后问我的兴趣
第三次面试。来自另外一个组的面试官继续聊他的工作,关于performance test方面的
。然后问我是不是对统计学很熟,我说了解一些,用得更多的是数据挖掘和机器学习的
。接下来他就问我聚类算法,我先把k-means给他说了一下。然后问如果数据量很大怎
么办。我说可以用一些top-down或bottom-up的算法,想办法分布到多台机器上去算。
接下来又问我如何构建一个Bayesian Network,我说我用现成的包,自己没写过,然后
一边回忆Bayesian Network。他好像不想拷问我具体的原理,就开始说他怎么用
Bayesian Network来查找性能瓶颈的。他问我一般跑那些数据挖掘的程序要花多少天,
我说几个小时到一两天吧。那时间主要花在哪?我说把数... 阅读全帖 |
|
l****p 发帖数: 397 | 40 最后一轮面试由4次视频面试组成,每次45分钟,总共持续3小时。相比前两轮面试,这
轮的面试官都是比较有经验的工程师,问的问题难度也相应加大。
第一次面试。上来先问一些我研究相关的问题。然后出编程题:给一个二叉树,找出最
长不重复的结点间路径。
第二次面试。面试官大部分时间都在聊他们组在做的项目,面临的问题,然后问我的兴趣
第三次面试。来自另外一个组的面试官继续聊他的工作,关于performance test方面的
。然后问我是不是对统计学很熟,我说了解一些,用得更多的是数据挖掘和机器学习的
。接下来他就问我聚类算法,我先把k-means给他说了一下。然后问如果数据量很大怎
么办。我说可以用一些top-down或bottom-up的算法,想办法分布到多台机器上去算。
接下来又问我如何构建一个Bayesian Network,我说我用现成的包,自己没写过,然后
一边回忆Bayesian Network。他好像不想拷问我具体的原理,就开始说他怎么用
Bayesian Network来查找性能瓶颈的。他问我一般跑那些数据挖掘的程序要花多少天,
我说几个小时到一两天吧。那时间主要花在哪?我说把数... 阅读全帖 |
|
d****o 发帖数: 1055 | 41 你理解了基本的分类和聚类问题怎么做。
知道怎么建立feature,针对实际问题。
然后背一两个比较popular的model。比如SVM。你知道个大概意思。
然后就是吹牛。 |
|
f*****7 发帖数: 92 | 42 您没理解我的意思
也怪我没说清楚
我的意思是poj ac 1k+题目的只是凤毛麟角
面试中遇到的题目
比如inversion count,ugly numbers,直方图最大矩形,最大全1聚类
都是poj的原题
当然poj也有水题
比如financial management,相加12个数字求平均就ac了
但绝大多数题目还是要扎实的算法,coding功底的
总之,能ac 100+题目(非水题)的很多
做到这份上,基本就有好offer了
至于怎么定义大牛,这个仁者见仁
就此打住吧~~谢谢您的合作 |
|
|
|
t****a 发帖数: 1212 | 45 右键点击图片,view image,然后可以放大了看。
回头有时间我去找d3做个interactive的。
二爷,你说的summary是指什么阿?number of influenced language? 类别归属关系? |
|
p*****2 发帖数: 21240 | 46
讲讲你看了之后的感受,心得什么的。任何都行。 |
|
t****a 发帖数: 1212 | 47 呵呵,我还没啥心得,罗列一下基本数据
按照影响启发了其他语言的数目排序:
C Lisp
20 20
Smalltalk Scheme
18 16
Java Pascal
15 13
C++ ... 阅读全帖 |
|
|
p*****2 发帖数: 21240 | 49 对了大牛,你 对FP编程的性能有深入一些的体会吗?比如比命令式编程比,一般是快
还是慢,慢多少。
我感觉对FP方式编程性能不是很有底。 |
|
t****a 发帖数: 1212 | 50 偶会的语言有一些,很熟的寥寥无几。FP语言抽象级别高,肯定是要慢的,但通常在一
个数量级,比如haskell比c慢3-5倍。个人感觉,用FP就是追求强大的语言feature,
productivity,并行化,代码质量,而不是运行效率了。 |
|