由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 大数据日报 2015年2月楼
相关主题
大数据日报 2015年3月楼Hadoop Spark 学习小结[2014版] (转载)
机器学习日报2015年2月楼如何提高Spark在Yarn上的内存使用率
机器学习日报 2015年3月楼通过日志分析yarn app实际内存用量
大妈想找数据库方面的工作 是否需要证书 在哪里上培训班?有没有谁自己买服务器组建几个clusters跑hadoop大数据的?
How to prepare for the DS interview?big data software engineer或者data scientist 工作机会推荐 (转载)
大数据日报上线了!诚心请教Spark EMR配置
Hadoop Spark 学习小结[2014版] (转载)[内推] NetBrain tech (software engineer等)职位内部推荐机会
做个调查了解一下,有公司用HP Vertica 和 Hana 这些 data base的么?用人用过DigitalEdge吗?
相关话题的讨论汇总
话题: 数据话题: 关键词话题: docker话题: 日报话题: 订阅
进入DataSciences版参与讨论
1 (共1页)
m***r
发帖数: 359
1
大数据日报 2015-02-01
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-01/short.html
1) 【深入解析NoSQL数据库的分布式算法】 by @互联网运维沙龙
关键词:数据库, NoSQL
【深入解析NoSQL数据库的分布式算法】 [1]
[1] http://www.csdn.net/article/2015-01-30/2823782#0-tsina-1-19619-397232819ff9a47a7b7e80a40613cfe1
2) 【Powerstrip串联Docker扩展工具】 by @perldaily
关键词:虚拟化, Docker, 容器
#devopsweekly# Powerstrip 项目 [1] 之前曾经发布Flocker的ClusterHQ公司又发布
一个帮助串联Docker扩展工具的东西
[1] https://clusterhq.com/blog/powerstrip-prototype-docker-extensions-today/
3) 【免费大数据资源】 by @Mindey
关键词:分析
免费大数据资源:『The Free 'Big Data' Sources Everyone Should Know』 [1] (
www.datasciencecentral.com/profiles/blogs/the-free-big-data-sources-everyone
-should-know)。
[1] http://www.datasciencecentral.com/profiles/blogs/the-free-big-data-sources-everyone-should-know
4) 【用TLA+讲授分布式系统课程】 by @登州知府
关键词:数据库, 教育网站, 课程
用TLA+讲授分布式系统课程: [1] 课程主页: [2] 应用总结: [3] TLA+的主要用途
是验证分布式算法的正确性。AWS构建S3, DynamoDB, EBS, 分布式锁管理器等都用到
TLA+,Raft作者的博士论文也是用TLA+证明Raft的正确性。
[1] http://muratbuffalo.blogspot.com/2014/08/using-tla-for-teaching-distributed.html
[2] http://www.cse.buffalo.edu/~demirbas/CSE586.html
[3] http://muratbuffalo.blogspot.de/2015/01/my-experience-with-using-tla-in.html
5) 【世界上最大的300个都市区数据】 by @牛津-小裁缝
关键词:分析, 教育网站
美国布鲁金斯研究所每两年发布的GLOBAL METRO MONITOR MAP,包含世界上最大的300
个都市区,数据来源于Brookings analysis of data from Oxford Economics, Moody
’s Analytics, and the U.S. Census Bureau.网址: [1]
[1] http://www.brookings.edu/research/reports2/2015/01/22-global-metro-monitor?utm_source=Twitter&utm_medium=Social&utm_campaign=BrookingsInst02011&utm_content=BrookingsI...
--------
完整版 23条
http://bd.memect.com/archive/2015-02-01/long.html
m***r
发帖数: 359
2
大数据日报 2015-02-02
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-02/short.html
1) 【Kafka在linkedin里的使用情况以及愿景】 by @湾区日报BayArea
关键词:计算框架, Rao Jun, 流计算
Kafka在linkedin里的使用情况以及愿景 [1] kafka也是搭建scalable的web app的万金
油。看看在linkedin里是怎么用的。
[1] http://wanqu.co/2015-02-02-kafka-linkedin.html
2) 【Spark生态系统解析及基于Redis的开源分布式服务Codis】 by @CSDN云计算
关键词:会议活动, 计算框架, 数据库, Hadoop, Spark, 陈超, 活动, 刘奇
【Spark生态系统解析及基于Redis的开源分布式服务Codis】在第九期“七牛开发者最
佳实践日”上,陈超 @CrazyJvm 就Spark整个生态圈进行了讲解:为什么要选择Spark
,与Hadoop进行了对比,Spark缘何如此之快等,而刘奇 @goroutine 则分享豌豆荚在
Redis上的摸索和实践。 更多精彩请戳: [1]
[1] http://www.csdn.net/article/2015-02-02/2823796-spark-codis-crazyjvm-goroutine
3) 【揭秘云杉网络混合云核心技术:混合云中的企业级IT服务】 by @SDNLAB
【揭秘云杉网络混合云核心技术:混合云中的企业级IT服务】云计算已经成功落地,甚
至可以在生活中感受到它的存在,毋庸置疑云计算已经逐渐普及。而混合云是最受推崇
的,混合云既能帮助企业向互联网转型,又能保留原有业务,企业何乐而不为呢? [1]
[1] http://www.sdnlab.com/7842.html#0-tsina-1-92904-397232819ff9a47a7b7e80a40613cfe1
4) 【移动云存储服务平台Parse下的iOS安全分析】 by @FreeBuf黑客与极客
关键词:存储, 云服务
【移动云存储服务平台Parse下的iOS安全分析】Parse是由 YC 孵化出来的、专为移动
应用提供后台服务的云计算平台,为开发者包办繁琐的后台服务。但或许正是Parse这
种简单的产品体验,让开发者遗忘了安全问题以及漏洞。详情: [1]
[1] http://www.freebuf.com/articles/system/58001.html
5) 【关于容器,Google是这么想的】 by @InfoQ
关键词:虚拟化, Kubernetes, 容器
【关于容器,Google是这么想的】通过借鉴他们在这一技术领域十年的经验,谷歌云平
台团队撰写了一系列的文章分享其对容器的看法,这系列文章解释了容器集群和他们所
定义特征背后的逻辑。之后又向读者展示了如何在Kubernetes上应用这一切。 [1]
[1] http://www.infoq.com/cn/news/2015/02/google-series-containers
--------
完整版 36条
http://bd.memect.com/archive/2015-02-02/long.html
m***r
发帖数: 359
3
大数据日报 2015-02-03
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-03/short.html
1) 【CCF 2015年大数据发展趋势预测】 by @刘知远THU
关键词:分析, 应用, 可视化, 资源
CCF大数据专家委员会推出《2015年大数据发展趋势预测》,提到2015年的十大发展趋
势之一是结合智能计算的大数据分析成为热点;最受瞩目的技术包括:深度学习、内存
计算/实时分析、数据挖掘、可视化分析。还有很多有意思的调研和分析结果。 [1] #
新浪微盘# [2]
[1] http://www.ccf.org.cn/sites/ccf/zlcontnry.jsp?contentId=2842044881654
[2] http://vdisk.weibo.com/s/AUX2AEFBpP16
2) 【HP Helion OpenStack之技术延伸与创新看】 by @InfoQ
关键词:云服务, OpenStack
【看HP Helion OpenStack之技术延伸与创新】2014年惠普公司作为OpenStack社区总贡
献量排名第一的白金级会员,向HP Helion OpenStack中注入被深入优化和具有创新意
义的“七种武器”,使得HP Helion OpenStack具有特有的强大技术延展性,实现技术
与使用体验的正向迭代。 [1]
[1] http://www.infoq.com/cn/news/2015/02/hp-helion-seven-powerful-project
3) 【推荐关注James Hamilton】 by @何_登成
关键词:数据库, James Hamilton
向团队推荐了James Hamilton,一个横跨数据库、架构、数据中心、云计算的神人!做
数据库,必看他的《Architecture of a Database System》,互联网架构,必读其《
Designing & Deploying Internet-Scale Services》,数据中心和云计算更不必说...
所有资料均可从其个人主页上下载: [1]
[1] http://mvdirona.com/jrh/work/
4) 【《信号与噪声》:为什么大数据时代的预测更容易失败?】 by @虎嗅网
关键词:书籍, 应用
【《信号与噪声》:为什么大数据时代的预测更容易失败?】黑天鹅事件的发生很大程
度上归咎于糟糕的预测,预测者们被信息中的噪声干扰忽视了真正信号。如何能从海量
数据中筛选出真正的信号做出接近真相的预测?被《纽约时报》评为未来十年内最重要
书籍之一《信号与噪声》做了解答 [1]
[1] http://www.huxiu.com/article/107711/1.html
5) 【Python和数据科学的起步指南】 by @Python开发者
关键词:分析
《Python和数据科学的起步指南》Python拥有着极其丰富且稳定的数据科学工具环境。
遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke)。在这篇文章
中,我会一步一步指导你怎么进入这个PyData丛林。 [1] ( @emj306 翻译,欢迎加入
翻译小组: [2] )
[1] http://python.jobbole.com/80853/
[2] http://www.jobbole.com/groups/6/
--------
完整版 43条
http://bd.memect.com/archive/2015-02-03/long.html
m***r
发帖数: 359
4
大数据日报 2015-02-04
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-04/short.html
1) 【阿里巴巴技术专家杨晓明:基于Hadoop技术进行地理空间分析】 by @心开始123
关键词:计算框架, Hadoop, 杨晓明
发表了博文《阿里巴巴技术专家杨晓明:基于Hadoop技术进行地理空间分析》【编者按
】交通领域正产生着海量的车辆位置点数据。将这些车辆位置信息和道路进行关联的统
计操作则是一项颇为浩大的工作,而随着Had [1]
[1] http://weibo.com/p/230418bcfc8a050102vg14
2) 【雅虎开源Kafka集群管理器】 by @网路冷眼
关键词:计算框架, 代码, 流计算
【雅虎开源Kafka集群管理器】 [1] Kafka在雅虎内部被很多团队使用,媒体团队用它做
实时分析流水线,可以处理高达20Gbps(压缩数据)的峰值带宽。为了简化开发者和服务
工程师维护Kafka集群的工作,构建了一个叫做Kafka管理器的基于Web工具.GitHub地址
[1] http://yahooeng.tumblr.com/post/109994930921/kafka-yahoo
[2] https://github.com/yahoo/kafka-manager
3) 【A New Year in Data Science: ML Unpaused】 by @爱可可-爱生活
关键词:分析, 资源, 幻灯片
[幻灯]《A New Year in Data Science: ML Unpaused》(Data Day Texas 2015) [1]
非常精彩的报告,讲数据科学的内涵和发展,讲机器学习为数据科学注入的新活力,见
解精辟,其间介绍的另外几个报告也很精彩,推荐给对数据科学和机器学习感兴趣的朋
友 云: [2]
[1] http://www.slideshare.net/pacoid/a-new-year-in-data-science-ml-unpaused
[2] http://pan.baidu.com/s/1i3Bt8bj
4) 【MongoDB 3.0正式版即将发布】 by @TechTarget数据库
关键词:数据库, MongoDB
MongoDB 3.0正式版即将发布。MongoDB 3.0 在性能和伸缩性方面都有非常巨大的提升
,内建 WiredTiger 存储引擎,提供无门闩、非堵塞算法来利用先进的硬件平台来提升
性能。MongoDB 3.0还实现了文档级别的并发控制,因此大幅提升了大并发下的写负载
。详细: [1]
[1] http://www.searchdatabase.com.cn/showcontent_87630.htm?info=sinaweibo
5) 【DataStax收购TinkerPop团队】 by @刘江总编
关键词:数据库
刚发现图计算框架TinkerPop 1月16日已经成为Apache孵化项目了: [1] 转推到 @极客
头条 TinkerPop最初由图便利语言Gremlin发展而来,现在有一组相关项目组成,每个
都有自己的卡通形象,凑在一起非常可爱。
[1] http://tinkerpop.incubator.apache.org/
--------
完整版 37条
http://bd.memect.com/archive/2015-02-04/long.html
m***r
发帖数: 359
5
大数据日报 2015-02-05
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-05/short.html
1) 【大数据解决方案:国美在线Apache Hadoop的大数据平台】 by @中国云计算论坛
关键词:计算框架, Hadoop
【大数据解决方案:国美在线Apache Hadoop的大数据平台】·Hadoop数据仓库有效实现
数据整合,存储商品数据、用户数据、交易数据、库存数据、物流数据等的最实时数据
。通过大数据平台的实时SQL分析引擎关 联分析,更加高效、快速、全面的生产业务报
表 [1]
[1] http://www.thebigdata.cn/Hadoop/13398.html
2) 【手把手教你用Docker部署一个MongoDB集群】 by @DockerOne
关键词:数据库, 虚拟化, Docker, MongoDB, 容器
【手把手教你用Docker部署一个MongoDB集群】MongoDB是一个介于关系数据库和非关系
数据库之间的产品,是非关系数据库当中最像关系数据库的。支持类似于面向对象的查
询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能。本文介绍了如何使用
Docker搭建MongoDB集群。 [1]
[1] http://dockerone.com/article/181
3) 【为什么目前的PaaS都没有成功?】 by @DockerOne
关键词:虚拟化, 云服务, Docker, PaaS, 容器
【为什么目前的PaaS都没有成功?兼谈云计算的发展方向】本文通过对操作系统历史的
回顾,思考PaaS是否能从Unix操作系统中汲取历史经验,成为新一代的人机交互的基础
,总体来说,这是一篇讨论设计思路而非工程实践的文章。希望能引发多更多考虑底层
架构的同学的思考。 @IT人 [1]
[1] http://dockerone.com/article/182
4) 【Kaggle发布的数据科学代码教学】 by @爱可可-爱生活
关键词:分析, Aaron Sander, 课程
[文章]《National Data Science Bowl - Tutorial》 [1] Kaggle官方发布,由Aaron
Sander等人写的简短教程,全套流程实际代码教学,让你迅速开始自己的Kaggle Data
Science Bowl之旅
[1] https://www.kaggle.com/c/datasciencebowl/details/tutorial
长微博图:http://ww2.sinaimg.cn/large/5396ee05jw1eoyjd85xzqj20itad5e82.jpg
5) 【构建大型云计算平台分布式技术的实践】 by @互联网运维沙龙
关键词:产业, 章文嵩
【构建大型云计算平台分布式技术的实践】章文嵩博士是阿里集团的高级研究员与副总
裁,主要负责基础核心软件研发和云计算产品研发、推进网络软硬件方面的性能优化、
搭建下一代高可扩展低碳低成本电子商务基础设施。他也是开放源码及Linux内核的开
发者, [1]
[1] http://www.infoq.com/cn/news/2014/07/aliyun-distributed
--------
完整版 36条
http://bd.memect.com/archive/2015-02-05/long.html
m***r
发帖数: 359
6
大数据日报 2015-02-06
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-06/short.html
1) 【成就完美数据科学家的六个技巧】 by @爱可可-爱生活
关键词:分析
[文章]《6 Tips for Being an Awesome Data Scientist》 [1] 成就完美数据科学家
的六个技巧:培养卓越的沟通技巧、洞悉数据而不仅仅了解数据、善用外部数据洞察全
局而不局限于内部数据、善于把握和坚持问题的实质(根本)、善于重用而不是重复创造
、做好过程(流程)控制等
[1] http://smartdatacollective.com/eran-levy/296501/6-tips-being-awesome-data-scientist
长微博图:http://ww4.sinaimg.cn/large/5396ee05jw1eoyjtsdzb9j20h713l13u.jpg
2) 【IBM的困境与12306的革命】 by @界面
关键词:云服务
【IBM的困境与12306的革命】随着云计算普及,IBM的日子越来越难过。公司们都关掉
自家数据中心,把东西转到云端。12306网站自从2012年开始发展,一开始使用了IBM的
小型机。不过,它也开始逐步向云计算方面进发。阿里巴巴的云计算开始负责其余票查
询系统,75%的业务是由阿里云承载。 [1]
[1] http://www.jiemian.com/article/232173.html
3) 【《数据科学实战》】 by @互动出版网china-pub
关键词:分析, 书籍, 课程
#新书预售#《数据科学实战》谷歌、微软等公司一线数据科学家真知灼见。本书脱胎于
哥伦比亚大学“数据科学导论”课程的教学讲义,它界定了数据科学的研究范畴,是一
本注重人文精神,多角度、全方位、深入介绍数据科学的实用指南,堪称大数据时代的
实战宝典。预售地址: [1] @图灵教育
[1] http://product.china-pub.com/4581294
4) 【上海数慧2015-2018技术发展思路】 by @城市数据派-UDParty
关键词:应用, 规划, 苏乐平
【数慧大讲堂】苏乐平:上海数慧2015-2018技术发展思路。主要内容:智慧的规划流
程+规划知识管理+规划大数据+移动互联与规划云。全盘规划、全新整合、全面深化的
信息化建设时代已经来临。[围观]2015年或许是规划信息化全面技术革新的新元年,你
同意吗?[最右] 看看数慧的思路! [1]
[1] http://www.udparty.com/news.php?act=view&id=880
5) 【Flume-ng 的原理和使用】 by @SegmentFault
关键词:日志服务
【Flume-ng 的原理和使用】Flume 是 Cloudera 提供的日志收集系统,具有分布式、
高可靠、高可用性等特点,对海量日志采集、聚合和传输,Flume 支持在日志系统中定
制各类数据发送方,同时,Flume 提供对数据进行简单处理,并写到各种数据接受方的
能力…… [1]
[1] http://segmentfault.com/blog/javachen/1190000002532284
--------
完整版 41条
http://bd.memect.com/archive/2015-02-06/long.html
m***r
发帖数: 359
7
大数据日报 2015-02-07
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-07/short.html
1) 【OpenStack架构设计指南】 by @勤奋的适兕
关键词:云服务, OpenStack
《OpenStack架构设计指南》官方已经发布预览,还有6%的内容尚待翻译,不过不耽误
大家的阅读。希望大家多多批评指正,也希望更多的人参与到review环节。 @陈沙克 @
OpenStack中国社区 @ben_杜玉杰 [1]
[1] http://docs.openstack.org/zh_CN/arch-design/
2) 【AerospikeDB与Redis性能比较】 by @Linuxeden开源社区
关键词:数据库, NoSQL
【AerospikeDB与Redis性能比较】 原标题:AerospikeDB与Redis性能比较:在AWS上的
NoSQL基准测试 AerospikeDB 以低延迟和高吞吐量而闻名,已经用于 许多大型的、要
求堪称苛刻的实时平台 … [1]
[1] http://www.linuxeden.com/html/news/20150207/159001.html
3) 【SPSS聚类分析:用于筛选聚类变量的一套方法】 by @中国统计网
关键词:分析
【SPSS聚类分析:用于筛选聚类变量的一套方法】聚类分析是常见的数据分析方法之一
,主要用于市场细分、用户细分等领域。利用SPSS进行聚类分析时,用于参与聚类的变
量决定了聚类的结果,无关变量有时会引起严重的错分,因此,筛选有效的聚类变量至
关重要。 [1]
[1] http://www.itongji.cn/article/020341002015.html
4) 【Full Stack Data Analysis】 by @爱可可-爱生活
关键词:分析, 代码
[IPN]《Full Stack Data Analysis》 [1] 一组关于数据分析很棒的notebook,内容涉
及Python基础、网络数据采集、使用第三方API(Hacker New为例)、机器学习(泰坦尼克
号幸存者预测)和Flask网络应用开发等,有其“全栈”特色,值得一看 ipn: [2]
[1] https://github.com/jackgolding/FullStackDataAnalysis
[2] http://nbviewer.ipython.org/github/jackgolding/FullStackDataAnalysis/tree/master/
长微博图:http://ww1.sinaimg.cn/large/5396ee05jw1ep0c40kolvj21063huqqc.jpg
5) 【斯坦福公开课:数据可视化与美学设计】 by @新浪公开课
关键词:分析, 可视化, 课程
【斯坦福:数据可视化与美学设计】 [1] 数据本身有一种美感,可视化的数据更是一
门艺术。大数据时代,数据可视化作为重要的发展方向让我们从另一个角度去看待世界
。本节讲座由MIT媒体实验室数据可视化专家,Processing语言发明者Ben Fry主讲。完
整课程: [2]
[1] http://video.sina.com.cn/p/edu/news/2012-06-19/181461783741.html?sudaref=99.pub.sina.com.cn&ticket=ST-MTg4NjAwMzE5NQ==-1420767755-xd-DFBAD69725692036B31C0CAFC8926AE6
[2] http://open.sina.com.cn/course/id_300/lesson_4094/
--------
完整版 35条
http://bd.memect.com/archive/2015-02-07/long.html
m***r
发帖数: 359
8
大数据日报 2015-02-08
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-08/short.html
1) 【CIO Network: Making Use of Imperfect Big Data】 by @爱可可-爱生活
关键词:应用, Amy Braverman, 视频
[视频]《CIO Network: Making Use of Imperfect Big Data》 [1] NASA的Amy
Braverman博士访谈,讲#大数据#时代如何用不同的数据集,形成有意义的结论,应对
大数据的不完美。要想清楚最主要的问题、数据采集渠道,采用新的统计工具,分布数
据的处理是大问题 云: [2]
[1] http://www.wsj.com/video/cio-network-making-use-of-imperfect-big-data/727E36AA-0BD6-4A2C-B750-21092E2CE8A1.html
[2] http://pan.baidu.com/s/1o6HVjtS
2) 【云计算模式:云计算应用设计、构建和管理基础】 by @网路冷眼
关键词:书籍
#深夜福利#【云计算模式:云计算应用设计、构建和管理基础】 [1] 模式是计算机科
学中广泛使用的概念,以抽象的形式来描述重复出现问题之好的解决方案。本书从云计
算基础,架构,管理和应用组合等方面介绍了云计算的模式。推荐出版社引进! @2gua @
孢子响马 @伯乐头条 @Linux中国 @图灵教育
[1] http://www.cloudcomputingpatterns.org/
3) 【你了解数据科学家有几类吗】 by @数盟社区
关键词:分析, 数据库, 可视化
你了解数据科学家有几类吗?我们将数据科学家分为以下九类:(1)精于统计类。(2)精
于数学类。(3)精于数据工程。(4)精于机器学习/计算机科学类。(5)精于商业类。(6)
精于生产代码的开发。(7)精于数据可视化类。(8)精于GIS,空间数据,图形数据建模
,图形数据库。(9)精于以上多样。 [1]
[1] http://dataunion.org/?p=10328
4) 【数据仓库平台Apache Hive 1.0.0正式发布】 by @开源新闻发布台
关键词:数据库
转自Oschina:数据仓库平台Apache Hive 1.0.0正式发布。2015-02-05该版本原本是要
命名为Hive 0.14.1,但是团队感觉到了该用 1.x.y 的方式命名的时候了。不过该版本
改变的内容并不多,值得关注的有两个:为 HiveMetaStoreClient 定义API移除
HiveServer 1,全面使用HiveServer 2.详见 [1]
[1] https://issues.apache.org/jira/secure/ReleaseNote.jspa?version=12329278&
styleName=Text&projectId=12310843
5) 【唱衰Docker】 by @登州知府
关键词:虚拟化, Docker, 容器
唱衰Docker: [1]
[1] http://iops.io/blog/docker-hype/
--------
完整版 33条
http://bd.memect.com/archive/2015-02-08/long.html
m***r
发帖数: 359
9
大数据日报 2015-02-09
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-09/short.html
1) 【从SDN以及Docker看网络模型发生的变革】 by @DockerOne
关键词:虚拟化, Docker, 容器
【从SDN以及Docker看网络模型发生的变革】本文选自New Stack,是介绍SDN的系列文
章之一,这系列之前的几篇文章主要是介绍SDN相关的技术和工具,这篇文章以Docker
容器集群的网络模型为出发点,大致介绍了SocketPlane如何将SDN与Docker结合起来,
在跨主机的容器之间建立虚拟局域网。 [1]
[1] http://dockerone.com/article/188
2) 【基于Hadoop和Hbase的人类基因组/外显子组数据分析工具SeqHBase】 by @
biostack
关键词:分析, 计算框架, 数据库, 应用, Hadoop, HBase, 生物
#variation# 基于Hadoop 和 Hbase 的人类基因组/外显子组数据分析工具 SeqHBase
, 针对的家系模型, [1] , 具有很强的有效性和可扩展性。 文章发表在医学遗传学
杂志(Journal of Medical Genetics, OA) [2] 注释使用的是 ANNOVAR , 这类工具
还是蛮有市场的。
[1] http://seqhbase.omicspace.org/
[2] http://jmg.bmj.com/content/early/2015/01/13/jmedgenet-2014-102907.long
3) 【数据分析在互联网金融风险管控的应用】 by @中国统计网
关键词:分析, 书籍, 应用, 金融
【数据分析在互联网金融风险管控的应用】互联网的快速发展,给我们的生活带来了诸
多便利,也改变了我们的传统生活模式。如同凯文·凯利在《失控》一书中所描述的,
网络的出现,宣告着乌合之众登上历史大舞台,原来只能“一将功成万骨枯”的炮灰生
命其历程或将从此改变。 [1]
[1] http://www.itongji.cn/article/020541112015.html
4) 【大数据分析:机器学习算法实现的演化】 by @36大数据网
关键词:分析, 计算框架, Spark
【大数据分析:机器学习算法实现的演化(译)】❶传统的机器学习和数据分析
的工具,包括SAS,IBM的SPSS,Weka以及R语言。❷第二代机器学习工具,包括
Mahout,Pentaho,以及RapidMiner。❸第三代工具,比如Spark, Twister,
HaLoop,Hama以及GraphLab [1]
[1] http://www.36dsj.com/archives/22631
5) 【软件定义数据中心(SDDC)的日志分析】 by @CSDN云计算
关键词:分析, 数据中心
【软件定义数据中心(SDDC)的日志分析】传统的数据分析法是每周或每天依照列表审
查日志文件,这种方法已无法满足软件定义数据中心(SDDC)对数据审查的要求。而在
软件定义数据中心,你看到的是大量服务器之外的变量。 SDDC日志分析可以提供的信
息类型详解请戳 [1]
[1] http://www.csdn.net/article/2015-02-09/2823880
--------
完整版 39条
http://bd.memect.com/archive/2015-02-09/long.html
m***r
发帖数: 359
10
大数据日报 2015-02-10
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-10/short.html
1) 【数据库各个派系的起源、应用场景和选择指南】 by @中国统计网
关键词:数据库, Emil Eifrem, NoSQL
【数据库各个派系的起源、应用场景和选择指南】现在我们站在各个用例的角度上来考
虑那种系统适合于这些用例。你的意见是? 首先,我们要纵览各种数据模型。这些模型
的分类方法来自于Emil Eifrem 和 NoSQL databases。 [1]
[1] http://www.itongji.cn/article/020941262015.html
2) 【架构最简单的PaaS平台DINP发布 来自小米】 by @LUPA开源社区
关键词:虚拟化, 云服务, Docker, PaaS, 容器
【架构最简单的PaaS平台DINP发布,来自小米】DINP是又一个基于Docker开发的PaaS平
台。之所以用了“又”字,是因为现在的PaaS平台着实很多,DINP只不过是又造了个轮
子,下面给 ... [1]
[1] http://www.lupaworld.com/portal.php?mod=view&aid=250655
3) 【15款最佳的MySQL管理工具和应用程序】 by @云创存储
关键词:数据库, MongoDB, MySQL, Redis
【15款最佳的MySQL管理工具和应用程序】几乎每一个Web开发人员都有一个最钟爱的
MySQL管理工具,它帮助开发人员在许多方面支持包括PostgreSQL,MySQL,SQLite,
Redis,MongoDB等在内的多种数据库;提供各种最新的特性,包括触发器、事件、视图
、存储过程和外键…… [1] @专注云计算
[1] http://www.cstor.cn/textdetail_8496.html
4) 【云计算IaaS私有云运营模式实例】 by @云创存储
关键词:云服务, IaaS
【云计算IaaS私有云运营模式实例】云计算,尤其是私有云建设中,找到一个能够少触
犯各方利益,得到广泛支持的运营模式,是项目成功的关键。本篇博文分享了一个IaaS
私有云运营模式实例。 [1] @专注云计算
[1] http://www.cstor.cn/textdetail_8495.html
5) 【殷鹏翔:51信用卡的日志分析变迁史和技术细节】 by @CSDN云计算
关键词:分析, 应用, 金融, 殷鹏翔
【殷鹏翔:51信用卡的日志分析变迁史和技术细节】日前,51信用卡APP宣布完成B轮融
资,融资金额5000万美元,公司估值近3亿美元。该公司CTO殷鹏翔日前在一场沙龙中分
享了51信用卡的日志分析演变过程和技术细节,包括同步、行为日志分析逻辑设计,以
及数据分析平台化等。 详情请戳: [1]
[1] http://www.csdn.net/article/2015-02-09/2823887
--------
完整版 43条
http://bd.memect.com/archive/2015-02-10/long.html
相关主题
大数据日报上线了!Hadoop Spark 学习小结[2014版] (转载)
Hadoop Spark 学习小结[2014版] (转载)如何提高Spark在Yarn上的内存使用率
做个调查了解一下,有公司用HP Vertica 和 Hana 这些 data base的么?通过日志分析yarn app实际内存用量
进入DataSciences版参与讨论
m***r
发帖数: 359
11
大数据日报 2015-02-11
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-11/short.html
1) 【解析NoSQL数据库的分布式算法】 by @英特尔商用频道
关键词:数据库, NoSQL
【解析NoSQL数据库的分布式算法】系统的可扩展性是推动NoSQL运动发展的的主要理由
,包含了分布式系统协调,故障转移,资源管理和许多其他特性。本篇将讨论数据一致
性、数据分布式存储、以及全局状态三个关键问题。 [1]
[1] http://weibo.com/p/1001603808720076333550
2) 【Dokku和Docker的完美配合】 by @LUPA开源社区
关键词:虚拟化, 云服务, Docker, PaaS, 容器
【Dokku和Docker的完美配合,一起来辩】本文作者介绍了如何在单机上将Dokku和
Docker结合。Dokku是一个小型的PaaS平台,只需使用Git将代码push到对应的仓 库上
就能自动触 ... [1]
[1] http://www.lupaworld.com/portal.php?mod=view&aid=250673
3) 【转型SaaS,为什么Oracle、SAP的第一选择是人力资源软件】 by @钛媒体
关键词:应用, 云服务, SaaS, 人力资源
【CIO说|转型SaaS,为什么Oracle、SAP的第一选择是人力资源软件】2014年末,
Oracle宣布自己是即Salesforce.com之后全球第二大SaaS公司。可以看出Oracle、SAP
对HCM的SaaS市场布局颇为用心,甚至超过对ERP SaaS服务,为什么巨头转型SaaS服务
,不是从最核心的ERP软件,而是HCM? [1]
[1] http://www.tmtpost.com/195222.html
4) 【Docker 1.5新特性:支持IPV6、只读容器、容器运行监控,还有彩蛋】 by @
DockerOne
关键词:虚拟化, Docker, 容器
【Docker 1.5新特性:支持IPV6、只读容器、容器运行监控,还有彩蛋】如早上承诺,
我们最快的对官方新闻进行了翻译。Docker 1.5是今年Docker第一个发布版本,在这个
版本中Docker加入很多期望已久的新功能,比如支持IPV6、只读容器、容器运行监控..
..仔细看文章,还有彩蛋。 [1]
[1] http://dockerone.com/article/202
5) 【YouTube上最火的十个大数据视频】 by @伯乐在线官方微博
关键词:应用, 视频
《YouTube上最火的十个大数据视频》无论你对大数据一无所知,还是想要拓展机器学
习方面的知识; 无论你只有三个小时还是三分钟; 无论你是想进一步了解这个技术还
是那些高级应用,这些大数据视频都可看看。 [1] ( @猫屎咖啡在巴黎 译,欢迎加入
翻译组: [2] )
[1] http://blog.jobbole.com/84148/
[2] http://www.jobbole.com/groups/6/
--------
完整版 38条
http://bd.memect.com/archive/2015-02-11/long.html
m***r
发帖数: 359
12
大数据日报 2015-02-12
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-12/short.html
1) 【浅谈Hadoop YARN资源隔离机制】 by @开源力量
关键词:计算框架, Hadoop, YARN
【浅谈Hadoop YARN资源隔离机制】当谈及到资源时,我们通常指内存,CPU和IO三种资
源。默认情况下,YARN不会对任何资源进行隔离,当然,如果采用Java语言编写的程序
,则会使用JVM内置的隔离机制为内存资源进行隔离。 [1]
[1] http://www.osforce.cn/group/2/thread/1240?fr=weibo&mu=140910XRNWcD
2) 【Apache HBase高可用性的新阶段】 by @CSDN云计算
关键词:计算框架, 数据库, Hadoop, HBase
【实战丨Apache HBase高可用性的新阶段】Apache HBase是一个面向线上服务的数据库
,其原生支持Hadoop的特性受到基于Hadoop扩展性和灵活性进行数据处理应用的青睐。
本文回顾Hortonworks数据平台过去12个月的开发历程,展示开发人员如何改进HBase
的高可用性,并讨论未来改进计划。 [1]
[1] http://www.csdn.net/article/2015-02-12/2823943
3) 【自动化运维,和革命性的Docker】 by @InfoQ
关键词:虚拟化, Docker, Steve Mushero, 容器
【漫谈:自动化运维,和革命性的Docker】随着开发效率的提高,运维的自动化已经成
为很多技术团队越来越重视的问题,否则部署的速度容易成为业务创新的瓶颈;而
Docker很有意思,很火,很新,当然也很多问题。云络科技CEO Steve Mushero日前在
接受采访时,与我们谈论了这些话题。 [1]
[1] http://www.infoq.com/cn/news/2015/02/steve-mushero-automated-ops
4) 【Docker高级应用之多台主机网络互联】 by @云创存储
关键词:虚拟化, Docker, Kubernetes, 容器
【Docker高级应用之多台主机网络互联】目前docker主要应用于单机环境,使用网桥模
式,但如果想把多台主机网络互相,让多台主机内部的container互相通信,就得使用
其他的软件来帮忙,可以使用Weave、Kubernetes、Flannel、SocketPlane或者…… [2
] @专注云计算 [2]
[1] http://www.cstor.cn/textdetail_8505.html
[2] http://www.cstor.cn/textdetail_8505.html
5) 【专访生物信息大数据的新星:罗奇斌博士】 by @生物会展
关键词:分析, 应用, 罗奇斌, 生物
【专访生物信息大数据的新星:罗奇斌博士 】 随着测序费用的下降,越来越多的百姓
可通过“基因测序”来认识生命的本源,探索造物主构建“自我”的好奇心。然面对海
量的数据,普通人只能束手无策甚至望尘莫及,因此一批专注于生物信息数据分析的弄
潮儿在 (分享自 @生物探索 ) [1]
[1] http://www.biodiscover.com/news/celebrity/117128.html#jtss-tsina
--------
完整版 36条
http://bd.memect.com/archive/2015-02-12/long.html
m***r
发帖数: 359
13
大数据日报 2015-02-13
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-13/short.html
1) 【去硅谷当个大数据工程师,你要这么做】 by @与非网
去硅谷当个大数据工程师,你要这么做 [1] 本人主人公从国内的一线互联网公司百度
、阿里巴巴、奇虎、到美国一线公司Facebook、Google、Linkedin、Twitter、Amazon
,拿到10+ offer,并且在Linkedin期间也面试过100+候选人,参与面试题制定,乐于
分享并帮助很多人成功求职,实现目标。
[1] http://www.eefocus.com/component/338831
2) 【可视化存储智能解决方案】 by @传说中的冬瓜头
关键词:分析, 资源, 幻灯片, 可视化
现将鄙人2009年所设计的“可视化存储智能解决方案”写成了50页的小书,分享给大家
。其中介绍了Raid2.0以及基于Raid2.0之上构建的一系列技术、方案,展现了设计过程
中的思路,以及对应的产品架构、界面、最后的包装,部分PPT图例。 [1]
[1] http://pan.baidu.com/s/1dDs5iud#0-tsina-1-40120-397232819ff9a47a7b7e80a40613cfe1
3) 【CrowdFlower的2015年数据科学领域报告】 by @爱可可-爱生活
关键词:分析
[报告]《2015 Data Scientist Report》 [1] CrowdFlower的2015年数据科学领域报告
,涵盖数据科学家面临的主要挑战以及企业该如何应对——80%的数据科学家满意于所
从事的工作,30%觉得“棒极了”;66.7%的人觉得数据清洗和整理最耗时;大多数受访
者认为数据科学家还不够多
[1] http://info.crowdflower.com/2015-data-scientist-report
长微博图:http://ww2.sinaimg.cn/large/5396ee05jw1ep7s6r8omoj20okd0g7wj.jpg
4) 【大数据中的百年社会学】 by @城市数据派-UDParty
关键词:分析
【大数据中的百年社会学】基于大数据的词频统计技术为这一领域的探索提供了可能。
本文将利用谷歌语料库千亿量级的海量数据,通过对社会学关键词的词频分析来初步展
示百年社会学发展历程中的现象和规律。[爱你]本研究也是我国社会学领域的首次大数
据分析尝试。详见: [1]
[1] http://www.udparty.com/news.php?act=view&id=894
5) 【awesome docker】 by @葉小小小白
关键词:虚拟化, Docker, 容器
awesome docker,你想要的这里都有。 [1]
[1] http://getawesomeness.com/get/docker
--------
完整版 32条
http://bd.memect.com/archive/2015-02-13/long.html
m***r
发帖数: 359
14
大数据日报 2015-02-14
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-14/short.html
1) 【Spark SQL 数据源 API:Spark平台的统一数据接入】 by @网路冷眼
关键词:计算框架, Spark
【Spark SQL 数据源 API:Spark平台的统一数据接入】自从Spark 1.0版本的Spark
SQL问世以来,它最常见的用途之一就是作为从Spark平台上面获取数据的一个渠道。到
了Spark 1.2 版本,我们已经迈出了下一步,让Spark的原生资源和更多的输入源进行
整合集成。 [1]
[1] http://code.csdn.net/news/2823955
2) 【市民眼中的绿地为何没那么多?用大数据讲述城市意象】 by @市政厅官微
关键词:应用, 规划
我们可以从大数据中找到市民心中的城市意象。从城市建设用地指标上看,上海并不比
东京的绿地率少多少,但在居民感受中,东京实在是比上海绿得太多太多了。【 @澎湃
新闻 :市政厅|市民眼中的绿地为何没那么多?用大数据讲述城市意象】 [1]
[1] http://www.thepaper.cn/newsDetail_forward_1303747
3) 【Fig部署Docker】 by @Easy
关键词:虚拟化, Docker, 代码, 容器
Fig:Fast, isolated development environments using Docker. [1] @luofei614 这
个工具看起来不错…
[1] https://github.com/docker/fig
4) 【HIVE的CTAS用法探究】 by @IT技术博客大学习
关键词:数据库
【HIVE的CTAS用法探究】 最近在使用ADM系统的时候遇到一个问题,ADM在自动将HIVE
QL包装成CTAS之后,由于HIVE内部缺省使用’\N’来存储NULL,这样就会产生一个问题
,因为我们处理的很多结果数据是需要导出附... 详见: [1]
[1] http://blogread.cn/it/article/3562?f=wb
5) 【Docker为何会火?】 by @湾区日报BayArea
关键词:虚拟化, Docker, 容器
Docker为何会火? [1] 写得很好的文章。里面的一个观点很有意思:“The Docker
product came from a non-threatening source, a small startup (DotCloud) that
was able to broadly partner across the whole industry. ” #湾区日报#
[1] http://wanqu.co/2014-09-06-docker%E4%B8%BA%E4%BD%95%E4%BC%9A%E7%81%AB%EF%BC%9F.html
--------
完整版 23条
http://bd.memect.com/archive/2015-02-14/long.html
m***r
发帖数: 359
15
大数据日报 2015-02-15
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-15/short.html
1) 【百度迁徙 携手央视创新大数据新闻】 by @百度
关键词:应用, 交通, 新闻
【#百度迁徙#携手央视创新大数据新闻】反映春运迁徙状况的“百度迁徙”今日第二次
上线提供服务啦!新版“百度迁徙”增加了实时航班、机场热度和火车站热度等创新功
能,并已在央视《晚间新闻》“据说过年”栏目以及昨日《新闻联播》中露面。想知道
大家过年都从哪到哪?速戳→_→ [1]
[1] http://qianxi.baidu.com
2) 【Bayesian Networks with R and Hadoop】 by @爱可可-爱生活
关键词:计算框架, Hadoop, 视频
[视频]《Bayesian Networks with R and Hadoop》 [1] 用R的bnlearn包和Hadoop构建
贝叶斯网络应用 云: [2]
[1] https://www.youtube.com/watch?v=S_EN_-3peHs#t=15&hd=1
[2] http://pan.baidu.com/s/1mgqVcm8
3) 【Yarn cluster模式里 YarnTaskScheduler及AM的实现】 by @张包峰
关键词:计算框架, Spark, YARN
#Spark on Yarn# 梳理了下Yarn cluster模式里 YarnTaskScheduler及AM的实现。 [1]
CSDN现在支持markdown编辑了,赞。
[1] http://blog.csdn.net/pelick/article/details/43836563
4) 【2014年全民旅游数据大盘点】 by @百度旅游
关键词:应用, 旅游
【2014年全民旅游数据大盘点】全国驴友平均去过了3个国家13个省份,亲~~~~你的足
迹拖后腿了吗?![泪流满面][泪流满面]亿万驴友的精准搜索数据,这些热门目的地你
去过没?![偷乐][偷乐] @百度旅游 联合 @百度指数 发布#旅游大数据#,更多详情请
戳: [1]
[1] http://lvyou.baidu.com/event/s/2015travel/?fr=weibo
5) 【Docker生态系统系列之一:常用组件介绍】 by @DockerOne
关键词:虚拟化, Docker, 容器
【Docker生态系统系列之一:常用组件介绍】本篇文章是介绍Docker生态系统的第一篇
,不仅从概念上介绍了容器化、服务发现和全局配置存储、网络工具、调度、集群管理
和编制这几部分内容,而且配以清晰易懂的例子进行讲解说明,非常赞。非常非常好的
文章。 [1]
[1] http://dockerone.com/article/205
--------
完整版 24条
http://bd.memect.com/archive/2015-02-15/long.html
m***r
发帖数: 359
16
大数据日报 2015-02-17
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-17/short.html
1) 【大规模Docker集群助力微博迎接春晚峰值挑战】 by @i陈飞
关键词:虚拟化, Docker, 容器
借助大规模Docker集群,5分钟可以完成上百规模节点调度,即刻提供10W QPS的承载能
力,应对服务的峰值——大规模Docker集群助力微博迎接春晚峰值挑战 [1]
[1] http://weibo.com/p/1001603811301997572906
2) 【人工智能领域鲜为人知的趋势:云计算 vs 高性能计算】 by @Linux中国
关键词:吴恩达
人工智能领域鲜为人知的趋势:云计算 vs 高性能计算 | 当吴恩达还在Google训练电
脑矩阵使用人工智能,识别喵星人视频时,他并非一帆风顺。 Google在世界各地的数
据中心拥有海量计算机,对于吴恩达的工作,计算量绝对绰绰有余。但配置如此强大的
… [1]
[1] http://linux.cn/article-4899-weibo.html
3) 【85个数据挖掘、数据科学以及机器学习领域活跃博客推荐】 by @爱可可-爱生活
关键词:分析
[列表]《Active Data Mining, Data Science blogs》 [1] 85个数据挖掘、数据科学
以及机器学习领域活跃博客推荐
[1] http://www.kdnuggets.com/2015/02/active-data-mining-data-science-blogs.html
长微博图:http://ww1.sinaimg.cn/large/5396ee05jw1epbxmy7s53j20dw20x1kx.jpg
4) 【“人工智能达到奇点”(附AI研究者对此观点的批评)】 by @薛蛮子
关键词:Ray Kurzweil, 争鸣
人工智能达到奇点 - 最强论证文 三部曲 [1]
[1] http://mp.weixin.qq.com/s?__biz=MjM5MTAyNjcyMA==&mid=203679648&idx=3&sn=6f12da9739160d56477426e1e3688a75&scene=1&from=singlemessage&isappinstalled=0#rd
5) 【kafka+storm+阿里云搭建大规模实时数据流处理系统】 by @CSDN云计算
关键词:计算框架, 云服务, 流计算

得越来越大,传统的软硬件工具已很难满足数据处理的需求。本文将结合汽车状态实时
监控系统,讲述如何在阿里云上使用Kafka和Storm搭建大规模消息分发和实时数据流处
理系统,及其中遇到的挑战。 [1]
[1] http://web.toutiao.com/i/group/article/3733005689/?app=news_article#6649976-tsina-1-83540-4471e2b057b5019ad452c722f04bba39
--------
完整版 25条
http://bd.memect.com/archive/2015-02-17/long.html
m***r
发帖数: 359
17
机器学习日报 2015-02-18
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-02-18/short.html
1) 【GraphLab Create开源了核心代码】 by @Jay_大头机器学习
关键词:算法, Python, 代码
GraphLab Create今天开源了核心代码,包括SFrame,SGraph,图分析算法库以及
Python和C++的通信架构等模块。 [1]
[1] https://github.com/dato-code/Dato-Core
2) 【用Python实现决策树的ID3和C4.5生成算法】 by @hankcs
关键词:算法, 资源, Python, 决策树, 可视化, 书籍, 统计
【决策树】 “何以别离久,何以少团栾。”本文对应《统计学习方法》 第5章,用
Python实现了决策树的ID3生成算法和C4.5生成算法,并用matplotlib可视化出来。决
策树模型与学习决策树模型分类决策树模型是一种描述对实例进行分类的树形结构。决
策树由结点和有向边组成。结点有两种… [1]
[1] http://www.hankcs.com/ml/decision-tree.html
3) 【优化教材讨论合集】 by @好东西传送门
关键词:公告板, 入门, Dingzhu Du, 讨论
比较全面的优化教材 [1] @黄萱菁 发起的讨论 @Copper_PKU : Optimization for
Machine Learning(Wright) @夏睿 Numerical Optimization(Nocedal) @wzxhome
推荐Nesterov @程龚_NJU 推荐Dingzhu Du的 @debiandsc 推荐Bertsekas和Ghaoui的
[1] http://ml.memect.com/remix/3808733472130714.html
4) 【噪声的研究分析】 by @爱可可-爱生活
关键词:算法
[文章]《BRING THE NOISE: Embracing Randomness Is the Key to Scaling Up
Machine Learning Algorithms》(2013) [1] 噪声的研究分析是机器学习算法从小数据
扩展到大数据的关键
[1] http://online.liebertpub.com/doi/pdf/10.1089/big.2013.0010
长微博图:http://ww4.sinaimg.cn/large/5396ee05jw1epd2vwgofaj20xj3kxqv5.jpg
5) 【Azure ML的机器学习示例集锦】 by @爱可可-爱生活
[列表]《Microsoft Azure Machine Learning》 [1] 微软Azure ML的机器学习示例集
锦,不妨抓几个题目试试,真的很好玩,Azure ML确实很强大
[1] http://gallery.azureml.net/
--------
完整版 29条
http://ml.memect.com/archive/2015-02-18/long.html
m***r
发帖数: 359
18
机器学习日报 2015-02-19
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-02-19/short.html
1) 【百度Deep Speech讨论会视频】 by @黄浩XJU
关键词:深度学习, Andrew Ng, 行业动态
昨天百度Deep Speech讨论会视频 Andrew Ng ‏ @AndrewYNg Starting right
now! Presentation on Deep Speech breakthrough on deep learning+speech.
Livestream [1]
[1] https://freeflowapp.com/v/2ajfgt
2) 【SearchOnMath:数学搜索引擎】 by @网路冷眼
【SearchOnMath:数学搜索引擎】 [1] SearchOnMath 旨在让学生和研究者找到包含给
定一个数学公式的网页,给出不同的相似性。它是一个直接查询数学内容的搜索引擎。
新春福利,初一送出! @蒋涛CSDN @孢子响马 @数学文化 @2gua @Linux中国 @伯乐头
条 @好东西传送门 @developerWorks
[1] http://searchonmath.com/
3) 【Google13年关于FTRL工程化的paper(广告点击预测)】 by @一起读论文
关键词:算法, 应用, 广告系统
#一起读论文#Ad Click Prediction: a View from the Trenches介绍一种最近在很多
公司应用比较广泛的online算法(主要应用在ctr预估上),FTRL,在稀疏性和准确性
上做了一些权衡,据论文讲从总体看是优于其它常用的在线算法,据说不少公司......
[1]
[1] http://www.7300days.com/index.php/stds/detail/index/id/4561
4) 【(DRAW)神经网络框架自动生成图像】 by @爱可可-爱生活
关键词:深度学习, 视觉, 算法, 资源, Ivo Danihelka, 教育网站, 神经网络, 视频
[论文]《DRAW: A Recurrent Neural Network For Image Generation》K Gregor, Ivo
Danihelka [1] 来自Google,用Deep Recurrent Attentive Writer (DRAW)神经网络
框架自动生成图像,很酷 视频: [2] 云: [3]
[1] http://arxiv-web3.library.cornell.edu/abs/1502.04623v1
[2] https://www.youtube.com/watch?v=Zt-7MI9eKEo&hd=1
[3] http://pan.baidu.com/s/1gd3W6Fh
5) 【word2vec梯度推导详解】 by @爱可可-爱生活
关键词:资源, 自然语言处理, PDF, Xin Rong, 教育网站
[论文]《word2vec Parameter Learning Explained》Xin Rong [1] word2vec梯度推导
详解 云: [2]
[1] http://www-personal.umich.edu/~ronxin/pdf/w2vexp.pdf
[2] http://pan.baidu.com/s/1bngyftt
长微博图:http://ww2.sinaimg.cn/large/5396ee05jw1epd87nz4ujj20xjmlsu10.jpg
--------
完整版 16条
http://ml.memect.com/archive/2015-02-19/long.html
m***r
发帖数: 359
19
机器学习日报 2015-02-20
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-02-20/short.html
1) 【Wiki2Vec从维基百科Dumps生成Word2Vec向量】 by @爱可可-爱生活
关键词:自然语言处理
[开源] Wiki2Vec —— 从维基百科Dumps生成Word2Vec向量的工具,包括词向量和主题
向量
长微博图:http://ww2.sinaimg.cn/large/5396ee05jw1epfedr29wsj20l42p21h4.jpg
2) 【Netflix开源大数据异常检测模块RAD】 by @爱可可-爱生活
关键词:算法, Java, PCA, 代码, 可视化, 异常检测
[开源]《RAD - Outlier Detection on Big Data》 [1] Netflix开源大数据异常检测
模块RAD(Robust Anomaly Detection),采用Robust PCA检测异常点,主页上有可视化
Demo。RAD是Java语言的开源项目Surus的一部分 GitHub: [2]
[1] http://techblog.netflix.com/2015/02/rad-outlier-detection-on-big-data.html
[2] https://github.com/Netflix/Surus
长微博图:http://ww1.sinaimg.cn/large/5396ee05jw1epg2vvef9ij20i11pd1bv.jpg
3) 【word2vec的工作原理】 by @网路冷眼
关键词:自然语言处理
【word2vec的工作原理】 [1] word2vec是一个将单词转换成向量形式的工具。可以把
对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文
本语义上的相似度。本文是讲其工作原理的,作者声明公式较多,慎入[doge]转需!
[1] http://andyljones.tumblr.com/post/111299309808/why-word2vec-works
长微博图:http://ww4.sinaimg.cn/large/663aa05ajw1epflaiwuwzj20k923gndj.jpg
4) 【BIDMach高性能机器学习库】 by @好东西传送门
关键词:架构, 算法, Spark, 代码, 集成学习, 聚类, 主题模型
BIDMach是一个高性能机器学习库,是Berkeley BID Data Project的一个产品,在一些
评测中跑出了比spark还好的结果。 [1] 目前支持罗 辑回归、K-means、矩阵分解、随
机森林、LDA、PageRank等算法 @晨晨_20130325 推荐
[1] https://github.com/BIDData/BIDMach
5) 【达沃斯世界经济论坛:人工智能-专题】 by @达沃斯DAVOS
关键词:应用, 机器人
【人工智能-专题】#春节涨知识# [大红灯笼]人工智能是天使还是魔鬼? [1] 自动化
对人类意味着什么? [2] 幼儿之于人工智能的启示 [3] 第二次机器时代对工人意味着
什么? [4] 机器人革命已经到来? [5]
[1] http://wef.ch/1uZW1Re
[2] http://wef.ch/1vDTfHv
[3] http://wef.ch/1GFpoTE
[4] http://wef.ch/12jUdeq
[5] http://wef.ch/1oWmRFP
--------
完整版 31条
http://ml.memect.com/archive/2015-02-20/long.html
m***r
发帖数: 359
20
大数据日报 2015-02-22
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-22/short.html
1) 【大数据金融2.0系列:红包大战和移动金融的崛起】 by @36大数据网
关键词:应用, 鲍忠铁, 金融
【大数据金融2.0系列:红包大战和移动金融的崛起】36大数据专稿,作者:鲍忠铁,
转载本文需要得到作者daxiakanke 的授权。  2015年春节,抢风头的不再是春晚小.
. [1] (分享自 @搜狐新闻客户端 )
[1] http://3g.k.sohu.com/t/n38125932
2) 【汲取Linux灵感 Pivotal开源大数据套件】 by @Linuxeden开源社区
关键词:数据库
【汲取Linux灵感 Pivotal开源大数据套件】 Pivotal公司将把旗下大数据套件中的主
要组成部分加以开源,而这正是从Linux发展概念中汲取到的灵感。 此次决策将把HAWQ
、Greenplum数据库以及Pivotal G… [1]
[1] http://www.linuxeden.com/html/news/20150222/159263.html
3) 【MongoDB的基本特性与内部构造】 by @36大数据网
关键词:数据库, MongoDB
【MongoDB的基本特性与内部构造】MongoDB是一个介于关系数据库和非关系数据库之间
的产品,是非关系数据库当中功能最丰富,最像关系数据库的。他支持的数据结构非常
松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点
是他支持的查询语言非常强大 [1]
[1] http://www.36dsj.com/archives/22965
4) 【一种oracle2hdfs的数据推送思路】 by @IT技术博客大学习
关键词:计算框架, 数据库, Hadoop, Oracle
【一种oracle2hdfs的数据推送思路】 近期准备迁移一台旧机器上的应用,发现以前搞
的一个从oracle数据库推送数据到hadoop hdfs里的程序,share思路给大家。 基本的
思路流程如下: 按rowid切分oracle... 详见: [1]
[1] http://blogread.cn/it/article/3637?f=wb
5) 【奥斯卡最佳导演之惑】 by @爱可可-爱生活
关键词:分析, 可视化
[可视化]《Oscars 2015: Does winning best director kill your career?》 [1] 奥
斯卡最佳导演之惑,效果超棒的timeline
[1] http://www.theguardian.com/film/ng-interactive/2015/feb/20/what-it-really-means-to-win-the-oscars-best-director
长微博图:http://ww2.sinaimg.cn/large/5396ee05jw1ephs6fc7ljj20wx3rchco.jpg
--------
完整版 31条
http://bd.memect.com/archive/2015-02-22/long.html
相关主题
有没有谁自己买服务器组建几个clusters跑hadoop大数据的?[内推] NetBrain tech (software engineer等)职位内部推荐机会
big data software engineer或者data scientist 工作机会推荐 (转载)用人用过DigitalEdge吗?
诚心请教Spark EMR配置三星samsung创新部门招大数据工程师 (转载)
进入DataSciences版参与讨论
m***r
发帖数: 359
21
大数据日报 2015-02-23
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-23/short.html
1) 【波士顿深度报告:回归价值本源-金融机构如何驾驭大数据】 by @36大数据网
关键词:应用, PDF, 金融
【波士顿深度报告:回归价值本源-金融机构如何驾驭大数据(附PDF下载)】 ❶
; 价值导向与内嵌式变革——BGG对大数据的理解 ❷ 应用场景与基础设施——
纵览海内外金融机构的大数据发展实践❸ 超越技术的管理视角——金融机构驾
驭大数据的三个关键点❹ 用实践引领思考 [1]
[1] http://www.36dsj.com/archives/23048
2) 【没有数据驱动的流程和产品,你的大数据毫无价值】 by @麦嘉
关键词:应用, 新闻
没有数据驱动的流程和产品,你的大数据毫无价值 (分享自 @36氪 ) [1]
[1] http://www.36kr.com/p/200204.html
长微博图:http://ww2.sinaimg.cn/large/4d6c5118jw1epjoju4tzpj20c83kge4e.jpg
3) 【Google开源C版MapReduce框架MR4C】 by @36氪
关键词:计算框架, 应用, Hadoop, MapReduce, 新闻
Google开源C/C 版MapReduce框架 | MapReduce是Hadoop大数据系统的计算框架,由于
它是用Java编写的,在性能上与C 相比要略逊一筹。MR4C则可以很好地解决这个问题,
现在Google把它开源了。 [1] by @boxi
[1] http://www.36kr.com/p/219960.html
4) 【Practical Machine Learning Problems】 by @徽沪一郎
关键词:分析, 问答
总觉着大数据要有创新型应用一定离不开机器学习,如何能够快速的切入到机器学习问
题的核心,这是个问题,推荐两个当前正在看的网址。practical machine learning
problems [1] 另一个是stackoverflow上的讨论 [2]
[1] http://machinelearningmastery.com/practical-machine-learning-problems/
[2] http://stackoverflow.com/questions/598726/overwhelmed-by-machine-learning-is-there-an-ml101-book
5) 【Cloudera对ODP(开放数据平台)的立场】 by @纤夫张
关键词:行业动态
Hortonworks 和 Pivotal结盟成立ODP,对会员开放Greenplum, Gemfire源码,众多公
司加入,Cloudera不为所动,发表博文嘲笑之,文笔相当赞: [1]
[1] http://vision.cloudera.com/the-open-data-platform-alliance/
--------
完整版 24条
http://bd.memect.com/archive/2015-02-23/long.html
m***r
发帖数: 359
22
大数据日报 2015-02-24
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-24/short.html
1) 【《科学通报》大数据研究与应用专辑】 by @李武军nju
《科学通报》大数据研究与应用专辑, [1]
[1] http://csb.scichina.com:8080/CN/volumn/home.shtml
2) 【大数据时代的数据新闻生产】 by @新闻传播学研
关键词:应用, 新闻
【大数据时代的数据新闻生产:现状、影响与反思】数据新闻被认为是新闻业未来的发
展趋势,将会在呈现方式、生产流程和生产理念等方面对新闻生产产生巨大的影响。当
然,数据新闻也存在着局限性。全文链接: [1]
[1] http://pan.baidu.com/s/1jGy0M7k
3) 【股票价格预测竞赛获胜者Dr. Steve Donaho访谈】 by @爱可可-爱生活
关键词:分析, Steve Donaho
[文章]《Using Statistical Algorithms for Success in Kaggle’s Data Science
Competitions》 [1] Kaggle股票价格预测竞赛获胜者Dr. Steve Donaho访谈,谈对数
据科学的理解、为什么参加比赛,并提供了一些有用的tips/tricks
[1] http://www.statisticsviews.com/details/feature/7504951/Using-Statistical-Algorithms-for-Success-in-Kaggles-Data-Science-Competitions.html
长微博图:http://ww3.sinaimg.cn/large/5396ee05jw1epk18opbunj20s23v2npd.jpg
4) 【开放数据颠覆产品开发的三个方面】 by @爱可可-爱生活
关键词:应用, 开放数据, 医疗
[文章]《3 ways open data is revolutionizing product development》 [1] 以医疗
设备为例,讨论开放数据颠覆产品开发的三个方面:发现真正的(或潜在的)需求、客
观评估竞争环境、找到最适合的开发伙伴
[1] http://venturebeat.com/2015/02/22/3-ways-open-data-is-revolutionizing-product-development/
长微博图:http://ww2.sinaimg.cn/large/5396ee05jw1epk0jx3feaj218k3hyx6p.jpg
5) 【24个专为数据分析师的资源】 by @吴甘沙
关键词:分析
24个专为数据分析师的资源,让你跟随数据科学的最新脉搏 24 Data Science
Resources to Keep Your Finger on the Pulse [1] 每一个都很赞,只恨时间太少来
不及看
[1] http://blog.udacity.com/2014/12/24-data-science-resources-keep-finger-pulse.html?utm_content=bufferb29d3&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer
长微博图:http://ww2.sinaimg.cn/large/5cd31604gw1enxdz6o6mcj20jg14in4q.jpg
--------
完整版 24条
http://bd.memect.com/archive/2015-02-24/long.html
m***r
发帖数: 359
23
大数据日报 2015-02-25
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-25/short.html
1) 【我为什么选择MongoDB】 by @IT技术博客大学习
关键词:数据库, MongoDB, NoSQL
【我为什么选择MongoDB】 大概在08年,那时候nosql的概念特别热,最早的那批开源
项目好多参考google bigtable来设计,我也关注过其中的几个,比如hypertable,
couchdb之类,阅读了一些相关的文档和... 详见: [1]
[1] http://blogread.cn/it/article/3662?f=wb
2) 【Apache HBase高可用性的新阶段】 by @LUPA开源社区
关键词:计算框架, 数据库, Hadoop, HBase
【Apache HBase高可用性的新阶段】Apache HBase是一个面向线上服务的数据库,其原
生支持Hadoop的特性,使其成为那些基于Hadoop的扩展性和灵活性进行数据处理的应用
... [1]
[1] http://www.lupaworld.com/portal.php?mod=view&aid=250755
3) 【Raffi Krikorian访谈:关于Twitter的后台技术】 by @湾区日报BayArea
关键词:案例
Raffi Krikorian访谈:关于Twitter的后台技术 [1] 这是去年对(时任)Twitter的VP
platform engineering进行的采访。谈到了应对突发事件带来的流量激增的经验,他们
内部的feature switch系统(叫Decider),发布新代码的流程,大数据处理,以及工
程师在twitter内部的晋升之路#湾区日报#
[1] https://t0.io/7L4pZt
4) 【大数据望而不得 企业[伤心]如刀割】 by @新华社中国网事
关键词:黄林莉, 开放数据
【大数据望而不得 企业[伤心]如刀割】大数据兴起让政府和垄断机构的丰富数据资源
成了香饽饽,但企业却很难获得它们。“地图上的公交服务信息应由政府免费提供,但
实际上这些信息都没公开,我们只能挨个跟公交公司谈,资源浪费严重,效率非常低。
”百度发展研究中心副主任黄林莉说。 [1]
[1] http://xhpfm.mobile.zhongguowangshi.com:8091/share/109840
5) 【三篇技术博客:Goroutine + Channel实践及其他】 by @QXavier
关键词:虚拟化, Docker, 容器
春节前期以及春节期间,写了3篇技术博客,总结了一些过去这半年所做的事情。
Goroutine + Channel实践 [1] ,基于Zabbix + Docker开发的监控系统 [2] ,互联网
应用IDC/CDN部署分析实践 [3] ,还有很多不足,新的一年继续努力!
[1] http://goquxiao.com/posts/2015/02/15/goroutine-channel-shi-jian/
[2] http://goquxiao.com/posts/2015/02/17/ji-yu-zabbix-dockerkai-fa-de-jian-kong-xi-tong/
[3] http://goquxiao.com/posts/2015/02/21/hu-lian-wang-ying-yong-idccdnbu-shu-fen-xi-shi-jian/
--------
完整版 39条
http://bd.memect.com/archive/2015-02-25/long.html
m***r
发帖数: 359
24
大数据日报 2015-02-26
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-26/short.html
1) 【开启一个新的时代:Apache HBase 1.0】 by @ChinaHadoop
关键词:计算框架, 数据库, Hadoop, HBase, 代码
【开启一个新的时代:Apache HBase 1.0】由小象科技CTO翻译,[大红灯笼]热腾腾端
出来,[大红灯笼]供大家参考。点击: [1] [呵呵][呵呵][呵呵]
[1] https://github.com/chinahadoop/news/blob/master/hbase/release_1.0.0.md
2) 【Docker生态系统系列之二:容器化综述】 by @DockerOne
关键词:虚拟化, Docker, 容器
【Docker生态系统系列之二:容器化综述】本篇文章是介绍Docker生态系统的第二篇,
该文章首先简要介绍了Linux容器化的历史,然后介绍容器化的优点,再讨论
Dockerfile的优点,最后讨论了容器化应用的架构。 [1]
[1] http://dockerone.com/article/208
3) 【硅谷创投教父彼得·蒂尔:创业应该从垄断小市场开始,别玩破坏式创新】 by @
钛媒体
关键词:行业动态
【硅谷创投教父彼得·蒂尔:创业应该从垄断小市场开始,别玩破坏式创新】有“硅谷
创投教父”之称的彼得·蒂尓分享说除了快速迭代与颠覆式创新,还有第三种乔布斯曾
采用过的创新:把即将已经存在的很多想法用一种全新而复杂的方式汇总起来,产生新
的东西。他表示不赞成破坏式创新。 [1]
[1] http://www.tmtpost.com/198048.html
4) 【大数据的伦理框架】 by @唐朝GIS
关键词:分析
【大数据的伦理框架】如何判断你所处理的大数据是否牵扯伦理问题?“Just because
you can do something, doesn’t mean you should.” [1]
[1] http://www.datasciencecentral.com/profiles/blogs/an-ethics-framework-for-big-data
5) 【EverString:把企业客户转化率提升300%】 by @创业邦杂志
关键词:分析, 应用, 金融
【EverString:把企业客户转化率提升300%】EverString是一个专注于金融投资行业的
大数据分析类的公司,做的是典型的B2B型业务,面向公司的销售和市场部门,他们以
往用到的服务,一般能够帮他们把销售转化率提升20%左右,EverString可以提升到300
%。 [1]
[1] http://www.cyzone.cn/a/20150226/270139.html
长微博图:http://ww2.sinaimg.cn/large/624d98e1gw1epmjg2su1pj20cq3boe08.jpg
--------
完整版 33条
http://bd.memect.com/archive/2015-02-26/long.html
1 (共1页)
进入DataSciences版参与讨论
相关主题
用人用过DigitalEdge吗?How to prepare for the DS interview?
三星samsung创新部门招大数据工程师 (转载)大数据日报上线了!
1 big Hadoop&Hbase vs 1 Hadoop + 1 HbaseHadoop Spark 学习小结[2014版] (转载)
DBA position (Oracle/MySQL/Mongo) in Los Angeles, CA (转载)做个调查了解一下,有公司用HP Vertica 和 Hana 这些 data base的么?
大数据日报 2015年3月楼Hadoop Spark 学习小结[2014版] (转载)
机器学习日报2015年2月楼如何提高Spark在Yarn上的内存使用率
机器学习日报 2015年3月楼通过日志分析yarn app实际内存用量
大妈想找数据库方面的工作 是否需要证书 在哪里上培训班?有没有谁自己买服务器组建几个clusters跑hadoop大数据的?
相关话题的讨论汇总
话题: 数据话题: 关键词话题: docker话题: 日报话题: 订阅