一、ODPS(MaxCompute)基础教程

1. 什么是ODPS

简单讲就是数据仓库,可以存储海量数据,可针对海量数据进行分析、计算。

本命其实叫 MaxCompute ,本文介绍统称为ODPS 

官方文档链接:

DataWorks 开发套件

是数据工场,对ODPS数据进行加工处理,主要提供了: 数据集成 、 数据开发 、 数据管理 、 数据治理 、 数据分享 等功能。

官方文档链接:

2. 登录篇(阿里云子账号)

子账号登录地址:

产品列表:数加 · DataWorks

账号赋权:如需要进行数据开发,需要根据业务需求,赋对应的工作空间的对应权限。

进入DataWorks> 工作空间列表页面,单击对应项目中的进入工作区,即可进入数据开发页面。(如下图)

2.使用篇

目前数据仓库的整体概况

目前承载的业务

业务操作日志备份分析

其他日志:系统运行日志

BI 数据分析相关(市场部BI)

开发前环境准备

开通DataWorks 权限的子账号

创建项目(1)

官方的文档:

目前我们的工作空间

新建调度资源(2)

一般进行简单的数据分析只需要默认的调度资源就满足业务需求(目前的模式就是按量付费)

需要进行特殊的数据集成、数据操作时会用到自定义资源

PyOdps 资源组:执行py脚本的资源组

mongoDB 资源组:进行MongDb --> ODPS 时会用到资源进行数据同步。

新增数据源(3)

路径:选择项目 -> 选择数据集成 -> 同步资源管理 -> 数据源

按照官方文档新增即可

数据源列表

批量数据上云(4)

路径:选择项目 -> 选择数据集成 -> 同步资源管理 -> 数据源 -> 整库数据迁移

数据开发前准备工作完成,可以进入开发阶段。

3 开发篇

数据开发

基本概念:

业务流程:解决一个业务的抽象模型,可以是一个问题的处理流程。

解决方案:多个业务流程组合成一个解决方案,在同一个解决方案里面可以复用相同的业务流程。

其他的概念:

数据开发流程:

数据开发流程:

选取两个现有的业务进行数据开发演示

财务部门需求

数据埋点分析

流程图如下

4 运维

运维中心:

二、阿里云的主要功能是什么?

《阿里云大学课程(大数据、云计算、云安全、中间件).zip》百度网盘资源免费下载

链接:

?pwd=4bhs 提取码: 4bhs  

三、云OS的产品

一般来讲,国内外大的网站,比如Google、网易、腾讯等,都有该类产品,但由于该系统是各自的核心竞争力,都是自产自用,并对外发售。比如市面上的两家厂商,一是VMware的vSphere,该产品是虚拟化技术衍生出来的,管理的设备数量有限;二是浪潮的云海,浪潮云海是第一款国产的云计算中心操作系统,采用“linux+Xen”开放标准技术路线,支持分布式计算、分布式存储等,性能更好、可用性更强、成本更低,但是要到2010年底才能发布。两者的不同处在于:浪潮云海OS是一个产品化、模块化的通用云操作系统,适合于各种类型的云计算应用;VMware的产品更多是针对虚拟化整合,面向私有云等小规模云应用;

Vmware与浪潮云OS的具体区别为:

1、共享存储与分布式云存储:VMware云操作系统依赖于共享存储,一旦共享存储宕机,将导致所有虚拟机业务的崩溃;浪潮云海云操作系统构建了块设备的云存储,安全性更高。

2、大规模管理架构;浪潮云海OS采用多级联管理体系,可以通过级联方式实现资源的整合管理,可以有效实现万量级的资源管理。管理能力更强,适用性更好;VMwareOS管理规模较小。

3、资源调度与节能管理:浪潮云海OS可有效实现大规模基础软硬件资源监控,可以完成长期的业务负载和资源情况的统计分析,可以依据负载情况实现业务、资源的动态调度,在满足客户需求情况下,有效提高资源利用率。同时,对夜间、节假日时的闲置资源,可自动转入节能模式,符合绿色、低碳的数据中心运营需求。

4、业务管理:VMware云OS侧重于硬件资源的管理,包括计算、存储和网络;浪潮云OS,即可以管理硬件资源,还可以管理软件资源,包括单机OS、数据库、中间件等。 云服务器(Elastic Compute Service, 简称ECS)是一种处理能力可弹性伸缩的计算服务,其管理方式比物理服务器更简单高效。云服务器帮助您快速构建更稳定、安全的应用,降低开发运维的难度和整体IT成本,使您能够更专注于核心业务创新。比如,阿里云服务就是做的比较完善的生态系统。 负载均衡 SLB 负载均衡(Server Load Balancer,简称SLB)是对多台云服务器进行流量分发的负载均衡服务。SLB可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。 关系型数据库服务 RDS 提供安全稳定云数据库服务!

关系型数据库服务(Relational Database Service,简称RDS)是一种稳定可靠、可弹性伸缩的在线数据库服务。RDS采用即开即用方式,兼容MySQL、SQL Server两种关系型数据库,并提供数据库在线扩容、备份回滚、性能监测及分析功能。RDS与云服务器搭配使用I/O性能倍增,内网互通避免网络瓶颈。 开放存储服务 OSS 开放存储服务(OpenStorageService,简称OSS),是阿里云对外提供的海量,安全,低成本,高可靠的云存储服务。用户可以通过简单的API(REST方式的接口),在任何时间、任何地点、任何互联网设备上进行数据上传和下载。 开放数据处理服务 ODPS 开放数据处理服务(Open Data Processing Service,简称ODPS)提供云端数据仓库服务。适用于金融、零售、制造业和电商企业的BI团队进行海量数据分析和挖掘。 开放结构化数据服务 OTS 开放结构化数据服务(Open Table Service,简称OTS)是一种支持海量结构化和半结构化数据存储与实时查询的服务。 内容分发网络 CDN 内容分发网络(Content Delivery Network,简称CDN)将加速内容分发至离用户最近的节点,缩短用户查看对象的延迟,提高用户访问网站的响应速度与网站的可用性。 开放缓存服务 OCS 开放缓存服务(Open Cache Service,简称OCS)为在线缓存服务,实现热点数据的快速响应及数据的持久化保存;支持Key-Value的数据结构,兼容Memcached协议。 云引擎 ACE 云引擎(Aliyun Cloud Engine,简称ACE)是一个基于云计算基础架构的网络应用程序托管环境,帮助应用开发者简化网络应用程序的构建和维护,并可根据应用访问量和数据存储的增长进行扩展。 ACE支持PHP,NODE.JS语言编写的应用程序;支持在线创建MYSQL远程数据库应用。 安全与监控 云盾

云盾为客户提供基于云端的DDoS防御、入侵防御及网站的应用安全监测等全方位的安全防御服务。 云监控 云监控高效全面的监控云服务器和站点,帮助用户时刻掌握云服务运行状态。

负载均衡

负载均衡(Software Load Balancing,简称SLB)通过设置虚拟IP,将位于同一数据中心的多台云服务器资源虚拟成一个高性能、高可用的应用服务池,再根据应用特性,将来自客户端的网络请求分发到云服务器池中。SLB 会检查池中云服务器的健康状态,自动隔离异常状态云服务器。同时,SLB 还可以增强云服务器池的抗攻击能力、安全隔离应用和云服务器。云服务器无须特殊设置即可透明接入SLB。

云盾

为云服务器提供一站式安全增值服务,包括安全体检(网页漏洞检测、网页挂马检测)、安全管家(防DDOS 服务、端口安全检测、网站后门检测、异地登录提醒、主机密码暴力破解防御)等功能。

云监控

为云服务器提供第三方监控服务,可以及时发现故障并通过多种方式告警,包括网站、Ping、TCP端口、UDP端口、DNS、POP3、SMTP、FTP等监控。云监控除了可以为ECS 提供安全有效的监控服务外,还能够为其他自由服务器提供监控服务,用户只需要通过简单的配置即可实现各种监控需求。 开放存储服务(OSS)是阿里云对外提供的海量、安全、低成本和高可靠的云存储服务。OSS 支持海量的文

件储存,同时在多个地方调用呈现,极大地简化了用户数据管理、迁移和更新的工作。

用户可以通过简单的RESTful 接口,在任何时间、任何地点、任何互联网设备上进行上传和下载数据,也可以使用Web 页面对数据进行管理。OSS 已经在多个云存储服务、电子商务网站和手机应用网站中使用,提供包括图片、软件和音视频文件在内的存储和互联网访问服务。

海量

用户可以存储和管理多达上千亿个数据对象(data object,可以是任何内容的文件,如数据记录,图片,流媒体文件等),每个数据对象大小可达20GB。OSS还能通过对象组合的方法构建最大5TB的单一对象。

安全

OSS使用加密对来保证用户数据被安全访问,对于指定为私有的数据,只有使用加密对才能访问。用户可以随时设定自己的数据访问权限。

高可用、高可靠

OSS拥有数据自动冗余、故障自动恢复的能力。OSS向用户承诺服务全年可用性99.9%,数据可靠性大于十个9。

多功能

OSS支持类似传统文件系统的目录结构,便于用户组织数据。存储在OSS的每个数据对象都拥有唯一的URL,便于用户在网页或移动应用上展示。OSS提供了PHP,Python,Java等多种语言的SDK。

低成本

用户按照每天实际的资源使用付费,无需为高速增长的业务提前付出费用。 开放结构化数据服务(Open Table Service,简称OTS)是构建在飞天内核之上的海量结构化和半结构化数据存储与实时访问的服务。

OTS以数据表的形式组织数据,保证强一致性,提供跨表的事务支持,并提供视图和分页的功能来加速查询。用户可以通过RESTful API来使用服务,也可使用Web 页面对数据进行管理。同时,OTS 提供多语言SDK以简化用户的编程。OTS适用于数据规模大且实时性要求高的应用。

数据安全可靠

OTS 服务运行在飞天内核之上,所有数据都有3 份备份;OTS 服务会自动处理集群中的硬件和软件错误,对用户屏蔽这些错误;用户的数据在存储层完全隔离,并且用户对数据的访问必须通过身份验证。

可扩展性

OTS 支持超过百TB 数量级的数据,通过对表进行横向切分(partitioning)来实现规模的扩展;数据分片均匀地散落到多个存储节点上,并且数据分区在增长之后会自动分裂以达到分区的动态平衡。因此,可以通过增加机器和调整调度实现服务整体规模的扩展。

灵活的数据模型

表包含任意多行的数据,每一行可以包含任意多个列,不需要在创建表的时候指定schema,支持视图和表组等高级功能。

简单高效的API

支持单行与多行的读写操作,支持事务操作。单行读写操作的延迟在10 毫秒级别。

全托管式服务

OTS服务会根据用户的数据规模和QPS 需求进行合理的调度和调优,用户无须关心数据库的管理、调优和容错处理。这样,用户可以专注在应用层逻辑,通过OTS 节省成本。此外,OTS 还向用户提供详细的资源使用统计、性能指标和操作日志,方便用户调查错误和分析应用的行为。 关系型数据库服务(RDS)提供了即时接入、弹性伸缩,可用而且可靠的数据库服务,帮助用户把基于传统关系型数据库的各类应用搬到云上。

RDS通过Web方式为用户提供可以在几分钟内生成并投入生产的、经过优化的数据库实例,支持MySQL和微软SQL Server这两种关系型数据库,适合于各行业中小企业的关系型数据库应用。

安全稳定

RDS 集群处于多层防火墙的保护之下,可以有力地抗击各种恶意攻击,保证数据的安全。允许您设置访问白名单,免除安全隐患。

数据可靠

RDS 采用主从热备的集群架构方式,当出现硬件故障时,30 秒内完成自动切换。建议您的应用程序支持数据库连接自动重连。

自动备份

RDS 根据您自定义的备份策略自动备份您的数据库。防止数据丢失和误删除,保证您的数据安全可靠。

管理透明

您无需维护数据库,只需根据自己的需要选择相应的RDS 实例,部署简单快速。大大节省用户的硬件成本和维护成本。

四、什么是 MaxCompute

大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

五、数据分析系统有哪些?

1、 Cloudera Cloudera

提供一个可扩展、灵活、集成的平台,可用来方便的管理您的企业中快速增长的多种多样的数据,从而部署和管理Hadoop和相关项目、操作和分析您的数据以及保护数据的安全。Cloudera Manager是一个复杂的应用程序,用于部署、管理、监控CDH部署并诊断问题,Cloudera Manager提供Admin Console,这是一种基于Web的用户界面,是您的企业数据管理简单而直接,它还包括Cloudera Manager API,可用来获取集群运行状况信息和度量以及配置Cloudera Manager。

2、 星环Transwarp

基于hadoop生态系统的大数据平台公司,国内唯一入选过Gartner魔力象限的大数据平台公司,对hadoop不稳定的部分进行了优化,功能上进行了细化,为企业提供hadoop大数据引擎及数据库工具。

3、 阿里数加

阿里云发布的一站式大数据平台,覆盖了企业数仓、商业智能、机器学习、数据可视化等领域,可以提供数据采集、数据深度融合、计算和挖掘服务,将计算的几个通过可视化工具进行个性化的数据分析和展现,图形展示和客户感知良好,但是需要捆绑阿里云才能使用,部分体验功能一般,需要有一定的知识基础。maxcompute(原名ODPS)是数加底层的计算引擎,有两个维度可以看这个计算引擎的性能,一个是6小时处理100PB的数据,相当于1亿部高清电影,另外一个是单集群规模过万台,并支持多集群联合计算。

4、 华为FusionInsight

基于Apache进行功能增强的企业级大数据存储、查询和分析的统一平台。完全开放的大数据平台,可运行在开放的x86架构服务器上,它以海量数据处理引擎和实时数据处理引擎为核心,针对金融、运营商等数据密集型行业的运行维护、应用开发等需求,打造了敏捷、智慧、可信的平台软件。

5、网易猛犸

网易猛犸大数据平台使一站式的大数据应用开发和数据管理平台,包括大数据开发套件和hadoop发行版两部分。大数据开发套件主要包含数据开发、任务运维、自助分析、数据管理、项目管理及多租户管理等。大数据开发套件将数据开发、数据分析、数据ETL等数据科学工作通过工作流的方式有效地串联起来,提高了数据开发工程师和数据分析工程师的工作效率。Hadoop发行版涵盖了网易大数据所有底层平台组件,包括自研组件、基于开源改造的组件。丰富而全面的组件,提供完善的平台能力,使其能轻易地构建不同领域的解决方案,满足不同类型的业务需求。

六、阿里云的大数据应用ODPS应该怎么使用?

阿里云开放数据处理服务(Open Data Processing Service简称ODPS)是构建在飞天系统上的大规模分布式数据梳理服务。处理量大,一般用户用来购买日志和业务数据进行数据挖掘。