利用Amazon AWS创建免费Hadoop学习环境

2014/05/19 | 17:14 by Filed under: 技术   9,756 views

大数据不等于Hadoop,但Hadoop已是大数据实施的事实标准,学习和了解它对于想接触和从事大数据相关工作的人来说很有必要. Hadoop的核心是分布式计算, 学习和测试环境就需要多台(至少3台)机器, 虚拟机是很好的选择. 如果你没有强大性能的服务器/单机来支持最低3台的虚拟机同时启动,还有另一种方法可以尝试. 从现有云服务商申请和建立云主机/VPC. 本文只介绍如何在Amazon AWS上免费的申请和创建虚拟主机作为Hadoop的学习和练习环境.

Iaas厂家 试用策略
Amazon AWS 免费一年,多台云主机
IBM Softlayer 免费一个月
Microsoft Azure 免费一个月
阿里云 免费试用5天
腾讯云 无试用

Amazon AWS对新注册用户提供12个月的免费试用服务,当然,机器只能选最低级别的 t1.micro tier. 每启动一台虚拟机称为一个实例(Instance), 每个实例运行1小时称之为实例小时(Instance Hour). 12个月的免费套餐包括每月750小时的实例小时(Windows, Linux单计). 了解更多 Free, FAQ

clip_image001[5]

750小时刚好够一台机器整月运行, 所以要同时运行3个实例有两种方法.

方式 实现 好处 不足
一个账户 一个账户同时启动运行3个实例, 连续运行免费额度只够10天左右,那么就需要在晚上或者周末不使用时手动停止实例(Stop而不是Terminate),停止实例不计时,启动实例最低1小时起计. 只需要申请一个账户,账户管理简单. 实例间可以通过私有IP访问且不计流量.私有IP不会变. 需要经常启动和停止实例,操作麻烦,而且每次停启后实例的公共IP变化.对于要远程连接不方便.
三个账户 申请三个帐户,每个账户开启一个实例,支持整月运行 不用频繁停启实例,一般不用担心实例运行时间超出免费额度 申请三个账户,管理多点. 实例间通过公共IP连接,只要不重启公共IP不会变.实例间传输速度不及私有IP,有流量限额.

 

注意: AWS注册需要验证信用卡和电话,同一张信用卡和电话可用于多个账户. 初始注册时信用卡会提示扣款1美元,是为了验证信用卡有效,不会入账. 使用Amazon AWS有被扣款风险, 建议充分了解AWS收费策略后再决定是否使用. 我不能保证你在使用过程中不会出现扣款的情况.

 

1 注册

1-1 访问 http://aws.amazon.com/cn/free/ 点击”免费试用”,输入注册邮箱地址,选择”I am a new user”

clip_image002

1-2 填写用户名和密码. 之后登陆使用邮箱地址.

clip_image003

1-3 填写详细信息,电话号码必须是真实的,后面会来电验证.

clip_image004

1-4 填写真实信用卡信息. CARDHOLDERNAME是信用卡正面的持卡人拼音

clip_image005

1-5 接下来是验证电话的环节,点击 “Call Me Now”

clip_image006

1-6 页面上提示验证码,马上会有美国电话打进来,英文提示完成后,你可以输入验证码或者清晰的用英文念出这4个数字.验证成功,下一步.

clip_image007

1-7 这时你应该会收到信用卡的短信或微信提示,扣了1美元,但其实没入账,只是为了验证卡片有效. 这一步选择 Basic (Free)

clip_image008

1-8 至此,注册完成. 你可以查看一些用用的链接. 这里我们点” Launch the AWS Management Console”, 你对所有AWS服务的管理都是在console下进行的.

clip_image009

 

2 管理

2-1 登陆Console, 这时在登陆界面要选择”I am a returning user”

clip_image010

2-2 登陆后,点击右上角你的账户名, 选择 Billing & Cost Management

clip_image011

2-3 看到Billing Dashboard 下面有提示” You are elegible for the AWS Free Usage Tier“, 那就说明你可以免费试用12个月了. 再下面有提示可创建账务提醒( Billing Alerts),这个很重要. 因为关联了信用卡,国外的服务通常情况下信用卡扣款不需要密码的. 这里强烈建议你建一个”提醒”.

clip_image012

2-4 点击上图中的”Enable Now”, 来到 Preference 页面, 勾选 “Receive Billing Alerts” 然后保存.然后点击 “Manage Billing Alerts”准备创建一个提醒. Billing Alerts其实是AWS 的CloudWatch Service

clip_image013

2-5 在新的CloudWatch Dashboard页面, 点击中下部的 Create Alarm 按钮,或者下面的 Create a billing alarm链接. 貌似Billing Alarm只在US East(N.Virginia)有.建议后面你要建的虚拟机/Instance, 选同样的地区. clip_image014

2-6 在弹出的页面输入接收提醒的邮箱地址.这里我设置当所有的AWS要开始收我钱时(>0 USD)给我提醒.然后点击 Create Alarm. 接着你需要在邮箱里查看发送的邮件,点一个链接来验证接收邮箱. 账户相关设置到此.

clip_image015

 

3 创建虚拟机

3-1 登陆后在Console会列出所有AWS Service,或者点左上角的”Service”,这里我们选EC2

clip_image016

3-2 在EC2 Dashboard看到如下, 注意右上角 “Oregon” 那里选择区域(截图里是US West). AWS在全球每个地区的Server是隔离的,各区收费不完全一样,免费使用不用考虑,建议接下来所建Instance都在一个US East (N.Virginia)区域 (我们只是要搭建个学习环境). 如果你还没建 Billing Alarm, 请一定记得创建此区域的账务提醒.

clip_image017

3-3 点击上图中的Launch Instance, 第一步选择安装镜像, 这里一定要勾选 Free tier only,或者选镜像下面有 Free tier eligible的, 不然其它镜像是需要按使用收费的.这里我选64位 RHEL 6.5, 你也可以选择其它的镜像.

clip_image018

3-4 第二步, 选择t1.micro 类型的Instance,免费.各项配置各种低啊, 但免费, 认了.这里,你可以按默认的配置启动实例,点”Review and Launch”,也可以自己改一些配置,点”Next”

clip_image019

3-5 第三步,你可以同时启动N个实例;第四步你可以设置储存大小,所有免费的实例总储存空间(EBS)是30G;第六步可以设置安全规则,开放哪些协议端口等.默认的是SSH 22端口,这也是我们需要的.到第六步后,就可以Review and Lanuch了.

clip_image020

clip_image021

clip_image022

3-6, 第七步,启动你的第一个实例吧. 点 Launch后, 会跳出对话框让生成Key Pair(公钥/密钥配对),必须生成,不然登陆不了这操作系统. 填写好 Key pair name后,点Download Key Pair,下截.pem后缀的文件,一定保存好,用它才能登陆该虚拟机.

clip_image023

3-7 虚拟机启动需要两三分钟, 这里你可以看下提供的相关链接,比如如何连接到Linux实例, 创建Billing alerts等.

clip_image024

3-8 查看Instance,选中Instance 点击上面的Action可以Stop它也可以重启它. 如果Terminate,那此Instance就消失.重启后Public IP会重新分配, Private IP不会变.

clip_image025

 

4 连接到虚拟机

    • 选中Instance,点击上面的Connect,从浏览器启动Java独立程序访问 via.
    • 如果你本机支持ssh, 或者从其它Linux主机访问, 用到命令, 其中key的权限为600或400

ssh -i MyInstance3Key.pem root@54.***.***.63

  • 此外,还可以用PuTTY连接,这个要方便些. 查看详细教程 connect to Amazon EC2 instance via. PuTTY下载地址(建议选zip包) via

 

如果需要文件传输 FlashFXP, FileZilla用到密钥,就是用上一步中PuttyGen生成的.ppk文件都能连接上虚拟机进行. 另外,推荐用 WinSCP (下载) 来连接传输文件,还可以直接在文件传输界面打开PuTTY命令行窗口.

用PuTTY连接

打开PUTTYGEN.EXEclip_image026 , Load

clip_image027

选择 All Files,选到之前下载的Key Pair(.pem文件)

clip_image028

打开后提示, 点OK. 默认选中的SSH-2 RSA, 点Save private key, “Areyousure…” 点Yes

clip_image029

另存为后缀为ppk的文件,这是PuTTY和WinSCP能识别的密钥格式. 保存好后可以关了PUTTYGEN.

clip_image030

接下来打开PuTTYclip_image031, HostName处填写Instance的 Public IP或者 Public DNS, 这个在Instance页面能看到. 选中SSH,Port22 ,或者加上登陆用户,比如

ec2-user@hostname [此镜像的默认登陆用户是ec2-user]

clip_image032

左边 Connection-SSH-Auth中选中ppk文件,

clip_image033

点Open打开连接,有提示, 点Yes

clip_image034

以ec2-user登陆后,可免密码执行sudo ***. 或者 sudo bash 切换到root账户. 里面的账户都是没有设置密码的.

WinSCP的连接大同小异,在连接面板点Advanced,然后 Authentication,选择ppk文件.连接上就像FTP一样了.

clip_image035

至此,一台虚拟机/Instance已经创建并连上. 重复注册或创建步骤建立多个Instance吧.

需要提醒的是, 如果是同一账号建立的多个Instances, 配置Hadoop时IP可使用Private IP,不计流量传输快.不同账号建立的或者在不同Region的Instances可以通过Public IP连接.

使用中有任何疑问,可以通过Console页面底部的 Feedback 按钮创建 Ticket,一般一天内会回复你. Help里的Documentation也是很好的了解资料,但的确多,深入了解需要太多时间.

再次提醒, 请创建 Billing Alarm. 一旦发现扣款或即将扣款情况, 通过Dashboard查看Reports,立即查处. 可以Stop或者Terminate Instance,甚至Account管理中关掉此账户.

———–2014.05.20 update

Hadoop启动后 Namenode与Datanode之间通信很频繁. 如果配置不正常,会导致较大流量从Namenode出入,并写入较大日志文件, 有可能在网络流量上超出免费限额. 解决办法就是不用时关掉Hadoop. 或者在crontab里添加 stop-all.sh, 安排每天晚上12点后停掉Hadoop.



Comments

2 Comments on 利用Amazon AWS创建免费Hadoop学习环境

  1. MauricePaugs on 13-04-17,周四 2:10
  2. GeraldAdort on 1-09-17,周五 5:24
  3. Are you still answering a phone with a cord at house or is your cellular your primary means of communications? We live in the age of the digital phone. You can live anyplace in the country and have any region code for your telephone quantity with just a couple of clicks of the mouse. In our workplace we have a mix of every thing, my house nearly as much.

    What is even better about get virtual sms number systems is that all of your voice mails go into your virtual mailbox that you can accessibility by telephone or electronically. This keeps your clients from ever becoming dumped into the voice mail system of your house, of your cell telephone, and so on. Truly amazing. You can buy plans for as low as $5.00 for each thirty day period. Check it out. There are various get digital sms quantity system providers on the market, and insider is using a get digital sms quantity system this kind of as Ring Central is just one of them. That is who we use for Innoventum.

    Google Calendar: In my viewpoint, this is the best calendar on the web. You can share your calender with particular people; maintain it personal (your eyes only); Share it with a specific group of individuals or combine it with your website. I use Google Calendar for my personal and company scheduling. You can permit other people to add occasions to your calendar, share the calendar with someone, established reminders that shoot email messages your way and much more!

    Ideally your room ought to be an inside space or at least don’t have any home windows behind you. If your workplace is like mine, then the final splurge is a light to go powering your pc monitor and mild up your face so you don’t appear like “Shadowman”.

    One factor most individuals detest about moving into a new house is not the hard labor of lifting containers all working day lengthy; it’s getting to contact the telephone company to disconnect and reconnect their phone service. It’s a trouble and there are always fees related. Because VoIP is connected to a higher-pace web link and not the traditional land line, it becomes nearly as transportable as a mobile phone. Essentially, customers can take their telephone quantity anyplace they move; and even if it’s just for a weekend getaway.

    You will conserve tons of cash. Why pay $40 to $60 a month with a traditional telephone service when you can spend less than $10 for each month with a high quality VOIP provider when you purchase 1 year up front and get the 2nd yr free? Conserve hundreds of bucks every yr and talk till your coronary heart is content.

    http://thegvision.com/forum/index.php?action=profile;u=33155

    [回复]

Tell me what you're thinking...





无觅相关文章插件,快速提升流量