大数据
图文直播,标签,大数据应用。数字经济,大数据分析。
为读者提供专业的大数据信息交流平台。专注大数据、同时涉及移动互联网、云计算等领域,征信、数据观是一个大数据新闻门户网站,大数据分析和大数据应用。
投资热点/大数据
大数据是继云计算、物联网之后IT产业又一次颠复性的技术变革。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。企业内部的经营交易信息、物联网世界中的商品物流信息,互联网世界中的人与人交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产,使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。
大数据时代网民和消费者的界限正在消弭,企业的疆界变得模糊,数据成为核心的资产,并将深刻影响企业的业务模式,甚至重构其文化和组织。因此,大数据对国家治理模式、对企业的决策、组织和业务流程、对个人生活方式都将产生巨大的影响。如果不能利用大数据更加贴近消费者、深刻理解需求、高效分析信息并作出预判,所有传统的产品公司都只能沦为新型用户平台级公司的附庸,其衰落不是管理能扭转的。
因此,大数据时代将引发新一轮信息化投资和建设热潮。据IDC预测,到2020年全球将总共拥有35ZB的数据量,而麦肯锡则预测未来大数据产品在三大行业的应用就将产生7千亿美元的潜在市场,未来中国大数据产品的潜在市场规模有望达到1.57万亿元,给IT行业开拓了一个新的黄金时代。数据处理技术和设备提供商、IT系统咨询和ERP/CRM/BI改造服务商、智能化和人机交互应用以及信息安全提供商将获巨大需求,相应公司将获得机会。
当前我们还处在大数据时代的前夜,预计今明两年将是大数据市场的培育期,2014年以后大数据产品将会形成业绩。由于国际巨头在硬件层和基础软件层垄断优势明显,本土企业将主要依靠对客户需求的了解和客户资源优势,以及本地化服务的优势,在应用软件层分得蛋糕,拥有大数据处理、挖掘技术、数据分析人才以及数据资产的公司值得看好。
定义/大数据
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《着云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它们按照进率1024(2的十次方)来计算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
发展历史/大数据
1887–1890年
美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的人口普查数据发明了一台电动器来读取卡片上的洞数,该设备让美国用一年时间就完成了原本耗时8年的人口普查活动,由此在全球范围内引发了数据处理的新纪元。
1935–1937年
美国总统富兰克林·罗斯福利用社会保障法开展了美国政府最雄心勃勃的一项数据收集项目,IBM最终赢得竞标,即需要整理美国的2600万个员工和300万个雇主的记录。共和党总统候选人阿尔夫兰登scoffs嘲笑地说,“要整理如此繁多的职工档案,还必须而调用大规模的现场调查人员去核实那些信息不完整的人员记录。”
1943年
一家英国工厂为了破译二战期间的纳粹密码,让工程师开发了系列开创性的能进行大规模数据处理的机器,并使用了*台可编程的电子计算机进行运算。该计算机被命名为“巨人”,为了找出拦截信息中的潜在模式,它以每秒钟5000字符的速度读取纸卡——将原本需要耗费数周时间才能完成的工作量压缩到了几个小时。破译德国部队前方阵地的信息以后,帮助盟军成功登陆了诺曼底。
1997年
美国宇航局研究员迈克尔·考克斯和大卫·埃尔斯沃斯首次使用“大数据”这一术语来描述20世纪90年代的挑战:超级计算机生成大量的信息——在考克斯和埃尔斯沃斯按案例中,模拟飞机周围的气流——是不能被处理和可视化的。数据集通常之大,超出了主存储器、本地磁盘,甚至远程磁盘的承载能力。”他们称之为“大数据问题。”
2002年
在9/11袭击后,美国政府为阻止恐怖主义已经涉足大规模数据挖掘。前国家安全顾问约翰·波因德克斯特领导国防部整合现有政府的数据集,组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人的大数据库。一年后国会因担忧公民自由权而停止了这一项目。
2004年
9/11委员会呼吁反恐机构应统一组建“一个基于网络的信息共享系统”,以便能快处理应接不暇的数据。到2010年,美国国家安全局的30000名员工将拦截和存储17亿年电子邮件、电话和其它通讯日报。与此同时,零售商积累关于客户购物和个人习惯的大量数据,沃尔玛自吹已拥有一个容量为460字节的缓存器——比当时互联网上的数据量还要多一倍。
2007–2008年
随着社交网络的激增,技术博客和专业人士为“大数据” 概念注入新的生机。“当前世界范围内已有的一些其他工具将被大量数据和应用算法所取代”。《连线》的克里斯·安德森认为当时处于一个“理论终结时代”。一些政府机构和美国的*计算机科学家声称,“应该深入参与大数据计算的开发和部署工作,因为它将直接有利于许多任务的实现。”
2009年1月
印度政府建立印度*身份识别管理局,对12亿人的指纹、照片和虹膜进行扫描,并为每人分配12位的数字ID号码,将数据汇集到世界*生物识别数据库中。官员们说它将会起到提高政府的服务效率和减少腐败行为的作用,但批评者担心政府会针对个别人进行剖面分析并与分享这些人的私密生活细节。
2009年5月
美国总统巴拉克·奥巴马政府推出data网站作为政府开放数据计划的部分举措。该网站的超过4.45万量数据集被用于保证一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定区域内失业率的信息,这一行动激发了从肯尼亚到英国范围内的政府们相继推出类似举措。
2009年7月
应对全球金融危机,联合国秘书长潘基文承诺创建警报系统,抓住“实时数据带给贫穷国家经济危机的影响” 。联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题。
2011年2月
扫描2亿年的页面信息,或4兆兆字节磁盘存储,只需几秒即可完成。IBM的沃森计算机系统在智力竞赛节目《危险边缘》中打败了两名人类挑战者。后来纽约时报配音这一刻为一个“大数据计算的胜利。”
2012年3月
美国政府报告要求每个联邦机构都要有一个“大数据”的策略,作为回应,奥巴马政府宣布一项耗资2亿美元的大数据研究与发展项目。国家卫生研究院将一套人类基因组项目的数据集存放在亚马逊的计算机云内,同时国防部也承诺要开发出可“从经验中进行学习”的“自主式”防御系统。中央情报局局长戴维·彼得雷乌斯将军在发帖讨论阿拉伯之春机构通过云计算收集和分析全球社会媒体信息之事时,不禁惊叹我们已经被自卸卡车倒进了“‘数字尘土”中。
2012年7月
美国国务卿希拉里·克林顿宣布了一个名为“数据2X”的公私合营企业用来收集统计世界各地的妇女和女童在经济、政治和社会地位方面的信息。“数据不只是测量过程——它能给予我们启发,”她解释说。“一旦人们开始对某个问题实施测量时,就更倾向于采取行动来解决它们,因为没有人愿意排到名单的*端去。”让大数据开始竞赛吧。
大数据与北京城/大数据
这里是北京2013年底,在这占地仅仅1.6万平方公里的地方,北京常住人口2114.8万人,其中,常住外来人口为802.7万人,占比38%。在人口分布上,朝阳区和海淀区常住人口最多,均在300万人以上;门头沟区人最少,只有30.3万人。
与日俱增的人口压力下,人们的衣,食,住,行,让这座城市慢慢的变得厚重起来。
微软亚洲研究院主管研究员郑宇博士在做客2014WGDC地理信息开发者大会时提到,在城市中,从社交媒体到道路结构,到气象条件,产生了各种各样的大数据,如果使用得当的话可以利用这些数据发现这个城市的问题,并且自动解决这些问题。基于这样的愿景微软提出了城市计算的框槛,包括城市感知、城市服务提供和数据挖掘,形成一个环路不断的自动的改进这各城市。“简单来说就是用大数据解决大城市大挑战。较后做到人、城市运转效率和自然环境三赢的系统。”
关于人们的“衣食”人们的生活以及消费方式已经发生了惊天的转变。不光是北京,自淘宝创立以来,大众的消费方式越发多元化,O2O、B2B等方式越来越丰富人们的日常生活。
大数据以及地图的基础应用,已经对人们的生活产生了很大的影响。现今类似的网站应用有很多都与数据以及地理信息相关,作为其代表之一,大众点评正是数据与地理信息的相互结合的优质结晶。
关于人们的“住”对于住来说,有几个决定因素:区位、人口、环境。人口数据对于城市的商业数据来说是至关重要的。
超精细格网化人口数据根据国家统计局2010年人口普查数据,结合遥感、地理信息等数十种背景信息数据,通过定量空间模型制作而成的超精细(160米左右)格网化人口分布数据,涵盖全国328个城市(包括其所辖的所有县、县级市、区和街道)格网总数约3亿个,数据项包括总人口数、不同性别人口数、儿童人口数、成人人口数、老年人人口数、网格的经纬度等数据项。人口格网化是目前人口空间分布研究的热点,超精细格网化人口数据根据国家统计局2010年人口普查数据,结合遥感、地理信息等数十种背景信息数据产成。
关于人们的“行”对于人们出行来说,人们的出行组成了大数据,同时大数据可以实时反应交通状况,因此大数据与交通的辩证关系一直为社会所重视;近年来交通所带来的能耗问题被逐渐重视起来,这不光是对个人资金的节省,更是对自己所在这个环境的一种责任。
郑宇认为通过导航软件所用的传感器来感知每个路段的流量和速度,利用环境学经典公式即可算出该汽车的排放量,具体做法是:利用已有GPS数据算出有限道路上的速度,按照单位时间通过车的流量的速度,最终得出某一行车路段的污染指数。可以算出这个城市里每一个区域,每一个时间、每一种污染物的成分和比例。随着时间的变化,各个地方污染程度。
大数据情怀大数据北京,我们可以看到几个焦点,文化底蕴,科技创新,还有为了梦想前进的现代化人们。有个词叫物是人非,时代变了,主角变了,但是古迹还在,我们正在创造历史,书写历史,这亦是一个城市的延续。故宫的历史对于现如今的我们来说已经永远沉睡在北京的正中心,对于故宫我们只是过客,对于历史,我们也是一个过客。
意义/大数据
有人把数据比喻为蕴
藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,
而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。大数据的价值体现在以下几个方面:1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;2) 做小而美模式的中长尾企业可以利用大数据做服务转型;3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。
国务院印发行动纲要促进大数据加快发展/大数据
经李克强总理签批,2015年9月,国务院印发《促进大数据发展行动纲要》(以下简称《纲要》),系统部署大数据发展工作。
《纲要》明确,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。
《纲要》部署三方面主要任务。一要加快政府数据开放共享,推动资源整合,提升治理能力。大力推动政府部门数据共享,稳步推动公共数据资源开放,统筹规划大数据基础设施建设,支持宏观调控科学化,推动政府治理精准化,推进商事服务便捷化,促进安全保障高效化,加快民生服务普惠化。二要推动产业创新发展,培育新兴业态,助力经济转型。发展大数据在工业、新兴产业、农业农村等行业领域应用,推动大数据发展与科研创新有机结合,推进基础研究和核心技术攻关,形成大数据产品体系,完善大数据产业链。三要强化安全保障,提高管理水平,促进健康发展。健全大数据安全保障体系,强化安全支撑。
2015年9月18日贵州省启动我国*大数据综合试验区的建设工作,力争通过3至5年的努力,将贵州大数据综合试验区建设成为全国数据汇聚应用新高地、综合治理示范区、产业发展聚集区、创业创新*地、政策创新先行区。
围绕这一目标,贵州省将重点构建“三大体系”,重点打造“七大平台”,实施“十大工程”。
“三大体系”是指构建先行先试的政策法规体系、跨界融合的产业生态体系、防控一体的安全保障体系;“七大平台”则是指打造大数据示范平台、大数据集聚平台、大数据应用平台、大数据交易平台、大数据金融服务平台、大数据交流合作平台和大数据创业创新平台;“十大工程”即实施数据资源汇聚工程、政府数据共享开放工程、综合治理示范提升工程、大数据便民惠民工程、大数据三大业态培育工程、传统产业改造升级工程、信息基础设施提升工程、人才培养引进工程、大数据安全保障工程和大数据区域试点统筹发展工程。
此外,贵州省将计划通过综合试验区建设,探索大数据应用的创新模式,培育大数据交易新的做法,开展数据交易的市场试点,鼓励产业链上下游之间的数据交换,规范数据资源的交易行为,促进形成新的业态。
国家发展改革委有关专家表示,大数据综合试验区建设不是简单的建产业园、建数据中心、建云平台等,而是要充分依托已有的设施资源,把现有的利用好,把新建的规划好,避免造成空间资源的浪费和损失。探索大数据应用新的模式,围绕有数据、用数据、管数据,开展先行先试,更好地服务国家大数据发展战略。
大数据开创新世界/大数据
大数据正在以不可阻拦的磅礴气势,与当代同样具有革命意义的*科技进步 (如纳米技术、生物工程、全球化等)一起,揭开人类新世纪的序幕。可以简单地说,以往人类社会基本处于蒙昧状态中的不发展阶段,即自然发展阶段。现在,这一不发展阶段随着2012年的所谓“世界末日”之说而永远成为了过去。大数据宣告了21世纪是人类自主发展的时代,是不以所谓“上帝”的意志为转移的时代,是“上帝”失业的时代。
对于地球上每一个普通居民而言,大数据有什么应用价值呢?只要看看周围正在变化的一切,你就可以知道,大数据对每个人的重要性不亚于人类初期对火的使用。大数据让人类对一切事物的认识回归本源;大数据通过影响经济生活、政治博弈、社会管理、文化教育科研、医疗保健休闲等等行业,与每个人产生密切的联系。
大数据技术离你我都并不遥远,它已经来到我们身边,渗透进入我们每个人的日常生活消费之中,时时刻刻,事事处处,我们无法逃遁,因为它无微不至:它提供了光怪陆离的全媒体,难以琢磨的云计算,无法抵御的仿真环境。大数据依仗于无处不在的传感器,比如手机、发带,甚至是能够收集司机身体数据的汽车,或是能够监控老人下床和行走速度与压力的“魔毯”(由GE与Intel联合开发),洞察了一切。通过大数据技术,人们能够在医院之外得悉自己的健康情况;而通过收集普通家庭的能耗数据,大数据技术给出人们切实可用的节能提醒;通过对城市交通的数据收集处理,大数据技术能够实现城市交通的优化。
随着科学技术的发展,人类必将实现数千年的机器人梦想。早在古希腊、古罗马的神话中就有冶炼之神用黄金制造机械仆人的故事。《论衡》中也记载有鲁班曾为其母巧公制作一台木马车,“机关具备,一驱不还”。而到现代,人类对于机器人的向往,从机器人频繁出现在科幻小说和电影中已不难看出。公元2035年,智能型机器人已被人类广泛利用,送快递、遛狗、打扫卫生……这是电影《我,机器人》里描绘的场景。事实上,今天人们已经享受到了部分家用智能机器人给生活带来的便利。比如,智能吸尘器以及广泛应用于汽车工业领域的机器手等等。有意思的是,2010年松下公司专门为老年人开发了“洗发机器人”,它可以自动完成从涂抹洗发水、按摩到用清水洗净头发的全过程。未来的智能机器人不会是电影《变形金刚》中的庞然大物,而会越来越小。目前,科学家研发出的智能微型计算机只和雪花一样大,却能够执行复杂的计算任务,将来可以把这些微型计算机安装在任何物件上用以监测环境和发号施令。随着大数据时代的到来和技术的发展,科技最终会将我们带进神奇的智能机器人时代。
在大数据时代,人脑信息转换为电脑信息成为可能。科学家们通过各种途径模拟人脑,试图解密人脑活动,最终用电脑代替人脑发出指令。正如今天人们可以从电脑上下载所需的知识和技能一样,将来也可以实现人脑中的信息直接转换为电脑中的图片和文字,用电脑施展读心术。2011年,美国军方启动了“读心头盔”计划,凭借读心头盔,士兵无需语言和手势就可以互相“阅读”彼此的脑部活动,在战场上依靠“心灵感应”,用意念与战友互通讯息。目前,“读心头盔”已经能正确“解读”45%的命令。随着这项“读心术”的发展,人们不仅可以用意念写微博、打电话,甚至连梦中所见都可以转化为电脑图像。据美国《纽约时报》报道,奥巴马政府将绘制完整的人脑活动地图,全面解开人类大脑如何思考、如何储存和检索记忆等思维密码作为美国科技发展的重点,美国科学家已经成功绘出鼠脑的三维图谱。2012年,美国IBM计算机专家用运算速度最快的96台计算机,制造了世界上*“人造大脑”,电脑*模拟大脑不再是痴人说梦。试想一下,如果人类大脑实现了数据模拟,或许你的下一个BOSS是机器人也不一定。
总而言之,大数据技术的发展有可能解开宇宙起源的奥秘。因为,计算机技术将一切信息无论是有与无、正与负,都归结为0与1,原来一切存在都在于数的排列组合,在于大数据。
特征/大数据
容量(Volume):数据的大小决定所考虑的数据的价值的和潜在的信息;
种类(Variety):数据类型的多样性;
速度(Velocity):指获得数据的速度;
可变性(Variability):妨碍了处理和有效地管理数据的过程。
真实性(Veracity):数据的质量
复杂性(Complexity):数据量巨大,来源多渠道
技术盘点/大数据
HadoopMapReduce
思维模式转变的催化剂是大量新技术的诞生,它们能够处理大数据分析所带来的3个V的挑战。扎根于开源社区,Hadoop已经是目前大数据平台中应用率*技术,特别是针对诸如文本、社交媒体订阅以及视频等非结构化数据。除分布式文件系统之外,伴随Hadoop一同出现的还有进行大数据集处理MapReduce架构。根据权威报告显示,许多企业都开始使用或者评估Hadoop技术来作为其大数据平台的标准。
NoSQL数据库
我们生活的时代,相对稳定的数据库市场中还在出现一些新的技术,而且在未来几年,它们会发挥作用。事实上,NoSQL数据库在一个广义上派系基础上,其本身就包含了几种技术。总体而言,他们关注关系型数据库引擎的限制,如索引、流媒体和高访问量的网站服务。在这些领域,相较关系型数据库引擎,NoSQL的效率明显更高。
内存分析
在Gartner公司评选的2012年十大战略技术中,内存分析在个人消费电子设备以及其他嵌入式设备中的应用将会得到快速的发展。随着越来越多的价格低廉的内存用到数据中心中,如何利用这一优势对软件进行*限度的优化成为关键的问题。内存分析以其实时、高性能的特性,成为大数据分析时代下的“新宠儿”。如何让大数据转化为*洞察力,也许内存分析就是答案。大数据背景下,用户以及IT提供商应该将其视为长远发展的技术趋势。
集成设备
随着数据仓库设备(Data Warehouse Appliance)的出现,商业智能以及大数据分析的潜能也被激发出来,许多企业将利用数据仓库新技术的优势提升自身竞争力。集成设备将企业的数据仓库硬件软件整合在一起,提升查询性能、扩充存储空间并获得更多的分析功能,并能够提供同传统数据仓库系统一样的优势。在大数据时代,集成设备将成为企业应对数据挑战的一个重要利器。
如涉及内容、版权等问题,请在30日内联系,我们将在第一时间删除内容!点此纠错或删除此信息