下面是小编为大家整理的课题研究报告,供大家参考。
山西大学商务学院《科研基础训练》
课题研究报告
大数据的科学研究
学生姓名:
张熙 :
所属班级:
15 计科 G 班 :
所属组别:
七组
:
实训时间:
2016 年 10 月
至 2016 年 12 月
目 目
录 一.引言……………………………………………………………………………………
1 二.大数据分析的应用和发展前景……………………………………………………
2 三.科学技术的集成………………………………………………………………………
3 四.大数据案例分析……………………………………………………………
4 五.结束语…………………………………………………………………………………
5
大数据的科学研究
学生姓名:张熙 指导老师:赵文娟 摘要:本文基于国家自然科学基金委员会第 89 期双清论坛“大数据技术与应用中的挑战性科学问题”的研讨内容,分别就大数据获取、大数据存储与管理、大数据传输,大数据处理、分析与计算,以及大数据应用等议题进行了全面综述。在深入研讨大数据技术与应用的国内外发展动态和现状的基础上,凝练出了未来我国在大数据技术与应用领域急需关注和解决的 9 个重大科学问题,并结合我国具体情况,提出了与开展大数据技术与应用研究相关的若干政策和措施建议。
关键词:
大数据 科学研究方法,企业管理,基本应用,科技变革
一.引言
随着云计算、物联网和移动通信技术及其应用的蓬勃发展,产生的数据量不仅以指数级速度增长,数据结构也变得愈加复杂,大大超出了传统数据库的管理能力。大数据问题近年来己成为信息技术产业讨论的焦点,舆论普遍认为该问题将成为信息科学技术领域的重要前沿课题之一。以大容量、高速度、多样化和价值稀缺为特征的大数据,给在数据分析领域扮演重要角色的竞争情报的研究工作带来了前所未有的机遇。
现今社会,随着经济的迅猛发展,越来越多的企业在迅速的崛起,这么多的企业,要想从中脱颖而出,势必需要寻找一种新的途径,于是我们迎来了正处于高速发展的大数据信息通信时代。因此,大数据成为一个至关重要的课题,吸引了大量学者对其进行深入研究,笔者在查阅国内外相关文献的基础上,对大数据的理论研究、大数据的应用研究、大数据时代面临的挑战进行了综合分析,以期展望未来大数据的发展趋势。
二.大数据分析的应用和发展前景
大数据分析是指对规模巨大的数据进行分析。大数据可以概括为 4 个 V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、真实性(Veracity)。大数据作为时下最火热的 IT 行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据分析也应运而生。
据统计,2011 年全球被创建和复制的数据总量为 1.8ZB(10 的 21 次方),其中 75%来自于个人(主要是图片、视频和音乐),远远超过人类有史以来所有印刷材料的数据总量(200PB)。传感网和物联网的蓬勃发展是大数据的又一推动力,各个城市的视频监控每时每刻都在采集巨量的流媒体数
据。工业设备的监控也是大数据的重要来源。例如,劳斯莱斯公司对全世界数以万计的飞机引擎进行实时监控,每年传送 PB 数量级的数据。
大数据科学作为一个新兴的交叉学科方向,其共性理论基础将来自多个不同的学科领域,包括计算机科学、统计学、人工智能、社会科学等。因此,将来推出一个国家科技和产业专项来引导和支持大数据的研究和产业发展,也会对相关学科的领域知识与研究方法论产生推动作用。
三.大数据:科学技术的集成
大数据处理方法与框架 大数据的处理流程可以定义为在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定得标准统计存储,利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户,具体来说可以分为数据抽取与集成、数据分析以及数据解释,如图所示。
数据抽取与集成 多样性是大数据的一个重要特征,它意味着数据来源的广泛与数据类型的复杂,就 11 是这种多样的数据环境给大数据的处理分析工作带来极大的挑战。在处理大数据的过程中,首先要对数据源进行抽取和集成,并经过关联和聚合后采用统一的结构来存储此类数据。此过程需要对数据进行清洗,保证数据质量及可靠性。数据抽取和集成技术在传统数据库领域已有了较为成熟的研究。随着新型数据源的涌现,数据集成方法也在不断的发展。从数据集成模型来看,现有的数据抽取与集成方式大致可分为:基于物化或 ETL 方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎以及基于搜索引擎的方法。
2、数据分析
数据价值的产生取决于数据分析过程的精细程度,这也决定了数据分析在大数据处理流程中的核心地位。分析过程的原始数据来自于异构数据源的抽取和集成,根据不同需求可以从该类数据中有选择型的进行分析处理。传统的分析技术,如数据挖掘、统计分析等在大数据时代已较为落后,并面临着新形势下的挑战:数据量大并不会导致数据价值的增加,相反会引起数据噪声的增多,因此数据清洗等预处理工作必须在数据分析之前得以实施,而预处理如此海量的数据对于硬件设备和软件算法都是极大的考验;
由此在新形势下软件算法需要升级换代:首先大数据技术常常应用在实时性领域,这就决定了实施算法的关键是在实时性和准确率的平衡上;
其次云计算是数据处理有力的工具,这就需要使算法适应该技术框架,实现其可扩展性。
3.计算模拟科学
计算模拟科学是一个与数据模型构建、定量分析方法以及利用计算机来分析和解决科学问题相关的研究领域。在实际应用中,计算科学主要用于对各个科学学科中的问题进行计算机模拟和其他形式的计算。其问题域包括:数值模拟,数值模拟有各种不同的目的,取决于被模拟的任务的特性。重建和理解已知时间,预测未来或被观测到的情况;
模型拟合与数据分析,适当调整模型或利用观察来解方程,不过也需要服从模型的约束条件,利用图论建立网络模型,特别是那些相互联系的个人、组织和网站的模型。
四.大数据应用与案例分析
1. 大数据应用案例之:医疗行业 Seton Healthcare 是采用 IBM 最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过 3000 次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。
它让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类 App。也许未
来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。
2. 大数据应用案例之:能源行业 智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来 2~3 个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。
维斯塔斯风力系统,依靠的是 BigInsights 软件和 IBM 超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足 1 小时便可完成。
3. 大数据应用案例之:通信行业 XO Communications 通过使用 IBM SPSS 预测分析软件,减少了将近一半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM 新的 Netezza 网络分析加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通信企业制定更科学、合理决策。
电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。
中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。
NTT docomo 把手机位置信息和互联网上的信息结合起来,为顾客提供附近的餐饮店信息,接近末班车时间时,提供末班车信息服务。
数据化生存 IT 行业的“指数效应”威力惊人,比如,IT 的基石芯片行业有个摩尔定律,每 18 个月芯片上集成的晶体管数会翻番,由此会带来一系列指数式连锁反应——CPU 的性能翻番,芯片的成本折半,功耗也会折半。这也就是大家为什么看到电子产品快速降价的根本原因。
市场调研公司 IDC 认为,大数据行业也有“摩尔定律”。英特尔中国研究院院长吴甘沙非常认同这个说法,他曾是英特尔中国研究院首位“首席工程师”,主持大数据研究。“如果说摩尔定律是我们所在的指数社会的基因,那么大数据就是指数社会的蛋白质。”吴甘沙说。
有人说大数据是新的原材料、新的原油、新的资产,甚至是新的货币,而吴甘沙认为,人类现在的生存就是一场数据化生存。人类社会的各类设备在不停地感知、传输、存储数据。今天,人们认为谷歌可能是最大的数据拥有者之一,但按照指数增长规律,到 2020 年,一年所产生的数据将是 1000 个今天的谷歌或 10000 个百度。
“我们看到数据和计算能力在过去 15 年间一直呈现指数级增长,这种增长给我们带来了根本性变化——不能再看单独的数据,而是把全部数据放在一起来考虑,来描绘出对人、企业或是业务的高清晰图像。”大数据之父 Doug Cutting 说,“这件事是一个革命性、阶段性的变化。”Doug Cutting 是开源技术世界中一个很具影响力的人物,他打造了目前在云计算和大数据领域里如日中天的开源技术 Hadoop。他是 Apache 基金会主席,也是大数据平台企业 Cloudera 的首席技术官。
大量、快速增长的数据需要实时储存、整合和分析,过去的 IT 架构已经无法应付,这就促成了一种名为 Hadoop 开源新架构的诞生,这是个可以无限扩容的分布式计算结构。
在这个无限扩容开放式架构的发展大势下,IT 业界才倡导了“软件定义基础设施”的趋势,把计算、存储和网络做成开放式的标准模块,降低设施的门槛;
在基础设施之上,推动开放、可信数据处理平台 Hadoop;
在此之上,推动整个生态圈的创新,实现各类分析应用,把高级分析功能平民化,使得它能迈入主流市场,实现规模经济。
五.结束语
“大数据”时代的来临,是机遇也是挑战,其中存在的一个明显问题就是,传统的计算机病毒、服务器受到恶意攻击与盗版软件的问题依然存在,还出现了操纵和篡改他人数据以及伪造和假冒他人身份等许多新问题,这些问题对互联网的服务品质造成了很大的冲击。这些问题对软件的设计提出了更高的要求,计算机软件必须能够在运行过程中对于互联网的环境进行判断,进而对其进行控制。而且,人们已经致力于内容感知网络技术的研究,相信不久的将来就能够为人们服务。
参考文献 [1]
Mayer-Schonberger
Vikto:著.周涛译.大数据时代.杭州:浙江人民出版社,2012. [2]
Manyika J. Chui M,
Brown B, et al.
Big data:
The Next Frontier
for
Innovation. Competition,
and
Productivity. Technical Report,McKinley Global Institute, 2011. [3]
Cants J,Reinsel D, Arend C. The Digital Universe in 2020;Big
Data,
Bigger
Digital Shadows.
IDC
Country
Brief Report, 2013. [4]
Tolle KM.
The fourth paradigm;
Data-intensive scientific discovery. Proceedings of IEEE, 2011,99(8):1334 一 1337. [5] 李国杰.大数据研究的科学价值.中国计算机学会通讯.2012, 8(9):8-15.
Scientific Research On Big Data 【Abstract】
Based on the 89th Shuangqing Forum sponsored by National Natural Science Foundation of China entitled “The Challenging Scientific Problems in the Fields of Technologies and Applications of Big Data”, we summarized progress in the subject of technologies and applications of big data, including big data acquisition, big data memory and management, big data processing and computing, and big data applications. According to discussions at the 89th Shuangqing Forum, we also proposed the nine frontiers scientific problems need to be highlighted and solved in the forthcoming research plans;
and suggested some policies and solutions associated with research on technologies and applications of big data. Key words Big data,Acquisition, Memory and management, Processing and computing, Applications