第220章大数据处理关键操作（1 / 2）

“当然可以，你拿去看吧，有什么意见尽管跟我说。” 李卫脸上挂着温和的笑容，语气客气地说道。

秦奕接过论文，迫不及待地开始快速浏览其中的关键论述——这篇论文主要阐述了并行程序中并行、汇聚、通讯、映射及归纳等机制的语义。

看着看着，他的眼中闪过一丝惊喜，这里面描述的不正是前世互联网大数据处理框架 MAPREDUCE 里的基本操作吗！

前世，搜索引擎巨头谷歌在 2004 年前后发布了三篇奠定大数据处理基础的论文 ——《The Google File System》《MapReduce: Simplified Data Processing on Large Clusters》《Bigtable: A Distributed Storage System for Structured Data》。

这三篇论文为大数据处理领域带来了全新的思路和方法，宛如一把火，瞬间点燃了学术界和工业界对大规模数据处理技术的研究热情，也有力推动了 Hadoop 等开源项目的发展。

这些项目在之后的十几年里迅速成为了大数据基础设施，对整个大数据、云计算甚至是后来的人工智能行业都产生了深远影响。

其中，《MapReduce》这篇论文里使用的核心操作 Map 和 Reduce，与李卫这篇论文中的映射和归纳两个机制，本质上如出一辙。

秦奕不禁思索，原来早在这个时候，相关的核心操作就已经在并行程序领域得到应用了吗？

或许当时撰写那三篇论文的谷歌程序员正是从这些并行程序的论文中获得了灵感。

当然，《MapReduce》论文不只是应用了这两个关键操作，它还围绕这两个核心操作，精心设计了一套完整的系统架构和实现机制，涵盖数据划分、任务调度、容错处理、数据 / 代码互定位等功能，确保在大规模集群上能够稳定、高效地运行。

秦奕接着又仔细看了看李卫论文里的具体实验内容，是关于 Ada 语言在一些单机程序中的处理。

“李卫同志，我有个疑惑。” 他抬起头，目光看向李卫。

“说吧。” 李卫挑了挑眉，他刚才让对方提意见不过是句客气话，没想到这个秦奕还真敢有想法。

“你这里的并行程序，似乎只涉及单台计算机的多处理器并行，没有涉及多台计算机的并行处理。” 秦奕认真地说道。

“多台计算机的并行处理？” 李卫低声重复着这个词，随后笑道，“这需要用到计算机网络了，是吧？”

秦奕连忙点头，回答道：“对的。”

“我理解单台计算机虽然具备低延迟通信、易于管理和调度以及数据一致性维护简单等优势，但是它的处理器数量和内存容量等硬件资源有限。”

“一旦并行任务规模持续扩大，很快就会遭遇资源瓶颈，难以满足大规模计算需求。如果想要进一步提升其性能，往往需要采用高端的多核处理器、大容量高速内存等硬件设备，硬件成本高昂，且能耗也相对较高。”

第220章 大数据处理关键操作（1 / 2）

第220章大数据处理关键操作（1 / 2）