邹凡云计算机系统结构 1101213909
一、UC Berkeley计算机专业简介
UC Berkeley的计算机系在全世界排名第4,在计算机科学领域拥有极强的教育和科研能力.
计算机系的研究领域覆盖面非常广泛. 有人工智能、计算机系统结构、数据库、图形、人机交互、操作系统与网络、编程系统、科学计算、安全、理论这十大领域. 实验室包括可靠自适应分布式系统实验室、并行计算实验室、互联网流行病学和防御合作中心、视频和图像处理实验室、机器人和智能机械实验室、无线嵌入式系统实验室、智能系统中心、新媒体中心、计算机动画和建模组、设计院等等.
二、最强的三个研究方向
最强的三个研究方向是:数据库、安全、分布式系统. (另有结论:体系结构、操作系统、网络三个方向)
1,数据库
Berkeley, Stanford, Wisconsin在数据库方向算是三巨头. Berkeley在该方向的研究具有一定的历史以及影响. 1973年加州大学伯克利分校的Michael Stonebraker和Eugene Wong利用System R已发布的信息开始开发自己的关系数据库系统Ingres. 他们开发的Ingres项目最后由Oracle公司、Ingres公司以及硅谷的其他厂商所商品化. 后来,System R和Ingres系统双双获得ACM的1988年“软件系统奖”.
2,安全方向
伯克利拥有世界领先的研究团队. 信息安全方向在全美排名中位居第一. 单是安全这一研究方向,就一共有6个分支的研究中心. 关于安全方向的研究包括安全投票、僵尸网络、网络安全、密码学、隐私、软件安全. 最近,Juan Caballero, Chris Grier, Christian Kreibich和Vern Paxson发表的“Measuring Pay-per-Install: The Commoditization of Malware Distribution”在2011年USENIX安全研讨会上获得最佳论文奖. 另外,有一位Anthony D. Joseph副教授,他的主要的研究方向有安全的机器学习、移动/分布式技术以及无线通信(网络技术)等方向. Joseph在安全方向算是很牛的. 我认为Joseph的安全的机器学习这个方向非常有前途.因为现在的机器学习中,比如在推荐系统、排序学习中,都存在一些作弊行为. 但是为了公平的市场竞争环境,我们应该避免作弊行为,创造安全的机器学习. 现在也确实已经出现了很多反作弊研究.
3,分布式方向
分布式方向主要就是RAD实验室在做,有着众多大公司的支持. 2009年,主要的赞助企业有:Google, Microsoft, Sun,合作企业有:Amazon Web Services, CISCO, Cloudera, eBay, , Fujitsu Labs of America, Hewlett Packard, Intel, NetApp, SAP, VMWare, Yahoo!
该实验室正在进行的研究项目很多. 比如:
1)分布式应用程序的重播调试. 该项目是为分布式应用研发一种新的调试工具. 目的是为了帮助诊断和修复在部署前难以检测的软件错误,包括复杂的竞争条件和所谓的“heisenbugs”. 为此,延长了确定性重播技术,以支持运行在数以百计的机器上的C/C++应用程序的连续记录.
2)面向数据的网络架构(Data-Oriented Network Architecture,简称DONA)探讨了一种全新的以数据为中心的网络架构的方法. 设计的原因在于目前互联网大多数的用途是数据检索,用户关心的是内容而不是他的位置. 虽然现在的互联网架构在支持一系列的数据传输服务方面很成功,但是它面临一个根本的是它是把数据和一个特定主机绑定在一起的,这会使数据的复制和迁移非常困难.
三、最感兴趣的三个老师
1,David E. Culler
他是UC Berkeley的EECS的副院长. 他所涉及的研究领域有计算机系统结构与工程、操作系统与网络、程序系统、安全、并行体系结构等等.
他1980年在UC Berkeley获得了学士学位,1985年和19年在MIT获得了硕士和博士学位. 他在19年加入了EECS的教师队伍,是UC Berkeley英特尔研究中心的创始人,也是EECS的副院长. 他是国家工程院院士,是ACM成员,被选入科学美国人研究者的前50强,10项技术将会改变世界. 他被授予国家科学基金会总统青年研究者和总统学院奖学金. 他的研究涉及小型嵌入式无线设备、行星尺度的互联网服务、并行计算机体系结构、并行编程语言和高性能通信网络. 包括TinyOS、Berkeley Motes(一个无线传感器模块)、PlanetLab、工作站网络(NOW)、互联网服务、活动消息、Split-C和螺纹摘要机(TAM).
他研究的Split-C,我比较感兴趣,于是大致看了下. Split-C是并行扩展的C编程语言,它支持在当前的分布式内存多处理器上高效的访问全局地址空间. 它保留了C的精简的字符,并通过提供一个简单可预测的成本模型来支持细致的工程和优化方案. 在编译时依赖扩展程序转换在并行机器上取得性能对于语言是有着鲜明对比的. Split-C程序做程序员指定的工作,编译器负责处理和通信,以及代码生成. 因此,开发并行或位置的能力并不因为编译器的识别能力而受限,在优化程序的时候编译器转换也不会有二义性. 该语言提供了一个全局访问基元和简单的并行存储布局声明的一个小的集合. 这些似乎捕捉到了在共同熟悉的环境下共享内存、消息传递、数据并行编程中的大部分.
其实Split-C在1996年就已经出现了,但是它的开发一直被搁置了. 我在调研中还发现Cornell也在做Split-C的项目,不过通过有限的查阅,没有找到第三个在做这个的团队. 以后应该会有更多的团队对其进行研究或使用. 我相信它一定能够推动并行计算的发展.
2. David A. Patterson
他是美国国家工程院院士,美国国家科学院院士,是RISC之父. 所获奖项有:1995:IEEE技术成就奖(RISC);1999:IEEE Reynold Johnson信息存储奖(RAID);2000:IEEE冯.诺伊曼奖(与John Hennessy分享);2008:Eckert-Mauchly奖. 他的突出贡献主要有:RISC、RAID、NOW、13 dwarfs. 代表性项目主要有:UPCRC (Universal Parallel Computing Research Center)、RAMP (Research Accelerator for Multiple Processors). 世界级教材(与John Hennessy 合著):Computer Organization and Design: the Hardware/Software Interface、Computer Architecture: A Quantitative Approach.
3. Ion Stoica
Ion Stoica教授在CMU获得了电气和计算机工程博士学位,在2000年到伯克利的电子与计算机学院任教. 他的研究领域包括操作系统与网络、安全、分布式系统、QoS、资源管理、性能分析等. 他曾经发表的论文所覆盖的研究点包括网络协议、架构、QoS、路由、分布式、安全.
关注Ion Stoica教授,是因为他和Scott Shenker教授带领他们的团队正在做DONA的项目. 这和我们实验室正在研究的CCN是同一范畴. 在上文中也提到了,DONA的探索是基于内容的架构,允许一个客户端通过它的名字(一个自我证明标签)来请求一块数据,而不是拥有数据的机器的地址.
四、论文研究--《A Data-Oriented (and Beyond) Network Architecture》
这篇论文是综合介绍了DONA以数据为中心的网络架构. 这篇论文的亮点在于这是一种全新的设想,打破了历史的思维定势. 由以位置为基础到以数据为中心的思想跨步是进步式的、跨越式的. 当然,这既是它的亮点,又是它的难点. 这是一种新的网络架构,它需要重新设计层次、设计策略以及考虑安全问题. 这篇论文的研究价值是非常高的. 现阶段的网络架构存在很多问题. 随着移动计算的发展,IP架构不能很好的对其进行支持;目前网络上的安全问题依然不能很好的解决,有很多漏洞;同时IP地址也十分紧缺;数据的复制和迁移非常困难等等. 如果这种以数据为中心的网络架构辅以较完备的安全策略及路由策略,得到完整的研究成果,在产业界加以推广,必将带来一个崭新的互联网时代. 下面对DONA 的具体思想加以研究与分析:
在做之前,他们在架构中定义了两个基本的概念,即:FIND-允许一个客户端通过它的名字(而不是它的位置)请求一个特定块的数据. REGISTER-使用此操作,内容提供者表明他们可以提供一个特定的数据对象.
为了支持这两个概念,DONA引入了一个新的网络实体—数据处理程序Data Handlers (DHs),它结合了名称解析和数据缓存的功能,负责到数据附近的副本来选择客户的需求.
为了解析和路由,DONA中设计了一种叫做解析处理器(RH,resolution handlers)的中间节点,包含了现存网络中的DNS 服务器和路由器的功能. DONA 网络中的内容是由网络进行统一管理的. 发布者需要向网络注册,然后发布. 为了实现基于内容的路由,有2种命令查找和注册,新数据向RH发送注册命令,数据失效时向RH发送解除注册命令;用户向DH发送查找命令来获取数据. 它维持一个比较大的转发表,标记了每个内容的下一跳信息. 用户在发送查找命令时会先搜索RH中是否有该数据的缓存,若有缓存,则直接返回该缓存数据;否则,向前路由,在数据返回给用户时经过的RH根据一定的规则决定是否进行缓存. 这样的缓存机制可以减少路由的跳数和对链路的流量压力. 另外,RH可以作为中间沙箱,起到防火墙的作用,并对数据内容进行审查、过滤,可有效阻止有害信息的传播,提高网络的安全性.
为了保证数据的持久性、可达性(变换了IP 地址仍可以找到)、可认证性(安全性)等性质,将数据命名为P:L的形式,其中P是public key的加密形式,用于安全认证,L是该数据的标签,每份数据都有一个唯一的标签.
DONA项目与我们实验室所研究的CCN的项目一样,都是基于数据、基于内容的. DONA结合了IP层和内容服务时的一些需求. 为实现数据和服务的持久性和安全性,命名体系采用了扁平结构和可自我认证的方式. 路由机制为实现数据和服务的可用性,其映射机制为用户请求提供较近的数据副本或服务,以避免请求失败或服务器过载的情况出现等. 在DONA中定义的FIND和REGISTER两个概念类似CCN中的Interest和Data,DONA中的DHs的实施思路其实是CCN中整个的路由转发的过程,涵盖了FIB、PIT、Content Store的概念,它的数据缓存的功能和CCN路由是一样的. 数据public key: Lable的命名方式也是相似的.
但是,在DONA中,当内容被定位后,用户可以按照普通IP 路由方法找到并获取该内容. 所以,DONA 并不是要彻底改变IP网络的运行机制,而是提出了一种基于新命名体系的域名解析方案来替代现有的DNS,在IP 网络上实现以内容为中心. 但这种集成做法会带来一定的问题,例如内容移动时的通信中断和内容仿冒攻击等. 当然,DONA项目已经针对安全问题开始了深入的研究. 希望DONA项目可以推出具有较好安全策略和转发策略的完备的架构体系.
五、调研心得
通过此次调研,我对Berkeley的计算机专业有了更好的了解. 通过对具体几个方向的研究,看到了Berkeley在一些前沿领域的领先的理论与技术,近距离贴近前沿,开阔了自己的视野. 最重要的是,在调研中,发现了Berkeley所做的DONA项目,使我对实验室所做的CCN以及同时起步发展的类似项目有了更深刻的了解,也发现了他们之间在名字结构、内容保护方法等方面的异同. 我相信,未来互联网体系架构必将取得成功,打造一场信息时代变革.下载本文