搭配Hadoop巨量储存架构 半导体设备提高生产效能
半导体制程迈入20奈米以下技术节点后,良率、生产周期及成本管控的挑战更加艰钜;新式Hadoop资料储存架构可让半导体厂以更低成本达成巨量资料储存,进而利用深入的统计分析实现更精准有效的设备管理,提高产线运作效率。 近年来,为收集更多感测器资料,长时间保留资料,并加以有效运用,制造商面对不断加重的挑战。例如最先进晶圆厂的工具感测器和故障侦测生产资料库,保留资料1至3个月需要20?30兆位元组的储存容量。随着产业转移至20奈米以下技术制造和新世代工具,情况将加剧。 收集和储存资料,对于达到必要的良率、生产周期时间和成本至关重要,但这只是资料问题的一部分。另外更重要的是,如何经由快速及具成本效益来分析这些资料,改善机台的效能和工厂产出的良率即时的资料分析,对于找出最佳化机会、大幅加快目前的速度,具绝对关键性影响。 所幸资料管理、资料分析技巧和预测技术的演进,为半导体产业提供满足这些需求、具有前景的全新解决方案。 传统感测器储存 无法处理巨量资料 感测器及统计资料所使用的分析软体,必须使用一或多个工具、特定时间范围、感测器、统计资料、配方表、批量、晶圆组合等构成的述词,进行资料库查询。但目前的资料储存策略,以述词查询巨量资料(Big Data)集,无法获得最佳结果。因此,资料大规模成长导致严重问题,影响感测器资料的储存,也无法有效执行分析查询。 首当其冲的问题是,要将来自数百或甚至数千个工具的资料传送到中央储存系统,需有高效能的储存系统。但以目前的储存技术与价位,要储存数百TB的资料,将大幅提高晶圆厂级设备工程解决方案(EES)的基础设施成本。以400兆位元组的企业级中央储存系统为例,每兆位元组所需成本,是具备类似备援功能同等级本机附加储存的四倍之多。 第二个问题是,多数感测器资料的结构与储存,都采用传统关联式的列与栏方式。但资料容量暴增后,这项方式却无法随着最新故障侦测、预测及产能分析应用程式扩充,达到所需效能等级。运用传统关联式资料处理技术处理大量资料,成本将高得惊人,严重影响新世代应用的投资报酬率。 Hadoop有效处理巨量资料 过去几年里,资料管理技术方面的进展,为社交媒体、零售及财务等须管理大量资讯的产业开启可能性,能以更有效率的方式,管理感测器及其他半导体制造资料。举例来说,其中一个解决方案是Apache Hadoop,这是一种开放源码软体架构,用于储存及处理分散于硬体商品丛集上的大量资料。其概念可兼顾大量资料储存,同时以更低的成本,加速完成资料处理。此开放源码软体平台,主要包含Hadoop分散式档案系统(HDFS)和运算架构,可于分散式档案系统上平行运算。Hadoop分散式档案系统,可从数十扩充到数千台伺服器商品,将庞大资料集大范围散布至本机附加储存,大幅降低储存成本。 查询资料时,运算架构将于大量资料节点上平行处理资料,将扫描大量资料集所需处理时间缩至最短;Hadoop平台上还有其他辅助技术,可协助有效执行资料消化、储存、运用结构化的查询语言(SQL)查询资料,提供安全性和类似企业资料处理需求。 Hadoop 资料储存,可解决目前制造环境的多项问题。首先Hadoop分散式档案系统,可加入低成本的储存装置扩充资料储存,因此成本仅为集中系统资料储存成本的四分之一。其次,拥有较大的资料储存,制造作业可保留及查询的资料集,比传统集中储存库时间更长、范围更大。目前有些自动化和设备工程系统公司提出要求,希望能查询最长达两年的资料,其中所牵涉的问题从变异控管,转变为更深入的资料分析。 现今公司储存的资料类型多元,包括事件、量测和影像资料等,并希望能将这些资料开放给一般的追踪与摘要统计资料。最后,有些公司拥有多座采用自动化和设备工程系统解决方案的晶圆厂,因此需在晶圆厂之间分享及传送结果,必须找一个集中储存位置以查询和挖掘,从多间晶圆厂诊断出结果。 半导体制造可善用巨量资料 半导体设备商目前正开发多个应用程式,以预测技术和近乎即时的资料分析为基础,改善产能及工具效能。不过,Hadoop虽然为这些应用程式提供分散式资料储存及处理架构,但却不足以支援应用程式的需求。 以下的简短说明,可概要了解Hadoop架构在半导体制造环境中的效用。为取得资料的备援及高可用性,Hadoop将资料档案以预先定义的区块大小,分散到数十个资料节点,如图1所示。假如资料档案的大小为256MB,而Hadoop区块大小为128MB,则资料将分割为两个区块,每个区块各128MB,区块的备援副本将散布到Hadoop丛集上的多个节点。在本例中,须扫描完整档案查询,可在两个平行程序中执行。在资料时间范围拉长,以及查询须存取的工具数量持续成长下,使平行程度不断成长,因此大幅提升资料撷取效率。 图1 Hadoop 丛集中分散于多个节点的感测器资料。 此架构亦能对须处理大量资料集的查询进行分割,让部分查询可在多个节点上平行执行(表1)。因此即使资料容量扩大,也可大幅缩短查询的处理时间。假设查询述词使用特定的时间范围和工具集,例如用资料库中的两个栏,譬如时间、工具进行筛选。再假设,所需资料来自工具集所储存的一百个感测器的其中十个。在 Hadoop架构下,查询引擎将扫描两个栏中经过压缩和连续的值,以筛选资料并从十个感测器样本撷取输入。引擎将不会处理工具所储存的另外90%的感测器资料,因此可大幅减少查询引擎所须扫描的资料量。 表1 Hadoop 丛集中分散于多个节点的感测器资料,查询处理亦在多个节点上散布平行执行。 Hadoop 是专为大规模储存及分析所设计,晶圆厂目前多数的资料处理需求,则是获得小型资料集的最佳效能。其常见使用个案包含传统报告、模拟和配置功能,这些功能在自动化和设备工程系统内都可找到;添购HDFS须与其他的自动化和设备工程应用程式整合。报告及模拟环境须要从短期和长期的资料储存位置进行查询、合并资料,再透过标准介面回报,部分半导体公司并不希望HDFS资料使用新的使用者介面。 半导体公司可透过HDFS存取更大量资料集,并希望能执行进阶的资料分析活动。运用更大型资料集的新兴解决方案,将可横跨多个维护事件、横跨多个工具,执行反应匹配及指纹辨识,亦能将多项丛集分析技巧,套用至追踪及摘要统计资料,譬如比对正确与错误,以及观察的趋势,一般而言,这需一年以上的资料才有效。 添购Hadoop基础设施,加入自动化和设备工程系统,仍有其挑战。尤其相较于关联式资料库系统,半导体产业对Hadoop基础设施较不熟悉,也无同样深入的经验。为能普及运用,Hadoop系统执行查询及报告的效能,必须跟上关联式系统的水平。再加上其基础设施有着不同于关联式系统的要求,而在半导体公司采用这些解决方案的同时,也须提供资料安全性模式和受控制资料存取等功能。 运用Hadoop平台执行大规模分析资料处理,有潜力可解决半导体产业资料爆炸性成长的问题,其低成本的储存与资料处理,能收集大量的感测器资料,若要能运用这些资料,便须开发出合适的资料格式、架构和查询引擎,半导体制造商才能善加利用。 |