Fibre Channel 高速光纤通道系统的测试
2004-03-27    保罗 · 列文   
打印自: 安恒公司
地址: HTTP://anheng.com.cn/news/article.php?articleid=176
Fibre Channel 高速光纤通道系统的测试

一,前言

在一个机构内部,分配数字化视 频/数据的方式已经取得了显著进步。 FibreChannel技术已允许基于服务器技 术的RAID在分配网络之问发挥其吞吐量的潜力,为广播和后期制作视频数据 的实时分配和传输提供了途径。在不久的将来,FibreChannel将允许MPEG—2 流和其它在广播和后期制作机构中常用 的信号在各节点问自由分配。本文提出了为优化基于FibreChannel产品的发展所必需的测试设备,以及如何利用它 们在一个机构内对FibreChannel链路进行监测和测试。

二,Fibre Channel系统

你的业务机构迟早会充满Fibre Channel,有一点同样可以肯定,那就是 有一天你会发现,FibreChannel系统的工作不能如你所期望的那样。发生这样的事情时,用户就想知道它为什么不能 正常工作,这是“恢复常规”的第一步。

多年来,我们已经看到这一动向。 FibreChannel有许多优良的性能,使其自然适合于媒体应用。FibreChannel不仅有很高的带宽,而且能够工作在相隔距离远得多的设备之间,并允许轻松地混合视频、音频、图形和控制信号,不管它们的载送是依循IP、SCSI,还是其它协议。既然已有各种供应商可提供设备,接下去就是建立系统。 开始时,系统工作会是良好的。它将按期望的那样做任何事情。但是惭惭地,随着应用或存储要求的改变,或某 一项要求需要升级或业务扩展,突然间,其性能显得不足,在需要某一性能 的时候却偏偏没有。可能出现响应时间延长,或偶然地,视频或音频包不能及时送达,甚至根本就收不到。

用户要消除这些症状,就必须首先 追查在FibreChannel层面出现了什么问题。进行这一步的最基本工具是协议分析仪,接着是性能监视器。这些设备只是作为观测仪器 而被接入环路或光纤网中,它们不会以任何形式启动或中止通道中的通信,或改变通信。 不像SCSI中所有信息都流经总线 上的每一点,FibreChannel包含一系列固有的单向链路。为了解设备性能。监测点至少有两个,一个在上游,一个在下游。因此,所有的FibreChannel协议分析仪都有两个接口。较复杂的测试环 境可能需要多组装置协调运行。

三,测量仪器

为简单起见,对这两种工具的讨论将从性能监视器而不从协议分析仪开始。 性能监视器是一种可以实时显示所通过的传输流的通信量、信息统计和基本误码情况的装置。特别地,对光纤通道的显示包括:速率显示,包括B/s、帧/ 秒和链路利用率;信息表征—帧规格分配;低级误码情况,指编码混乱(CV)、 循环冗余检查(CRC)失效和环路启动程序(LIP)事件。速率显示是以瞬时值、 峰值或对时间的曲线图来表示的,误码情况用时间标记来存档。 协议分析仪是记录通过它的全部 信息或特定部分信息的装置,并备有时 间标记。它含有两种等同的、有协调控制效能的独立信道(见上面对两类独立 信道要求的讨论)。当两个信道不够用 时,多台分析仪能够同步运作。被捕获 的数据可存储到一个超高速RAM上或 (经过滤波以减少带宽要求)一个硬盘驱动器上。一旦操作停止,用户就能观看捕获的数据,或者经软件包后处理后 产生详细阶性能分析。 由于FibreChannel数据将以接近每个信道100MB/s的惊人速率通过协议分析仪。如何控制所需存储信息就非常重要。这是对示波器的触发器功能的直接模拟。

不过。协议分析仪的存储能够多次开始和停止。因而它能收集相似 的多个案例,并允许对它们进行独立分 析。(通过使用时间标记,用户可以知道确切的命令,以及至少需要多长时间 能将捕获到的各个事件片段分开。)通常FibreChannel触发器会在一些帧和或特定素材内切断某些特定场的匹配, 但是如果协议分析仪种性能监视器是链接的,就能在用户的触发事件项目上添加不同吞吐量测量和误码情况。 有时用户可能希望将捕获的带宽 限制在较固定的位上,并将结果轨迹存 到硬盘驱动器上。通过这一措施,用户 能获得数小时甚至数天之久的追查轨 迹。很显然,为进行这类捕获必须非常 专注。协议分析仪内的数据滤波器允许 用户将捕获局限于存一个特定的源识别 码和/或目标识别码。特定类型的命令 或响应,或只是每一帧的前几个字节 (数量由用户规定)上。 那么,怎样使用这些工具呢?

四,测试方法

要检查的最基本的项目是 Fibre Channel环路本身的完整性。只要快速浏览一下误码资料,用户便可知道各条电路或光链路是遇到了麻烦还是工作正常。一旦系统启动,除非环路上的某一设备不得不替换或环路因其他原因而中断,LIP一般不会发生。FibreChannel 声称指标为运行误码率低于10¯¹²(大约每小时3个),大部分用户报告说其误码率远低于这个值。如果误码存档报告不如LIP所期望的,或每小时CV或CRC 误码数量超过l—2个,就该检查一下环 路中链路的完整性了。 如果链路完整性出了问题,由于 FibreChannel环路就像小孩们玩的“打 电话”游戏一样,用户就会面临新的挑 战。除非误码是发生在原发地和性能监 视器之间,否则用户很难确定误码究竟 在哪儿发生。

ANSI Tll 委员会正在试 图借助链路误码状态功能(LinkEnor StatusFunction)来解决这个问题,其设 想是在每一个节点掌握误码事件。不 过,在真正做到这一点之前,还没有什 么简便的办技可以识别链路状态(RLS) 命令对环路作定时查询,并确定在线路 中应从哪一个端口着手探查误码。 如果将性能监视器的误码探查效 能用来触发协议分析仪,用户就应该能 够捕获有误码的帧,并有希望查出原发 地。然后用户就能够将性能监视器向一 条链路的上游每移动一次观察一下各位 置的误码率。“误码率台阶”(EnorRate Step)一旦确定,问题就可隔离在那个 端口(或与其直接相连的下游电缆)上。 如果问题与链路完整性无关,另一 个可能件是环路自身有过载情况。环路 过载很容易用性能监视器测出来。峰值 总线利用指示(或总线利用率对时间 的关系曲线)可能显示一条摆幅异常大 的利用率曲线,它从很低的平均数(完 全处在Fibre Channel容量内)至接近 100%,它导致转换迟缓(甚至失效)或 响应缓慢。这种情况表明,可以利用性 能监视器的某种门限(如:利用率超过 90%)作为协议分析仪的触发条件。包含整个峰值利用期(包括临近起始部分) 的轨迹能显示:为什么大量的信息试图 在同一时间通过环路。 即使FibreChannel环路没有过载, 仍然有可能存在环路上某一装置过载的 情况。

协议分析仪可以多种方式帮助用 户找到这种问题的根源。首先,可运用 后捕获软件仅仅收集和分析帧头部分的 长轨迹。以确定短期和长期载荷是否平 衡。如果一个装置特别忙,其通信就应 予以隔离(应用协议分析仪的滤波功能), 并对其进行详细研究。即使没有特殊问 题,这种初期的全设备隔离程序也要定期进行。与早期的数据进行比较。可显示不安全趋势因而提高警惕以防止在未 来某一时间出问题。如果可即时发现响 应时间或丢失数据的影M向,第二种方案 是连续捕获更详细的轨迹(“包裹模式”), 一经发现影响,立即停止捕获。要记住, 所谓“发现”并不限于人工操作,对任何 错误的电子显示都能与协议分析仪的外 同步输入相连。用来停止捕获。这样, 分析仪的轨迹中就会含有引发问题的特 定事件。检查时间标记以确认轨迹足够 长,以及包含出现问题的时间段;不然 就重新调节滤波特性(如每帧数据)以 延长捕获期。一旦被捕获,相同的后捕 获分析软件或可视检查就会显示有问题 的装置。如果需要更多的信息,可作第 二次运行,只储存从特殊识别码上得到 的想要的帧,以便仅从这些帧上捕获更 多的细节。

丢失数据的另一个潜在原因是定 时但却无序地发送信息。出现这种情况 时可用上段所述方法来监测。 希望本文能够帮助人们减少运用 FibreChannel这一激动人心的新技术时 的忧虑。潜在的问题还可能出现,并需 要运用新的诊断方法,但是现在已经可以得到为使系统保持高效运行状态所需 的诊断工具。 


 

责任编辑: admin