返回 登录
0

专访清华大学邓仰东教授之 打破国外对火车通信控制芯片的垄断

在一个阳光氤氲的周五下午,CSDN记者在清华大学的一间会议室里,见到了邓仰东老师。邓仰东老师现任清华大学软件学院副教授,是最早开始使用GPU进行通用并行算法设计的研究人员之一。

图片描述

邓老师本科及硕士均毕业于清华大学,并取得卡内基梅隆大学的博士学位,师从Wojciech Maly,进行三维集成电路相关设计的研究。博士毕业后,邓老师加入Magma,一家位于硅谷的集成电路计算机辅助设计公司。2008年,邓老师回清华微电子系任教,作为NVIDIA合作教授,参与其大赛的评审工作,并在全国范围内开展了系列讲座。同年,邓教授在国内率先开设了GPU并行程序设计训练课程。著有《异构处理器OpenCL编程导论》。

为方便您的阅读,笔者将本次访谈内容分成如下几部分:
- 从GPU到GPGPU
- 打破国外对火车控制系统的垄断
- 贝叶斯计算机与三维集成电路

本文为第二篇,采取问答形式。趣谈邓老师实验室如何打破国外对火车控制系统的垄断、研发期间遇到的问题、以及该控制系统对火车检修方面的便利。

图片描述

CSDN:您是如何结缘火车控制系统的呢?

邓仰东:在2012还是2013年的时候,当时北车集团有这个需求。火车上有一个通信网络,所有的电子设备、机械设备都通过这个网络连接起来,司机的操控指令也通过这个网络传输。控制这个网络,需要有专用的通信控制器芯片。这个芯片当时我们国内造不了,只能从国外进口。全国差不多只有几千辆火车,量小,从国外进口就很贵,所以中国每年在火车芯片上有一笔较大的开销,而且进口的芯片也有种种的质量和可靠性问题。

CSDN:为什么我们自己不能制造这个芯片?技术原因吗?

邓仰东:其实这个芯片在设计上不算复杂,是一个中等规模的芯片,难度在于可靠性保证。可靠性主要体现在两个方面,一方面是产品本身的可靠性,例如在恶劣的工况环境下还能否工作;另一方面是供应商的可靠性,火车要工作30年,这就要求设备供应商在30年之内都要存在。出于综合考量,选择清华大学的实验室研发芯片是一个不错的考虑。所以当时中国北车集团找到清华说能不能设计这个芯片,任务就分给了我们。虽然我不是专业做火车芯片的,但是想想也还能做,然后就开始做这个芯片。最终确实做出来也成功完成了装配,目前大连地铁、兰新高铁、阿根廷地铁、埃及机车,都装配了这个芯片。渐渐地,中国可能会有一半的火车通信控制器芯片都是这个芯片衍生出来的产品了。

CSDN:您刚才提到通信控制器芯片的可靠性保证,可靠性有衡量标准吗?

邓仰东:有的,必须通过10万公里无故障运行测试。这里有很多悲伤的故事,有一天我们接到通知,说芯片突然无法启动,排查之后确定是温度的原因,温度的变化导致芯片电路中电子运动速度的变化,进而导致有些逻辑门电路接收信号的时序关系混乱。这样的话,在天气比较寒冷的情况下,例如户外洗车之后再启动就会有问题。这个问题没有办法在室内再现,当时事发紧急,也没有时间买温箱。我们就想了一个土办法,把板子放在地上,拿一个泡沫板,穿一个孔,当做盖儿,每次露出一个芯片,用吹风机加热露出来的芯片,最后排查到问题出现在哪个芯片上。后来我们重新设计了电路,很多地方都做了调整。

CSDN:重新设计之后顺利通过测试了吗?

邓仰东:再上车就又出了一件事儿,当时系统突然死机。这个问题我们始终没能再现,我们只能大概猜到是哪儿出错了,但是并不知道为什么会出错。我猜可能是列车上的一些干扰,因为列车操控环境是一个强电磁环境。列车上的电机里有很大的电流,翻转一下就会产生较大的干扰。这个问题只发生过这一次,我们做了很多电路去自动检查芯片的状态,如果它跳变到某个异常状态,我们就设置它自动内部重启,外部感受不到,从此以后就再也没发生过故障。

CSDN:现在我们的火车芯片能够打破国外的垄断,除了芯片的费用降低方面,还有什么样的意义呢?

邓仰东:如果我们能够代替国外的设备,使用自己的产品,我们就能从火车上采集数据。其实我们做这个项目的本意也在于此,我们不是想做一个简单的芯片。采集了数据之后,我们就能做一些更重要的事情。现在我们的火车、地铁、机车、高速动车组,都有过度维修的问题。出于安全保障方面的考虑,火车每4000公里检修一次。4000公里其实很短,京广高速铁路一来回就是4000公里,一天内就可以来回,这就需要巨大的人力成本。如此频繁的检修是否有必要?这个问题其实可以通过数据来解决。实际上火车的运行规律和状态规律是可以预测的,我们能够根据历史运行经验推测火车什么时候会出问题,这样就可以在该修的时候进行维修。香港就是这么做的,但香港不是依靠大数据,是依靠经验,每27天检修一次。

CSDN:所以这个项目把中国火车带到了新的时代吗?

邓仰东:也没到这个地步,实际我们现在意识到了这个需求,但是怎么着手解决这个问题,困难还是很大的。虽然我们能够采集数据,但不是全部的数据我们都能获得,因为中国的机车、高铁上有相当多的设备是从外国进口的,这样就造成了有些数据我们采集不到。现在的问题是,怎么挖掘现有的有限数据,去尽量地获得更多的信息,然后逐渐地添加新的传感器、摸索新的机制,去不断地解决这个问题。机车方面美国是做得比较好的,美国GE的机车在全球有一万五千台,这些机车上的数据会全部传回GE进行分析,维修的时候GE几乎不需要派工程师来现场。我们中国的机车出口的时候,维修的问题是如何解决的呢? 现在我们中国的方法,比如说现在中国机车出口到澳大利亚、新西兰、南非,出了故障经常需要一次性派三个人去,一个是管机械的、一个是管电子的、还有一个是管翻译的。现在机车公司的日子其实并不好过,机车的利润很薄,天天派三个人在国外住着,还要来回飞,而且经常不是一天两天就能解决的,可能需要小半年的时间,费用方面就是一个大问题。

现在中国的地铁已经出口到美国,美国芝加哥、波士顿的地铁都是中国的。那就又带来一个问题,去国外维护铁路,就不能按照我们国内每天都检修的频率进行。因为美国的做法一般是,买了中国的地铁,车要在美国造,还要成立一个合资公司到美国去造车,维护也是由合资公司来维护。这个公司70%以上的雇员必须是美国本土人。这样带来一个问题就是,人力成本更高。所以现在针对海外机车维修的需求很迫切,我们希望像GE一样,通过数据预测方法维护机车健康。所以我们现在有一个专门针对海外机车健康维修的项目。这是我的大部分学生,还有我大部分的时间在做的事情。

CSDN:目前对于火车数据挖掘,您采用的具体办法是什么呢?

邓仰东:火车数据挖掘包括两方面,一方面是火车健康数据的预测,比如轴承的温度,通过当前的数据预测接下来的数据;还有一个是故障的预测,要预测故障,就要知道发生故障的时候火车是什么样子的。火车正常工作的原理我知道,即使我不知道设计师也知道,但是故障的原理,设计师也不知道。所以现在我们采取的办法是,通过机器学习让系统学习故障状态,进一步到达预测的目标。但是故障的数据量通常不会很多,经常只有几千个数据点,但是我们需要从中猜出很多的东西。火车上有6000种故障,大多数故障可能一年都不会发生一次。所以我们缺乏故障样本,这是一个很麻烦的问题。在细小的数据中还要学到一定数量的东西,这是我们最大的困难之一。


想要获得更多技术干货?关注CSDN人工智能公众号 AI_Thinker

图片描述

评论