Về việc hệ thống công nghệ thông tin của thị trường chứng khoán Luân Đôn bị sập

Thứ bảy - 20/09/2008 06:57
About that London Stock Exchange IT failure

September 13th, 2008

Posted by Paul Murphy @ 12:15 am

Theo: http://blogs.zdnet.com/Murphy/?p=1242&tag=nl.e539

Bài được đưa lên Internet ngày: 13/09/2008

Lời người dịch: Trên blog này gần đây có đưa thông tin về sự cố sập hệ thống công nghệ thông tin của thị trường chứng khoán đứng hàng thứ 3 thế giới là Luân Đôn vì sử dụng công nghệ .NET của Microsoft. Bài viết này một lần nữa đề cập tới vấn đề này và chỉ ra nguyên nhân vì sao mà chỉ trong vòng có 1 năm sự cố sụp hệ thống này đã xảy ra tới 3 lần, trong khi hệ thống cũ trước đó chạy 6 năm mà không có lúc nào xảy ra những sự cố như vậy.

Nội dung bài:

Đây là lần thứ 3 trong vòng một năm và là lần tồi tệ hơn cả lần sụp năm ngoái vào ngày 08/11.

Nói thế này, đây là một “tái bản” blog của tôi cho ngày 21/11/2006 – đi cùng với một vài bình luận.

Một trường hợp điển hình khác về chống Linux của Microsoft

Như hầu hết mọi người biết thì Microsoft có một chương trình chống Linux gọi là “Có những sự việc” đặc trưng cho những trường hợp điển hình gây tranh cãi với trường hợp của Windows. Một trong những thứ đó, có đầu đề: Thị trường chứng khoán Luân Đôn chọn Windows hơn là Linux vì mức độ tin cậy, đã được gửi cho tôi bằng thư điện tử vào tuần trước.

Đây là trích dẫn kết luận dành cho khách hàng: Giám đốc điều hành David Lester của hãng LSE:

“Không có thị trường chứng khoán nào quyết tâm với một chương trình làm tươi mới công nghệ đầy khát vọng dựa trên công nghệ thế hệ tiếp sau này của Microsoft như thế này. Chúng tôi đã luôn cung cấp một dịch vụ hạng hàng đầu, nhưng bây giờ chúng tôi còn có thể nói về [công nghệ] nhanh nhất thế giới”.

Hãy thận trọng xem cách dùng từ thực sự: “Không có thị trường chứng khoán nào đang quyết tâm...” và, “bây giờ chúng tôi còn có thể nói về công nghệ nhanh nhất thế giới” (nhần mạnh được bổ sung).

It’s the third one in a year and worse even than last year’s November 8th failure.

That said, here’s a “reprint” of my blog for November 21, 2006 - followed by a few new comments.

Another Microsoft anti-Linux case study

As most people know Microsoft has an anti-Linux program called “Get the Facts” featuring case studies arguing the Windows case. One of those, wearing the title: London Stock Exchange chooses windows over Linux for reliability, arrived in my email last week.

Here’s the summary quotation attributed to the customer: LSE CIO David lester:

“No other exchange is undertaking such an ambitious technology refresh programme based on next-generation Microsoft technology. We’ve always provided a first-class service, but now we can claim to be the fastest in the world as well.”

Take a careful look at the actual wording: “No other exchange is undertaking..” and, “now we can claim to be the fastest in the world.” (Emphasis added.)

Hệ thống của Tandem này được thiết lập vào năm 1995 (bị thay thế bằng hệ thống hiện thời này) và đã giành được thương hiệu không ngưng nghỉ với thời gian ngưng trệ bằng 0 (không) qua 6 năm qua hoạt động nhưng bây giờ là của HP và vì thế đã đi nơi khác. Thay vào đó Giám đốc điều hành David Lester của LSE đã phát triển một kế hoạch – một kế hoạch được cấu trúc xung quanh một quan hệ đối tác với Microsoft: Trước khi chọn công nghệ của Microsoft, thị trường chứng khoán Luân Đôn đã xem xét lại một vài kiến trúc tiềm năng để đáp ứng được các yêu cầu về các mục tiêu thiết kế của Infolect và TRM. Khung công việc .NET của Microsoft – một thành phần cần cho tính toàn bộ của hệ điều hành Windows Server 2003 – đã được chọn vì một số lý do, bao gồm hiệu quả của các nhà lập trình, tốc độ thực thi, và tinh có thể mở rộng được về phạm vi. Ứng dụng của Infolect, mà nó được đưa vào sản xuát vào tháng 09/2005, đã được triển khai trên tổng số 120 máy chủ ProLiant của HP qua một loạt các trung tâm dữ liệu. Cấu hình này cho phép Infolect xử lý trung bình các thông điệp thời gian thực trong 15 mili giây trong một ngày được phân tán tới hơn 107,000 màn hình buôn bán tại hơn 100 quốc gia.

The Tandem system this replaced was installed in 1995 and had earned its non-stop tradename with zero downtime over the last six operating years but now belongs to HP and is therefore going away. In response LSE CIO David Lester developed a plan - one structured around a partnership with Microsoft:

Before choosing Microsoft technology, the London Stock Exchange reviewed several potential architectures to meet the requirements of Infolect® and the TRM design objectives. The Microsoft .NET Framework -an integral component of the Windows Server® 2003 operating system- was se-lected for a number of reasons, including developer efficiency, performance, and scalability. The Infolect® application, which went into production in September 2005, was implemented on a total of 120 HP ProLiant servers across multiple data centres. This configuration allows Infolect to process an average of 15 million real-time messages a day distributed to more than 107,000 trading screens in more than 100 countries.

120 máy chủ Proliant HP nghe có vẻ là nhiều – nhưng để làm việc với 15 triệu thông điệp nếu bạn nghĩ về những đồng đô la của cá nhân hoặc những bà goá để kéo vào trong vườn nhà bạn. Đáng tiếc không phải các con số chẵn này với thực tế là 15 triệu thông điệp trong một ngày tính cho khoảng 600 thông điệp trong một giây nếu phát sinh xảy ra trong khoảng thời gian 8 giờ buôn bán, và 180 nếu bạn lấy trung bình cho 24 giờ để cho phép buôn bán điện tử. Tuy nhiên, cách nào cũng vậy, dễ dàng trong phạm vi đối với một máy chủ Unix như một máy 4 đường Opteron hoặc T2000 – hãy nhớ, thứ này đã chạy trên một Tandem cũ kỹ trước khi 120 chiếc Proliant này được mua để thay thế vào.

Nhưng ít nhất là họ có thể kêu nó nhanh, phải không? Đây là đầu đề của họ:

Thị trường chứng khoán Luân Đôn cắt giảm thời gian phổ biến thông tin từ 30 xuống còn 2 mili giây.

2 mili giây không phải là nhiều thời gian – trên thực tế các giao tiếp trần trụi của nó tiềm ẩn cho một card mạng (NIC) của máy tính cá nhân – và trên thực tế 30 mili giây là khá nhanh cho tốc độ cũ xét về hệ thống này đầu tiên được phát triển và triển khai trước thời máy Pentium đạt 100MHZ.

Nếu bạn nhìn một cách kỹ lưỡng vào câu chữ, đặc biệt như được lặp lại trong phần trích dẫn bên dưới, bạn sẽ thấy điều này đạt được như thế nào: vì họ chỉ nói rằng các thông tin là “được phân tán tới hơn 107,000 màn hình buôn bán trên hơn 100 quốc gia”, thì không phải là hệ thống của họ thực sự làm như thế:

120 HP Proliant servers sounds like a lot - but then so does 15 million if you’re thinking in terms of personal dollars or weeds to pull in your garden. Unfortunately neither number squares with the reality that 15 million messages per day amounts to something between 600 messages per second if generation occurs only during an eight hour trading period, and 180 if you average across 24 hours to allow for electronic trading. Either way, however, easily within scope for a small Unix server like a four way Opteron or T2000 - remember, this stuff ran on an old Tandem before those 120 proliants were brought in.

But at least they can claim it’s fast, right? Here’s their headline:

London Stock Exchange Cuts Information Dissemination Time f-rom 30 to 2 Milliseconds

Two milliseconds isn’t much time -in fact its barely communications latency for a PC NIC- and in fact 30 MS is pretty fast for the old gear considering that the system was first developed and implemented before the Pentium hit 100Mhz

If you look carefully at the wording, especially as repeated in the excerpt below, you’ll see how this is achieved: because they say only that the information is “distributed to more than 107,000 trading screens in more than 100 countries”, not that their system actually does it:

Độ tin cậy là điều cơ bản cho yêu cầu về giá trị của thị trường chứng khoán Luân Đôn và tiếp tục tạo cho những người lãnh đạo cấp cao của họ sự yên bình trong tâm về thời gian làm việc của hệ thống. Sẽ có khoảng 300 khách hàng mà họ kết nối trực tiép tới hệ thống trực tuyến của Infolect để nhận các dữ liệu thị trường trong thời gian thực một cách trực tiếp từ thị trường chứng khoán Luân Đôn. Các dữ liệu này được phân phối từ Infolect rồi sau đó được hiển thị trên hơn 107,000 máy đầu cuối tại hơn 100 quốc gia.

Nói cách khác, chúng tôi giả thiết rằng con số 2 mili giây đại diện cho thứ gì đó giống như thời gian phân phối một gói đối với một đống chảy qua một mạng cục bộ LAN – và không chỉ làm “107,000 màn hình tại hơn 100 quốc gia” không có gì để làm với 2 mili giây được nói, mà, vì chúng được gắn vào các mạng chạy bởi khoảng 300 khách hàng gì đó với các máy chủ trên mạng LAN đó, rất khả nghi rằng những khách hàng của họ có thể trải nghiệm được bất kỳ thay đổi nào cả.

Tất cả những thứ này phải làm cho bạn nghi ngờ những gì Linux phải làm với bất ký thứ gì thế này – đầu đề của Microsoft, bạn sẽ nhớ rằng LSSE đã chọn Windows hơn Linux vì độ tin cậy đấy.

Câu trả lời là Linux không có gì để làm với bất kỳ thứ gì như thế này: Microsoft đơn giản là treo lên một cái nhãn chống Linux trong một câu chuyện được dùng từ ngữ một cách cận thận về một bộ đôi các đối tác tận tâm của Microsoft, HP và Accenture, cùng với Microsoft để bán công nghệ đơn giản hơn là cho một khách hàng có thiện chí – và không phải Linux hay Solaris được nhắc tới bất cứ ở đâu trong văn bản này.

Reliability is fundamental to the London Stock Exchange value proposition for the market and continues to give its senior managers peace of mind about system uptime. There are approximately 300 customers who connect directly to the live Infolect system to receive real-time market data directly f-rom the London Stock Exchange. The data disseminated f-rom Infolect is then displayed on more than 107,000 terminals in more than 100 countries.

In other words, we’re entitled to assume that the 2ms number represents something like a packet delivery time for bulk flows over a local area network - and not only do those “107,000 screens in 100 more than countries” have nothing at all to do with the 2ms claim, but, because they’re attached to networks run by the 300 or so big customers with servers on that LAN, it’s very doubtful that their users would have experienced any change at all.

All of which should have you wonder what Linux has to do with any of this - Microsoft’s headline, you’ll recall said that the LSE picked Windows over Linux for reliability.

The answer is that Linux has nothing to do with any of this: Microsoft simply hung an anti-Linux label on a very carefully worded story about a pair of committed Microsoft partners, HP and Accenture, getting together with Microsoft to sell rather simple technology to a willing customer - and neither Linux nor Solaris is mentioned anywhe-re in the text.

Vì thế bây giờ những con gà đang về nhà và câu hỏi là, vì sao? Liệu các công nghệ .NET của Microsoft vốn đã không đáng tin cậy như thế đơn giản một cách phi lý để mong đợi chúng làm việc khi khối lượng dữ liệu thay đổi một cách khổng lồ và sức ép về tốc độ thực thi gia tăng, hoặc liệu có gì đó xảy ra ẩn sâu bên trong hay không?

Tôi thì theo sự tổng hợp của cả 2: công nghệ hạng hai kết hợp với một vấn đề rõ ràng cả trong qui trình quyết định và quyết định của Microsoft khoác lác về sự cài đặt này trên site chống Linux của hãng. Đặc biệt khi vấn đề là một trong những sự thúc đẩy khích lệ: sự khích lệ gì mọi tay chơi hùng mạnh có liên quan phải có hoặc quyết định hoặc sự triển khai đúng đây?

Trước lúc những khích lệ về bán hàng đối với Accenture, HP, và Microsoft đã đồng hành với việc bán một dự án Windows – không phải với việc đạt được một cách thực sự cả 2 điều về độ tin cậy cao và tốc độ thực thi cao mà khách hàng dường như đã mong đợi. Và, sau khi bán hàng, những khích lệ này đi cùng với việc giữ cho giá thành giảm trong khi ngừng hơn là với việc đáp ứng bất kỳ hứa hẹn nào về độ tin cậy hoặc tốc độ thực thi.

So now the chickens are coming home and the question is, why? Are Microsoft’s dot.net technologies so inherently unreliable it’s simply absurd to expect them to work when volume changes dramatically and performance pressure mounts, or is there something deeper going on?

My vote goes for a combination of both: second rate technology combining with a problem obvious in both the decision process and Microsoft’s decision to brag about this install on its anti-Linux site. Specifically the problem is one of incentives: what incentive did any of the power players involved have to get either the decision or the implementation right?

Before the sale incentives for Accenture, HP, and Microsoft were aligned with selling a Windows project - not with actually achieving both the high reliability and the high performance the customer seems to have expected. And, after the sale, the incentives align more with keeping costs down while getting sign-offs than with meeting any promises made about reliability or performance.

Những gì tôi được nhắc nhở trong ngữ cảnh này là một câu chuyện buồn về con ếch mà nó đã tin tưởng vào lời hứa của con bọ cạp không cạp như hành xử và đã chết vì sự ngây thơ của nó khi con bọ cạp đã làm những gì bọn bọ cạp làm – những gì tôi nghĩ, nói một cách khác, là trách nhiệm ban đầu đối với sự lộn xộn của LSE thuộc về các nhà lãnh đạo của LSE, những người cho phép giám đốc điều hành của họ đưa LSE vào giường với Microsoft và các đối tác của hãng.

Về cơ bản đây là công việc của sự lãnh đạo hàng đầu để thiết lập nên những khích lệ đúng về tốc độ thực thi đúng chỗ, để hiểu những khích lệ đang tồn tại có chắc làm việc hay không, và để tiến hành việc sửa lỗi ngay lập tức khi mọi người mà báo cáo tới họ bắt đầu phải trả lời cho những khích lệ nghề nghiệp rằng đừng có đánh đồng với phúc lợi của tổ chức – và vì thế động lực quan trọng duy nhất đối với những hỏng hóc như thế này gần đây đã không phải là công nghệ tồi mà thực tế đơn giản rằng sự quản lý trên đỉnh của LSE đã không thực hiện công việc của mình.

What I’m reminded of in this context is the sad story of the frog who believed a scorpion’s promise of unscorpion like behavior and died for his naivete when the scorpion did what scorpions do - what I think, in other words, is that primary responsibility for the LSE mess belongs to the top LSE managers who let their CIO get the LSE into bed with Microsoft and its partners.

Basically it’s top management’s job to set the right performance incentives in place, to understand how existing incentives are likely to work out, and to take immediate corrective action when people who report to them start to respond to career incentives that don’t align with the organization’s welfare -and thus the single most important driver for these recent failures wasn’t poor technology but the simple fact that LSE top management didn’t do its job.

Dịch tài liệu: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Tổng số điểm của bài viết là: 0 trong 0 đánh giá

Click để đánh giá bài viết

  Ý kiến bạn đọc

Những tin mới hơn

Những tin cũ hơn

Về Blog này

Blog này được chuyển đổi từ http://blog.yahoo.com/letrungnghia trên Yahoo Blog sang sử dụng NukeViet sau khi Yahoo Blog đóng cửa tại Việt Nam ngày 17/01/2013.Kể từ ngày 07/02/2013, thông tin trên Blog được cập nhật tiếp tục trở lại với sự hỗ trợ kỹ thuật và đặt chỗ hosting của nhóm phát triển...

Bài đọc nhiều nhất trong năm
Thăm dò ý kiến

Bạn quan tâm gì nhất ở mã nguồn mở?

Thống kê truy cập
  • Đang truy cập54
  • Máy chủ tìm kiếm7
  • Khách viếng thăm47
  • Hôm nay11,082
  • Tháng hiện tại274,289
  • Tổng lượt truy cập31,752,615
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây