Fabio Lauria

Ngoại lệ: Nơi khoa học dữ liệu gặp gỡ những câu chuyện thành công

Ngày 11 tháng 8 năm 2025
Chia sẻ trên mạng xã hội

Sự phát triển của khái niệm ngoại lệ

Khoa học dữ liệu hiện đại đã cách mạng hóa hiểu biết của chúng ta về các giá trị ngoại lệ, biến chúng từ những "lỗi" đơn giản cần loại bỏ thành những nguồn thông tin giá trị. Đồng thời, cuốn sách " Những Giá Trị Ngoại Lệ: Câu Chuyện Thành Công " của Malcolm Gladwell cũng đưa ra một góc nhìn bổ sung về thành công của con người như một hiện tượng bất thường về mặt thống kê nhưng lại có ý nghĩa.

Từ công cụ đơn giản đến phương pháp tinh vi

Trong thống kê truyền thống, các giá trị ngoại lai được xác định thông qua các phương pháp tương đối đơn giản như biểu đồ hộp, điểm Z (đo lường mức độ giá trị lệch khỏi giá trị trung bình) và khoảng tứ phân vị (IQR).

Những phương pháp này, mặc dù hữu ích, nhưng có những hạn chế đáng kể. Chỉ một giá trị ngoại lệ cũng có thể làm biến dạng hoàn toàn mô hình hồi quy tuyến tính—ví dụ, tăng độ dốc từ 2 lên 10. Điều này khiến các mô hình thống kê truyền thống trở nên dễ bị tổn thương trong bối cảnh thực tế.

Học máy đã đưa ra những phương pháp tinh vi hơn giúp khắc phục những hạn chế sau:

  • Rừng Cô lập : Một thuật toán "cô lập" các điểm ngoại lệ bằng cách xây dựng cây quyết định ngẫu nhiên. Các điểm ngoại lệ có xu hướng được cô lập nhanh hơn các điểm thông thường, đòi hỏi ít lần phân tách hơn.
  • Hệ số ngoại lệ cục bộ : Phương pháp này phân tích mật độ cục bộ xung quanh mỗi điểm. Một điểm trong vùng có mật độ thấp so với các điểm lân cận được coi là ngoại lệ.
  • Bộ mã hóa tự động : Mạng nơ-ron học cách nén và tái tạo dữ liệu bình thường. Khi một điểm khó tái tạo (tạo ra lỗi cao), nó được coi là điểm bất thường.

Các loại giá trị ngoại lệ trong thế giới thực

Khoa học dữ liệu phân biệt một số loại giá trị ngoại lệ, mỗi loại có ý nghĩa riêng:

  • Giá trị ngoại lệ toàn cầu : Các giá trị rõ ràng không theo tỷ lệ với toàn bộ tập dữ liệu, chẳng hạn như nhiệt độ -10°C được ghi nhận trong khí hậu nhiệt đới.
  • Giá trị ngoại lệ theo ngữ cảnh : Các giá trị nhìn chung có vẻ bình thường nhưng lại bất thường trong bối cảnh cụ thể của chúng. Ví dụ: chi phí 1.000 euro ở khu vực thu nhập thấp hoặc lưu lượng truy cập web tăng đột ngột lúc 3 giờ sáng.
  • Giá trị ngoại lệ tập thể : Nhóm các giá trị, khi kết hợp lại với nhau, thể hiện hành vi bất thường. Một ví dụ điển hình là lưu lượng mạng tăng đột biến đồng bộ có thể báo hiệu một cuộc tấn công mạng.

Sự tương đồng với Lý thuyết thành công của Gladwell

"Quy tắc 10.000 giờ" và những hạn chế của nó

Trong cuốn sách của mình, Gladwell giới thiệu "quy tắc 10.000 giờ" nổi tiếng, lập luận rằng chuyên môn đòi hỏi một lượng luyện tập có chủ đích cụ thể. Ông trích dẫn những ví dụ như Bill Gates, người đã được ưu tiên sử dụng máy tính khi còn là thiếu niên, và đã tích lũy được hàng giờ lập trình quý giá.

Lý thuyết này, tuy hấp dẫn, đã bị chỉ trích theo thời gian. Như Paul McCartney đã lưu ý: "Có rất nhiều ban nhạc đã dành 10.000 giờ luyện tập ở Hamburg mà vẫn chưa thành công, nên nó không phải là một lý thuyết hoàn hảo."

Bản thân khái niệm nền tảng của quy tắc này đã bị nhiều tác giả và học giả phản bác, và bản thân chúng tôi cũng có những nghi ngờ nghiêm trọng về tính hợp lệ hoặc tính phổ quát của lý thuyết này. Đối với những ai muốn tìm hiểu thêm về các chủ đề được đề cập trong sách, tôi xin giới thiệu ví dụ này , nhưng bạn có thể tìm thấy nhiều ví dụ khác nếu quan tâm.

Tương tự, trong khoa học dữ liệu, chúng ta đã học được rằng không chỉ số lượng dữ liệu quan trọng mà chất lượng và bối cảnh của nó cũng quan trọng. Một thuật toán không tự động cải thiện khi có thêm dữ liệu—nó đòi hỏi sự hiểu biết về bối cảnh và chất lượng phù hợp.

Tầm quan trọng của bối cảnh văn hóa

Gladwell nhấn mạnh văn hóa ảnh hưởng sâu sắc đến khả năng thành công như thế nào. Ví dụ, ông thảo luận về việc con cháu của những người nông dân trồng lúa châu Á có xu hướng giỏi toán không phải vì lý do di truyền, mà là do các yếu tố ngôn ngữ và văn hóa:

  • Hệ thống số của Trung Quốc trực quan hơn và cần ít âm tiết hơn để phát âm số.
  • Trồng lúa, không giống như nông nghiệp phương Tây, đòi hỏi phải cải tiến liên tục và tỉ mỉ các kỹ thuật hiện có thay vì mở rộng sang vùng đất mới.

Quan sát văn hóa này đồng điệu với cách tiếp cận theo ngữ cảnh đối với các giá trị ngoại lệ trong khoa học dữ liệu hiện đại. Cũng như một giá trị có thể bất thường trong bối cảnh này nhưng lại bình thường trong bối cảnh khác, thành công cũng mang tính ngữ cảnh sâu sắc.

Chiến lược giảm thiểu: Chúng ta có thể làm gì?

Trong khoa học dữ liệu hiện đại, có một số chiến lược được sử dụng để xử lý các giá trị ngoại lai:

  1. Xóa : Chỉ hợp lý đối với các lỗi rõ ràng (chẳng hạn như độ tuổi âm), nhưng có rủi ro vì có thể loại bỏ các tín hiệu quan trọng
  2. Biến đổi : Các kỹ thuật như "winsorizing" (thay thế các giá trị cực đoan bằng các giá trị ít cực đoan hơn) bảo toàn dữ liệu bằng cách giảm tác động làm biến dạng của nó.
  3. Lựa chọn thuật toán : Sử dụng các mô hình có khả năng chống lại các giá trị ngoại lai, chẳng hạn như Rừng ngẫu nhiên, thay vì hồi quy tuyến tính.
  4. Sửa chữa tạo sinh : Sử dụng các kỹ thuật tiên tiến như Mạng đối nghịch tạo sinh (GAN) để tổng hợp các thay thế hợp lý cho các giá trị ngoại lai

Các nghiên cứu điển hình thực tế về phát hiện ngoại lệ trong học máy và trí tuệ nhân tạo

Các ứng dụng gần đây của phương pháp phát hiện giá trị ngoại lệ và bất thường đã thay đổi hoàn toàn cách các tổ chức xác định các mô hình bất thường trong nhiều ngành công nghiệp khác nhau:

Ngân hàng và Bảo hiểm

Một nghiên cứu điển hình đặc biệt thú vị liên quan đến việc áp dụng các kỹ thuật phát hiện ngoại lệ dựa trên học tăng cường để phân tích dữ liệu chi tiết do các quỹ bảo hiểm và lương hưu Hà Lan báo cáo. Theo khuôn khổ quy định Solvency II và FTK, các tổ chức tài chính này phải nộp các tập dữ liệu lớn, đòi hỏi phải xác thực cẩn thận. Các nhà nghiên cứu đã phát triển một phương pháp tiếp cận tổng hợp kết hợp nhiều thuật toán phát hiện ngoại lệ, bao gồm phân tích khoảng liên tứ phân vị, số liệu khoảng cách lân cận gần nhất và tính toán hệ số ngoại lệ cục bộ, được tăng cường bằng học tăng cường để tối ưu hóa trọng số tổng hợp .

Hệ thống đã chứng minh được những cải tiến đáng kể so với các phương pháp thống kê truyền thống, liên tục cải tiến khả năng phát hiện với mỗi bất thường được xác minh, khiến nó đặc biệt hữu ích cho việc giám sát theo quy định, nơi chi phí xác minh rất lớn. Phương pháp tiếp cận thích ứng này đã giải quyết thách thức của việc thay đổi mô hình dữ liệu theo thời gian, tối đa hóa tiện ích của các bất thường đã được xác minh trước đó để cải thiện độ chính xác phát hiện trong tương lai.

Trong một triển khai đáng chú ý khác, một ngân hàng đã triển khai hệ thống phát hiện bất thường tích hợp, kết hợp dữ liệu lịch sử hành vi khách hàng với các thuật toán học máy tiên tiến để xác định các giao dịch có khả năng gian lận. Hệ thống giám sát các mô hình giao dịch để phát hiện các sai lệch so với hành vi khách hàng đã được thiết lập, chẳng hạn như thay đổi đột ngột về mặt địa lý trong hoạt động hoặc khối lượng chi tiêu bất thường . 5

Việc triển khai này đặc biệt đáng chú ý vì nó minh họa cho sự chuyển đổi từ phòng chống gian lận thụ động sang chủ động. Ngành tài chính Anh được báo cáo đã thu hồi được khoảng 18% tổn thất tiềm ẩn thông qua các hệ thống phát hiện bất thường theo thời gian thực tương tự được triển khai trên tất cả các hoạt động ngân hàng. Cách tiếp cận này cho phép các tổ chức tài chính ngay lập tức chặn các giao dịch đáng ngờ, đồng thời đánh dấu các tài khoản để điều tra thêm, từ đó ngăn chặn hiệu quả các khoản lỗ tài chính đáng kể trước khi chúng xảy ra .

Các nhà nghiên cứu đã phát triển và đánh giá một thuật toán phát hiện bất thường dựa trên học máy, được thiết kế đặc biệt để xác thực dữ liệu nghiên cứu lâm sàng trên nhiều cơ sở dữ liệu khoa học thần kinh. Nghiên cứu đã chứng minh tính hiệu quả của thuật toán trong việc xác định các mẫu bất thường trong dữ liệu do sự thiếu chú ý, lỗi hệ thống hoặc cố ý bịa đặt giá trị . 4 .

Các nhà nghiên cứu đã đánh giá một số phép đo khoảng cách và nhận thấy rằng việc kết hợp các phép tính khoảng cách Canberra, Manhattan và Mahalanobis mang lại hiệu suất tối ưu. Việc triển khai đạt độ nhạy phát hiện trên 85% khi được xác thực với các tập dữ liệu độc lập, khiến nó trở thành một công cụ giá trị để duy trì tính toàn vẹn dữ liệu trong nghiên cứu lâm sàng. Trường hợp này minh họa cách phát hiện bất thường đóng góp vào y học dựa trên bằng chứng bằng cách đảm bảo chất lượng dữ liệu cao nhất có thể trong các thử nghiệm lâm sàng và sổ đăng ký . 4 .

Hệ thống đã chứng minh được khả năng ứng dụng rộng rãi, cho thấy tiềm năng triển khai trong các hệ thống thu thập dữ liệu điện tử (EDC) khác ngoài những hệ thống được sử dụng trong các cơ quan đăng ký khoa học thần kinh ban đầu. Khả năng thích ứng này làm nổi bật khả năng chuyển giao các phương pháp phát hiện bất thường được thiết kế tốt trên nhiều nền tảng quản lý dữ liệu chăm sóc sức khỏe khác nhau.

Chế tạo

Các công ty sản xuất đã triển khai các hệ thống phát hiện dị thường dựa trên thị giác máy tính tinh vi để xác định lỗi trong các bộ phận sản xuất. Các hệ thống này kiểm tra hàng nghìn linh kiện tương tự trên dây chuyền sản xuất, sử dụng thuật toán nhận dạng hình ảnh và mô hình học máy được đào tạo trên các tập dữ liệu lớn chứa cả các mẫu lỗi và không lỗi .

Việc triển khai thực tế các hệ thống này thể hiện một bước tiến đáng kể so với quy trình kiểm tra thủ công. Bằng cách phát hiện ngay cả những sai lệch nhỏ nhất so với các tiêu chuẩn đã được thiết lập, các hệ thống phát hiện bất thường này có thể xác định các lỗi tiềm ẩn mà nếu không sẽ bị bỏ qua. Khả năng này đặc biệt quan trọng trong các ngành công nghiệp mà sự cố linh kiện có thể dẫn đến hậu quả thảm khốc, chẳng hạn như sản xuất hàng không vũ trụ, nơi chỉ một bộ phận bị lỗi cũng có thể góp phần gây ra tai nạn máy bay .

Ngoài việc kiểm tra linh kiện, các nhà sản xuất đã mở rộng khả năng phát hiện bất thường sang chính máy móc. Các ứng dụng này liên tục theo dõi các thông số vận hành như nhiệt độ động cơ và mức nhiên liệu để xác định các trục trặc tiềm ẩn trước khi chúng gây ra thời gian ngừng sản xuất hoặc rủi ro an toàn .

Các tổ chức trong nhiều ngành nghề đã triển khai hệ thống phát hiện bất thường dựa trên học sâu để chuyển đổi phương pháp quản lý hiệu suất ứng dụng. Không giống như các phương pháp giám sát truyền thống chỉ phản ứng với sự cố sau khi chúng ảnh hưởng đến hoạt động, các triển khai này cho phép xác định các vấn đề tiềm ẩn nghiêm trọng .

Một khía cạnh quan trọng của việc triển khai bao gồm việc đối chiếu các luồng dữ liệu khác nhau với các chỉ số hiệu suất ứng dụng chính. Các hệ thống này được đào tạo trên các tập dữ liệu lịch sử lớn để nhận dạng các mẫu và hành vi biểu thị hoạt động bình thường của ứng dụng. Khi xảy ra sai lệch, các thuật toán phát hiện bất thường sẽ xác định các vấn đề tiềm ẩn trước khi chúng leo thang thành gián đoạn dịch vụ.

Việc triển khai kỹ thuật này tận dụng khả năng của các mô hình học máy để tự động liên kết dữ liệu trên nhiều chỉ số hiệu suất khác nhau, cho phép xác định nguyên nhân gốc rễ chính xác hơn so với các phương pháp giám sát dựa trên ngưỡng truyền thống. Các nhóm CNTT sử dụng các hệ thống này có thể chẩn đoán và giải quyết các vấn đề mới phát sinh nhanh hơn, giảm đáng kể thời gian ngừng hoạt động của ứng dụng và tác động kinh doanh liên quan.

Việc triển khai an ninh mạng bằng phát hiện bất thường tập trung vào việc liên tục giám sát lưu lượng mạng và hành vi người dùng để xác định các dấu hiệu xâm nhập hoặc hoạt động bất thường tiềm ẩn có thể vượt qua các biện pháp bảo mật truyền thống. Các hệ thống này phân tích các mẫu lưu lượng mạng, hành vi đăng nhập của người dùng và các nỗ lực truy cập hệ thống để phát hiện các mối đe dọa bảo mật tiềm ẩn.

Việc triển khai đặc biệt hiệu quả trong việc xác định các kiểu tấn công mới mà hệ thống phát hiện dựa trên chữ ký có thể bỏ sót. Bằng cách thiết lập các hành vi cơ sở cho người dùng và hệ thống, phát hiện bất thường có thể đánh dấu các hoạt động đi chệch khỏi các chuẩn mực này, từ đó có khả năng chỉ ra một vi phạm an ninh đang diễn ra. Khả năng này làm cho phát hiện bất thường trở thành một thành phần thiết yếu của kiến trúc an ninh mạng hiện đại, bổ sung cho các biện pháp phòng ngừa truyền thống.

Từ những nghiên cứu điển hình này, một số phương pháp triển khai phổ biến đã xuất hiện. Các tổ chức thường sử dụng kết hợp thống kê mô tả và kỹ thuật học máy, với các phương pháp cụ thể được lựa chọn dựa trên đặc điểm của dữ liệu và bản chất của các bất thường tiềm ẩn .

Phần kết luận

Những nghiên cứu điển hình thực tế này chứng minh giá trị thực tiễn của việc phát hiện các điểm bất thường và ngoại lệ trong nhiều ngành công nghiệp. Từ phòng chống gian lận tài chính đến xác thực dữ liệu chăm sóc sức khỏe, từ kiểm soát chất lượng sản xuất đến giám sát hệ thống CNTT, các tổ chức đã triển khai thành công các phương pháp phát hiện ngày càng tinh vi để xác định các mô hình bất thường cần được điều tra.

Sự phát triển từ các phương pháp tiếp cận thống kê thuần túy sang các hệ thống phát hiện bất thường dựa trên AI thể hiện một bước tiến đáng kể về năng lực, cho phép xác định chính xác hơn các mô hình bất thường phức tạp và giảm thiểu các kết quả dương tính giả. Khi các công nghệ này tiếp tục hoàn thiện và ngày càng có nhiều nghiên cứu điển hình xuất hiện, chúng ta có thể kỳ vọng những cải tiến hơn nữa trong chiến lược triển khai và mở rộng sang các lĩnh vực ứng dụng khác.

Khoa học dữ liệu hiện đại khuyến nghị phương pháp tiếp cận kết hợp để xử lý giá trị ngoại lai, kết hợp độ chính xác thống kê với trí thông minh theo ngữ cảnh của máy học:

  1. Sử dụng các phương pháp thống kê truyền thống để khám phá dữ liệu ban đầu
  2. Sử dụng các thuật toán ML tiên tiến để phân tích phức tạp hơn
  3. Duy trì sự cảnh giác về mặt đạo đức chống lại sự thiên vị loại trừ
  4. Phát triển sự hiểu biết cụ thể về lĩnh vực về những gì cấu thành nên sự bất thường

Cũng giống như Gladwell khuyến khích chúng ta coi thành công là một hiện tượng phức tạp chịu ảnh hưởng của văn hóa, cơ hội và thời điểm, khoa học dữ liệu hiện đại thúc đẩy chúng ta xem những giá trị ngoại lệ không phải là lỗi đơn giản mà là tín hiệu quan trọng trong bối cảnh rộng hơn.

Chấp nhận những điều khác biệt của cuộc sống

Cũng giống như khoa học dữ liệu đã chuyển từ việc xem những giá trị ngoại lệ là lỗi đơn giản sang coi chúng là nguồn thông tin chi tiết có giá trị, chúng ta cũng phải thay đổi cách nhìn nhận về những nghề nghiệp không theo khuôn mẫu - từ phân tích số đơn giản sang hiểu biết sâu sắc hơn, theo ngữ cảnh hơn về thành công.

Thành công, trong bất kỳ lĩnh vực nào, đều xuất phát từ sự giao thoa độc đáo giữa tài năng, kinh nghiệm tích lũy, mạng lưới quan hệ và bối cảnh văn hóa. Giống như các thuật toán học máy hiện đại không còn loại bỏ những yếu tố ngoại lai mà tìm cách hiểu chúng, chúng ta cũng phải học cách nhìn thấy giá trị trong những quỹ đạo hiếm hoi nhất.

Fabio Lauria

Tổng giám đốc điều hành & Nhà sáng lập | Electe

Giám đốc điều hành của Electe Tôi giúp các doanh nghiệp vừa và nhỏ đưa ra quyết định dựa trên dữ liệu. Tôi viết về trí tuệ nhân tạo trong kinh doanh.

Phổ biến nhất
Đăng ký để nghe tin tức mới nhất

Nhận tin tức và thông tin chi tiết trong hộp thư đến của bạn mỗi tuần
hộp thư đến email. Đừng bỏ lỡ!

Cảm ơn bạn! Bài viết của bạn đã được nhận!
Ồ! Có lỗi xảy ra khi gửi biểu mẫu.