Microsoft ra mắt công cụ giúp lập trình viên kiểm thử hành vi AI bằng mô tả văn bản

Admin / June 3, 2026

Việc đảm bảo một mô hình ngôn ngữ lớn tuân thủ đúng các quy tắc kinh doanh cụ thể thường là thách thức lớn nhất đối với đội ngũ kỹ thuật hiện nay. Trong khi các phòng thí nghiệm AI đã đạt được những bước tiến dài trong việc đánh giá mức độ an toàn hay tính trung thực của mô hình, các doanh nghiệp lại cần một giải pháp thực tế hơn để kiểm soát cách AI vận hành trong sản phẩm riêng biệt của họ. Để giải quyết bài toán này, Microsoft vừa giới thiệu ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing), một khung mã nguồn mở cho phép chuyển đổi các mô tả bằng ngôn ngữ tự nhiên thành các bài kiểm thử tự động. Thay vì phải viết mã phức tạp, lập trình viên chỉ cần đưa ra các yêu cầu về mục tiêu, chính sách hoặc hành vi mong muốn. ASSERT sẽ tự động xây dựng các kịch bản vấn đề, chạy thử nghiệm trên hệ thống và chấm điểm kết quả dựa trên các tiêu chí đã đề ra. Công cụ này không chỉ hỗ trợ giai đoạn xây dựng mà còn phục vụ việc giám sát liên tục sau khi triển khai, giúp doanh nghiệp duy trì sự tin cậy và nhất quán cho các giải pháp AI của mình.

Tối ưu hóa kiểm thử hành vi AI thông qua ngôn ngữ tự nhiên và dữ liệu thực tế


ASSERT lấp đầy khoảng trống mà các bộ công cụ đánh giá tổng quát hiện nay chưa thể chạm tới, đặc biệt là khi hành vi của AI bị ràng buộc bởi ngữ cảnh, công cụ và chính sách riêng của từng sản phẩm. Lập trình viên có thể cung cấp thông tin về ngữ cảnh hệ thống, các công cụ đi kèm và những hạn chế cụ thể để tùy chỉnh phạm vi đánh giá. Ví dụ, với một trợ lý AI chuyên nghiên cứu tài liệu, nhà phát triển có thể quy định rõ ràng rằng hệ thống không được gửi email cho người ngoài công ty, chỉ cung cấp thông tin mật cho cấp lãnh đạo và phải tóm tắt nội dung dựa trên các ngữ cảnh đã trao đổi trước đó. Dựa trên các quy tắc này, ASSERT sẽ tự động tạo ra các trường hợp kiểm thử để xác nhận liệu AI có tuân thủ nghiêm ngặt hay không, đồng thời ghi lại toàn bộ lộ trình xử lý và các lệnh gọi công cụ trung gian để đội ngũ kỹ thuật dễ dàng truy vết khi có lỗi xảy ra.

Sarah Bird, Giám đốc sản phẩm về AI có trách nhiệm tại Microsoft, nhấn mạnh rằng việc hiểu rõ hành vi của hệ thống AI là yếu tố sống còn để đáp ứng các tiêu chuẩn khắt khe của tổ chức. Trong khi các tiêu chuẩn như HELM của Stanford hay AILuminate của MLCommons tập trung vào việc đo lường hiệu suất mô hình trong các điều kiện biến đổi, ASSERT lại tập trung vào tính lặp lạikiểm thử hồi quy (regression testing) cho các ứng dụng thực tế. Sự chuyển dịch này cho thấy ngành công nghiệp AI đang dần rời xa các phép đo chung chung để tiến tới việc xây dựng các hệ thống đáng tin cậy thông qua những đánh giá đa chiều, bám sát đặc thù của từng dịch vụ cụ thể mà doanh nghiệp cung cấp cho khách hàng.

Sự ra đời của ASSERT đánh dấu một bước ngoặt trong cách các doanh nghiệp tiếp cận việc kiểm soát chất lượng AI, chuyển từ các phương pháp thủ công sang quy trình tự động hóa dựa trên mô tả văn bản. Đối với các lập trình viên đang vận hành các hệ thống AI phức tạp, việc sớm áp dụng các khung đánh giá như ASSERT không chỉ giúp giảm thiểu rủi ro vận hành mà còn rút ngắn đáng kể thời gian tinh chỉnh mô hình. Việc tận dụng các công cụ mã nguồn mở này sẽ là bước đi chiến lược để tối ưu hóa hiệu suất và đảm bảo AI luôn hoạt động đúng trong phạm vi đạo đức cũng như chính sách của tổ chức.