Chi phí đánh giá AI suy luận tăng cao, thách thức minh bạch
Chi phí đánh giá mô hình AI suy luận như o1 (2.767 USD) tăng mạnh do tạo hàng triệu token, khiến kiểm chứng độc lập khó khăn, ảnh hưởng tính minh bạch.

Sự bùng nổ AI suy luận và gánh nặng chi phí
Công nghệ trí tuệ nhân tạo (AI) đang chứng kiến sự bùng nổ của các mô hình suy luận, có khả năng xử lý vấn đề qua nhiều bước logic, vượt trội hơn các mô hình ngôn ngữ thông thường. Các công ty như OpenAI với o1, Anthropic với Claude 3.7 Sonnet, hay DeepSeek với R1 liên tục ra mắt sản phẩm mới, hứa hẹn nâng cao hiệu suất trong toán học, lập trình, và tư duy logic.
Tuy nhiên, để xác minh năng lực thực sự của những mô hình này, các tổ chức độc lập phải chi hàng ngàn USD, chủ yếu do lượng dữ liệu khổng lồ được tạo ra trong quá trình kiểm tra.
Ví dụ, tổ chức Artificial Analysis chi 2.767 USD để đánh giá o1 của OpenAI trên bảy tiêu chuẩn phổ biến, bao gồm MMLU-Pro (kiểm tra hiểu ngôn ngữ), GPQA Diamond (đánh giá khoa học), và MATH-500 (giải toán). Trong khi đó, Claude 3.7 Sonnet, mô hình lai kết hợp suy luận và ngôn ngữ, tốn 1.485 USD. So sánh với các mô hình không suy luận như GPT-4o (108 USD) hay Claude 3.6 Sonnet (81 USD), chi phí này cao gấp nhiều lần, đặt ra thách thức lớn cho các bên muốn đảm bảo tính khách quan.
“Thủ phạm” đằng sau chi phí khủng

Nguyên nhân chính khiến việc đánh giá AI suy luận đắt đỏ nằm ở số lượng token (đơn vị văn bản nhỏ như âm tiết hoặc từ) mà các mô hình tạo ra. Trong quá trình kiểm tra, o1 của OpenAI sinh hơn 44 triệu token, gấp tám lần so với GPT-4o. Mỗi token tương ứng với một phần chi phí, bởi các công ty AI tính phí dựa trên lượng token đầu vào và đầu ra. Ví dụ, o1 có giá 60 USD/triệu token đầu ra, trong khi phiên bản nâng cấp o1-pro lên tới 600 USD/triệu token.
Các bài kiểm tra hiện đại như MMLU-Pro (1.800 USD/lần), yêu cầu xử lý nhiệm vụ phức tạp, làm tăng token. Với ngân sách hạn chế, các tổ chức khó theo kịp tốc độ ra mắt mô hình mới, giảm khả năng xác minh độc lập hiệu suất AI.
Tác động tới tính minh bạch trong ngành AI
Việc đánh giá AI suy luận tốn kém không chỉ là vấn đề tài chính mà còn ảnh hưởng đến tính minh bạch của ngành công nghệ. Artificial Analysis, một trong những tổ chức tiên phong trong kiểm tra hiệu suất AI, đã chi 5.200 USD để đánh giá chưa tới 10 mô hình suy luận, gấp đôi số tiền 2.400 USD dùng cho hơn 80 mô hình không suy luận. George Cameron, đồng sáng lập tổ chức này, cho biết họ dự kiến tăng ngân sách khi các phòng thí nghiệm AI tiếp tục tung ra sản phẩm mới.
Tuy nhiên, một số công ty AI như OpenAI cung cấp quyền truy cập miễn phí hoặc giảm giá cho các tổ chức đánh giá, điều này làm dấy lên lo ngại về tính khách quan. Ross Taylor nhận định rằng nếu kết quả chỉ đến từ các bên được tài trợ, tính khoa học của việc đánh giá sẽ bị đặt dấu hỏi. Ông viết trên mạng xã hội X: “Một phòng thí nghiệm công bố mô hình đạt hiệu suất cao, nhưng không ai có thể tái tạo kết quả đó. Liệu đó còn là khoa học?” Sự phụ thuộc vào tài trợ có thể làm mờ ranh giới giữa đánh giá độc lập và lợi ích thương mại.
Cạnh tranh toàn cầu và giải pháp minh bạch cho ngành AI suy luận

Chi phí đánh giá các mô hình AI suy luận, như 2.767 USD cho o1 của OpenAI hay 5.200 USD cho chưa tới 10 mô hình, đang tạo áp lực tài chính lớn cho các tổ chức độc lập như Artificial Analysis. Nguyên nhân chính là số lượng token khổng lồ, với o1 sinh 44 triệu token, gấp tám lần GPT-4o, trong khi các công ty tính phí cao, như o1-pro lên tới 600 USD/triệu token đầu ra.
Giữa bối cảnh này, các công ty Trung Quốc như DeepSeek và Alibaba nổi lên với mô hình giá rẻ nhưng hiệu suất ấn tượng. DeepSeek-R1, chỉ 2,19 USD/triệu token, đạt 60 điểm trên chỉ số Artificial Analysis Intelligence Index, xếp thứ ba thế giới, sau o1 (62 điểm) và o3-mini (66 điểm). Tương tự, QwQ-32B của Alibaba đứng thứ tư về hiệu suất, vượt nhiều mô hình phương Tây như Claude 3.7 Sonnet hay Mistral Large 2.
Sự vươn lên này không chỉ thu hẹp khoảng cách công nghệ với phương Tây mà còn tạo áp lực giảm giá toàn cầu, đặc biệt khi các công ty Mỹ như OpenAI phụ thuộc vào tài nguyên tính toán tốn kém, dẫn đến chi phí cao hơn cho nhà phát triển.
Để giải quyết thách thức chi phí và đảm bảo tính minh bạch, ngành AI cần những bước đi đột phá. Trước hết, việc phát triển bài kiểm tra tiêu chuẩn hóa, ít phụ thuộc vào số lượng token, sẽ giúp giảm chi phí mà vẫn đánh giá toàn diện hiệu suất mô hình.
Thứ hai, cộng đồng AI nên xây dựng cơ chế chia sẻ dữ liệu công khai, cho phép nhà nghiên cứu độc lập truy cập tài nguyên mà không bị ảnh hưởng bởi tài trợ, từ đó tăng cường tính khách quan. Sự cạnh tranh từ Trung Quốc, với các mô hình như DeepSeek-R1, có thể thúc đẩy các công ty phương Tây tối ưu hóa chi phí, mang lại lợi ích cho cả nhà phát triển và người dùng.
Tuy nhiên, Jean-Stanislas Denain từ Epoch AI cảnh báo rằng nếu chi phí đánh giá không được kiểm soát, chỉ các công ty lớn với nguồn lực mạnh mới duy trì được vị thế, làm giảm sự đa dạng trong nghiên cứu AI. Vụ việc Epoch AI chậm công bố tài trợ từ OpenAI cho dự án FrontierMath càng nhấn mạnh nhu cầu về sự minh bạch. Những giải pháp này không chỉ giúp ngành AI duy trì cạnh tranh lành mạnh mà còn đảm bảo công nghệ phát triển vì lợi ích chung, khai thác tối đa tiềm năng của AI suy luận.
Thùy Linh