Blog - kiến thức

OpenAI ra mắt o3 và o4-mini mô hình AI có khả năng lý luận và suy nghĩ bằng hình ảnh mạnh nhất hiện nay

OpenAI chính thức ra mắt o3 và o4-mini – Mô hình AI có khả năng lý luận mạnh nhất từ trước đến nay

OpenAI vừa công bố hai mô hình trí tuệ nhân tạo hoàn toàn mới mang tên o3 và o4-mini, đánh dấu bước tiến quan trọng trong hành trình phát triển các hệ thống AI có khả năng suy luận vượt trội. Đây là những cái tên mới nhất trong dòng "reasoning models" – các mô hình được thiết kế để “nghĩ trước khi trả lời”, nghĩa là chúng dành nhiều thời gian hơn để xử lý đầu vào và đưa ra phản hồi có chiều sâu, chính xác hơn.

o4-mini

o3 – Mô hình AI lý luận mạnh nhất của OpenAI

Từng được giới thiệu dưới dạng preview vào tháng 12/2024, o3 hiện chính thức ra mắt và được đánh giá là mô hình có năng lực lý luận cao nhất mà OpenAI từng phát triển. Không chỉ đơn thuần hiểu văn bản, o3 có khả năng phân tích sâu và đưa ra kết luận phức tạp từ nhiều nguồn thông tin khác nhau – kể cả từ hình ảnh mờ hoặc chất lượng thấp.

o4-mini – Hiệu quả, nhanh gọn, tiết kiệm chi phí

Dù có quy mô nhỏ hơn, o4-mini lại được tối ưu hóa để vận hành nhanh hơn với chi phí thấp hơn. Mô hình này đặc biệt phù hợp cho các tác vụ cần tốc độ và hiệu quả, nhưng vẫn giữ được độ chính xác cần thiết trong suy luận và trả lời. Bộ đôi o3 và o4-mini vì thế nhanh chóng thu hút sự chú ý từ giới công nghệ toàn cầu.

Bước đột phá: Khả năng suy luận bằng hình ảnh

Một điểm nổi bật trong lần ra mắt này chính là khả năng "suy nghĩ bằng hình ảnh". Nếu trước đây các mô hình AI chỉ "nhìn" hình ảnh như dữ liệu đầu vào đơn thuần, thì nay o3 và o4-mini đã có thể sử dụng thông tin thị giác làm cơ sở cho suy luận logic và phản biện sâu sắc.

Chúng có thể xử lý cả hình ảnh mờ, phân tích bố cục, chi tiết và kết hợp với dữ liệu khác để đưa ra nhận định – mở ra kỷ nguyên mới trong xử lý đa phương thức (multimodal).

Khả năng hành động như một trợ lý thông minh thực thụ

Không dừng lại ở việc hiểu và phân tích, hai mô hình mới còn sở hữu năng lực tác nhân (agent): tức là có thể chủ động sử dụng các công cụ sẵn có trong ChatGPT như duyệt web, chạy mã Python, đọc hiểu tài liệu, tạo hình ảnh... để giải quyết bài toán nhiều bước một cách tự động, không cần chỉ dẫn chi tiết ở từng bước nhỏ.

Điều này mang đến trải nghiệm giống như một trợ lý số thông minh, có thể làm việc độc lập và chủ động.

Thử nghiệm ấn tượng với mô hình o3

Trong buổi livestream giới thiệu, nhóm nghiên cứu của OpenAI đã cho o3 phân tích một poster nghiên cứu khoa học và yêu cầu mô hình đưa ra một kết luận không được nêu trong tài liệu. Kết quả, o3 đã tự động phóng to từng khu vực trong hình, kết hợp dữ liệu từ internet và đưa ra một lập luận logic, chính xác – cho thấy rõ năng lực suy luận kết hợp đa công cụ và đa nguồn dữ liệu.

Hiệu suất vượt trội so với các thế hệ cũ

Theo OpenAI, cả o3 và o4-mini đều vượt xa các mô hình trước về độ chính xác, khả năng tuân thủ hướng dẫn, và chất lượng câu trả lời. Ngay cả khi không sử dụng công cụ hỗ trợ, các mô hình này vẫn đạt điểm số rất cao trong các bài kiểm tra chuẩn hóa – minh chứng rõ nét cho năng lực nội tại đã được cải thiện vượt bậc.

Các nhà nghiên cứu thậm chí còn phát hiện rằng o3 có thể tổng hợp kiến thức liên ngành để đề xuất các thí nghiệm mới – từ vật lý hạt nhân đến phát hiện mầm bệnh, mở ra tương lai AI có thể hỗ trợ trực tiếp trong nghiên cứu khoa học.

Triển khai rộng rãi và đảm bảo an toàn

Hiện tại, người dùng ChatGPT phiên bản Plus, Pro và Team đã có thể truy cập các mô hình mới này thông qua bảng chọn hiệu suất gồm ba mức: thấp, trung bình và cao. Riêng phiên bản o3-pro dành cho người dùng Pro sẽ được triển khai trong vài tuần tới, trong khi các nhà phát triển đã có thể tích hợp qua API.

OpenAI cũng khẳng định rằng o3 và o4-mini đã vượt qua các đánh giá nghiêm ngặt trong chương trình kiểm thử an toàn và tuân thủ theo Preparedness Framework – một bộ khung quản lý rủi ro mới nhất mà công ty áp dụng cho các mô hình tiên tiến.