Công nghệ

Mô hình giọng nói mới của OpenAI suy luận ngay bên trong vòng âm thanh, và khoảng lặng từng để lộ AI biến mất

Susan Hill

Cái tố cáo bạn là khoảng lặng đó. Cho đến giờ, AI giọng nói vẫn vận hành theo cùng một quy trình — phiên âm lời nói, đẩy văn bản đến một mô hình ngôn ngữ, lấy câu trả lời rồi tổng hợp ngược trở lại thành âm thanh. Mỗi bước đều tốn thời gian. Người dùng nghe thấy sự im lặng, cảm nhận được rằng phía bên kia đang xử lý điều gì đó, và nhận ra đường nối ấy. GPT-Realtime-2 mới của OpenAI thu cả pipeline đó về một mô hình duy nhất, nơi suy luận diễn ra ngay bên trong vòng âm thanh — và đường nối biến mất.

OpenAI vừa đưa ba mô hình âm thanh mới lên Realtime API trong tuần này — GPT-Realtime-2, GPT-Realtime-Translate và GPT-Realtime-Whisper. Vai chính thuộc về cái đầu tiên. Công ty mô tả đây là mô hình giọng nói đầu tiên có “khả năng suy luận hạng GPT-5”, được thiết kế để một mô hình duy nhất xử lý cả âm thanh đầu vào lẫn âm thanh đầu ra, với phần suy nghĩ được dệt vào trong cuộc đối thoại thay vì kẹp giữa các bước phiên âm và tổng hợp. Những con số đứng đằng sau khá cụ thể. Điểm Big Bench Audio nhảy từ 81,4 phần trăm lên 96,6 phần trăm so với mô hình tham chiếu trước đó. Audio MultiChallenge tăng từ 34,7 phần trăm lên 48,5 phần trăm. Cửa sổ ngữ cảnh nới từ 32.000 token lên 128.000 token — đủ rộng để chứa cả lịch sử của một khách hàng trong suốt một cuộc gọi.

Sự dịch chuyển về cấu trúc khó nhìn thấy hơn trong các bài benchmark. Suốt ba năm qua, bất cứ ai đưa một voice agent vào sản xuất đều phải tự tay khâu lại stack — Whisper hoặc Deepgram cho phiên âm, một LLM cho suy luận, ElevenLabs hoặc Cartesia cho giọng nói, và prompt engineering để che đi độ trễ. Mỗi bước nhảy giữa các mảnh đều tốn mili-giây và sự rõ ràng. Người dùng nghe thấy câu “để tôi kiểm tra một chút” do script chèn vào, sau đó là khoảng trống trong khi mô hình suy nghĩ, rồi cuối cùng mới đến câu trả lời. GPT-Realtime-2 đem cả bộ giàn giáo đó vào dưới dạng hành vi gốc. Các đoạn dạo đầu cho phép agent nói “để tôi kiểm tra một chút” trong khi đang gọi công cụ, để người dùng không phải ngồi im trong sự yên lặng. Việc gọi công cụ song song cho phép mô hình bắn nhiều yêu cầu tới back-end cùng lúc và thuật lại bằng lời cái nào đang chạy. Hành vi hồi phục bắt lấy lỗi và đưa nó lên bề mặt, thay vì để cuộc trò chuyện đóng băng.

Cái mặt điều khiển mở ra cho lập trình viên là phần thú vị nhất. “Mức độ suy luận” đã có thể cấu hình — minimal, low, medium, high và xhigh — với low đặt mặc định để giữ độ trễ thấp ở những yêu cầu đơn giản. Một agent trả lời “mấy giờ các anh đóng cửa?” không cần đến suy luận hạng GPT-5. Một agent dẫn khách hàng đi qua một tranh chấp hoàn tiền thì cần. Cùng một mô hình có thể được chỉ định mức độ suy nghĩ theo từng lượt nói, và đây là một thay đổi thực sự so với mô hình cũ, khi độ sâu suy luận là cố định và lập trình viên phải chọn giữa “nhanh” và “thông minh” ngay lúc triển khai.

Cần dành chỗ cho hoài nghi. “Suy luận hạng GPT-5” là một câu marketing, không phải một tuyên bố có thể kiểm chứng độc lập — chừng nào chưa có benchmark độc lập chạy trên đối thoại thực tế, phép so sánh vẫn nằm trong nhà. Voice agent có một dạng lỗi riêng mà các benchmark bắt khá kém — cái khoảnh khắc agent dùng giọng nói bình thản, tự nhiên để nói chắc nịch một điều sai. Suy luận tốt hơn giúp được phần nào, nhưng không xóa được vấn đề. Giá cả cũng đè cân. GPT-Realtime-2 có giá 32 đô la cho mỗi triệu token âm thanh đầu vào và 64 đô la cho mỗi triệu token đầu ra. GPT-Realtime-Translate chạy ở mức 0,034 đô la mỗi phút, còn GPT-Realtime-Whisper ở mức 0,017 đô la mỗi phút. Đủ rẻ cho dịch vụ chăm sóc khách hàng khối lượng lớn. Không đủ rẻ để đổ vào sản phẩm tiêu dùng đối thoại mà không tính kỹ độ dài từng phiên.

Bối cảnh triển khai kể nốt phần còn lại của câu chuyện. Zillow lên sóng tính năng tìm nhà bằng giọng nói ngay trong cùng ngày. Deutsche Telekom đưa hỗ trợ giọng nói có dịch trực tiếp vào mười bốn thị trường châu Âu. Cả hai đều đúng kiểu use case mà OpenAI nhắm đến khi định giá — những cuộc trò chuyện dài, mang tính giao dịch, dày đặc ngữ cảnh, nơi người dùng được lợi từ việc agent thực sự suy luận thay vì chỉ truy xuất. Priceline đang dựng các hệ thống cho phép khách du lịch quản lý đặt phòng khách sạn và theo dõi tình trạng chậm chuyến hoàn toàn bằng giọng nói. Mẫu hình đứng sau những cái tên OpenAI bung ra trước hết đã rõ — đó là những khách hàng có hệ thống giọng nói trước đây vận hành tệ nhất: tổng đài, đường dây hỗ trợ, du lịch giao dịch. Đúng những nơi mà người dùng hôm nay vẫn hét “tổng đài viên” vào điện thoại.

Các mô hình hiện đã có trên Realtime API. Bản nâng cấp giọng nói cho ChatGPT vẫn còn nằm trong hàng — “Mọi người chờ chút, chúng tôi đang nấu”, OpenAI nói. Sam Altman đặt lần ra mắt này vào khung của một dịch chuyển hành vi — người dùng ngày càng dùng giọng nói khi nói chuyện với AI vào những lúc cần “trút” ra một khối ngữ cảnh lớn. Nếu mẫu hình đó còn giữ, khoảng cách giữa AI giọng nói và AI văn bản bắt đầu khép lại — và đường nối từng để lộ AI ở đầu dây điện thoại sẽ ngày một khó nghe ra hơn.

Thảo luận

Có 0 bình luận.