🔥 Hãy dùng token thông minh hơn để còn tiền đi du lịch!!! Nhiều người nghĩ dùng AI tốn tiền chủ yếu vì model đắt. Nhưng thực ra phần lớn chi phí đến từ cách chúng ta dùng context và workflow. Tip đầu tiên là đừng viết prompt như đang nhắn tin với con người. AI không cần “em chào anh”, “anh giúp em với”, hay kể quá nhiều câu chuyện không liên quan. Nó cần mục tiêu, dữ liệu và format đầu ra rõ ràng. Một prompt kiểu “viết cho tôi 5 ý chính ngắn gọn” thường rẻ hơn rất nhiều so với việc để model tự suy diễn bạn muốn gì. Chỗ này nhiều anh em không phân biệt rõ system prompt vs user prompt nên prompt không rõ ràng nè 👀 Tiếng Anh cũng thường tiết kiệm token hơn tiếng Việt. Vì tokenizer của đa số model hiện tại tối ưu cho tiếng Anh tốt hơn. Nhưng thật ra chỗ này không quan trọng lắm. Chỗ quan trọng là nhiều lúc khi gửi prompt cho 1 AI khác, đặc biệt là AI gen ảnh thì bạn nên kêu nó dịch lại tiếng Anh rồi gửi thì kết quả ra sẽ chính xác hơn! Đừng paste cả tài liệu dài nếu chỉ cần AI đọc một phần nhỏ. Context window không thông minh theo kiểu “tự bỏ qua phần thừa”. Model vẫn phải đọc toàn bộ token được gửi vào. Đây là lý do nhiều app AI RAG phải chunk dữ liệu và retrieval đúng đoạn thay vì nhét nguyên PDF vào context. Một lỗi rất phổ biến là conversation quá dài. Mỗi lần chat tiếp, model thường phải đọc lại phần lớn context cũ. Một thread vài chục nghìn token sẽ làm cost tăng rất nhanh. Với workflow dài, nên reset thread định kỳ hoặc tóm tắt lại context thành memory ngắn hơn. Khi code, đừng gửi cả codebase nếu chỉ sửa một hàm. Hãy gửi đúng file hoặc đúng đoạn liên quan. Ví dụ “fix function này”, “đây là component đang lỗi”, “chỉ output phần diff” sẽ tiết kiệm hơn rất nhiều so với chụp màn hình lỗi rồi hỏi “có bug gì không”. Một tip rất mạnh trong production là dùng prompt cache. Nhiều app AI hiện đại tách: - system prompt cố định - memory dài hạn - query hiện tại System prompt và memory ổn định sẽ được cache lại thay vì gửi lại toàn bộ mỗi request. Với app nhiều user hoặc agent workflow dài, cache có thể giảm chi phí cực mạnh. Output token cũng tốn tiền, không chỉ input. Nhiều người tối ưu input nhưng để AI trả lời 3.000 từ cho một task đơn giản. Nếu chỉ cần JSON thì yêu cầu “chỉ output JSON”. Nếu chỉ cần code thì ghi “không giải thích”. Với coding agent, phần output đôi khi còn đắt hơn input. Đừng dùng model mạnh nhất cho mọi thứ. GPT-5.5 hoặc Claude Opus để rewrite một tiêu đề ngắn là khá phí. Workflow tốt thường dùng model nhỏ cho task đơn giản và chỉ gọi model lớn ở bước reasoning quan trọng. Thực ra phần lớn mình dùng Claude Sonnet, GPT 5.4 là reasoning cũng tốt lắm rồi. Tác vụ thường ngày dùng mấy model Trung Quốc qua Ollama Cloud API như Deepseek, GLM, Minimax xài tẹt ga. Một điều ít anh em chú ý là prompt rõ ngay từ đầu thường rẻ hơn rất nhiều so với chat qua lại nhiều vòng. Một prompt tốt có thể tốn 2.000 token. Nhưng 10 lần sửa prompt nhỏ có thể tốn 20.000–30.000 token rất nhanh vì nó phải đọc lại context cũ nhiều. Với AI agent, cách tiết kiệm lớn nhất thường không nằm ở prompt, mà nằm ở architecture. Nếu agent liên tục đọc lại toàn bộ memory, toàn bộ docs, toàn bộ chat history mỗi bước thì chi phí sẽ nổ rất nhanh. Đây là lý do các hệ agent production phải dùng retrieval, memory layer, context pruning và state management thay vì nhét mọi thứ vào context window. Cuối cùng, workflow AI tốt không phải workflow dùng model mạnh nhất hay context dài nhất. Nó là workflow đưa đúng dữ liệu, đúng lúc, cho đúng model. Follow @nghienaivn đảm bảo có nhiều bài chất lượng! https://t.co/wOX7GsW3qv ✅ ---
From X

Disclaimer: The above content reflects only the author's opinion and does not represent any stance of CoinNX, nor does it constitute any investment advice related to CoinNX.

28