표준 GPU에서의 실시간 LLM 추론: 요청당 3k 토큰/초

Real-time LLM Inference on Standard GPUs: 3k tokens/s per request

▲ 219 · blog.kog.ai · 9일 전 · 97 댓글