표준 GPU에서의 실시간 LLM 추론: 요청당 3k 토큰/초Real-time LLM Inference on Standard GPUs: 3k tokens/s per request▲ 219 · blog.kog.ai · 9일 전 · 97 댓글원문 보기 → HN에서 보기 →원문 요약원문을 요약하고 있습니다…