졸업 프로젝트로 LangChain + FastAPI 기반 RAG 시스템을 만들던 중,기존 llm성능이 너무 떨어져NVIDIA GeForce RTX 4070 SUPER (12GB VRAM) 외장gpu를 교수님께 받게 되었다. 작은 모델( skt/kogpt2-base-v2 )에서 조금 더 사이즈를 키워 라마기반 모델( beomi/llama-2-ko-7b )을 돌려보았다. beomi/llama-2-ko-7b 모델은 full precision 기준 10~12GB 이상의 VRAM을 요구한다.내 GPU는 RTX 4070 SUPER로 12GB VRAM이라 간당간당해서 4bit 양자화(Quantization)를 적용했다.VRAM 사용량을 약 3~4GB로 감소시켜 더 안정적인 로딩이 가능해짐. 개발 환경은 다음과 같다..