1. ์ ์ ๋ฐ ๋ฑ์ฅ ๋ฐฐ๊ฒฝ
- ์ํ ์ธ์ด ๋ชจ๋ธ(Small Language Model, SLM)์ ํ๋ผ๋ฏธํฐ ์๊ฐ ์๋ฐฑ๋ง์์ ์์ญ์ต์ผ๋ก ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์์ฒ์ตยท์์กฐ ํ๋ผ๋ฏธํฐ๋ณด๋ค ์์
- ๊ฑฐ๋ํ LLM์ ๋ฐ์ด๋ ๋ฒ์ฉ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง ์ถ๋ก ๋น์ฉยท์๋ต ์ง์ฐ์ด ํฌ๊ณ ๋ฐ์ดํฐ ํ๋ผ์ด๋ฒ์ ์ฐ๋ ค๊ฐ ์กด์ฌํจ
- SLM์ ์ ์ ์์์ผ๋ก ๋น ๋ฅด๊ฒ ๋์ํ๋ฉฐ ์จํ๋ ๋ฏธ์คยท๋ชจ๋ฐ์ผ ๋ฑ ์ ํ๋ ํ๊ฒฝ์์๋ ์คํ๋ผ์ธ ์คํ ๊ฐ๋ฅ
- ๋๋ฉ์ธ ํนํ ์ง์์ ๊ต์ ํ๊ธฐ ์ํ ํ์ธํ๋ ๋น์ฉ์ด ๋ฎ์ ๊ธฐ์ ยท๊ฐ์ธ์ด ์์ฒด ๋ชจ๋ธ์ ์์ฝ๊ฒ ๋ง๋ค ์ ์์
- ๋ฐ๋ผ์ ์์ง๋ง ์ถฉ๋ถํ ๋๋ํ ๋ชจ๋ธ์ ์ฐ์๋ ํ๋ฆ๊ณผ ํจ๊ป SLM์ด ๊ฐ๊ด๋ฐ๊ณ ์์
2. ๋ํ์ ์ธ ์ํคํ ์ฒ ๋ฐ ์คํ์์ค SLM
์๋ ๋ชจ๋ธ๋ค์ ๊ณต๊ฐ ๊ฐ์ค์น์ ์ฝ๋๊ฐ ์ ๊ณต๋์ด ์ฐ๊ตฌยท์๋น์ค ๋ชจ๋์ ํ์ฉ ๊ฐ๋ฅ
-
TinyLLaMA(1.1B)
- LLaMA2 ๊ธฐ๋ฐ ์ด์ํ ๋ชจ๋ธ
- ์ฝ 1์กฐ ํ ํฐ ์ฌ์ ํ์ต์ผ๋ก ๋๊ธ ์ต๊ณ ์์ค ๋ฌ์ฑ
- 1์ต๊ฐ ์์ค์ ํ๋ผ๋ฏธํฐ๋ก ๊ฒฝ๋ PC๋ ์ค๋งํธํฐ์์๋ ์คํ ๊ฐ๋ฅ
-
Phi-2(2.7B)
- Microsoft ์ฐ๊ตฌํ ๋ฐํ
- 13B ๋ฏธ๋ง ๋ชจ๋ธ ์ค ์ต์์๊ถ ์ฑ๋ฅ์ ๋ ผ๋ฆฌยท์ถ๋ก ์ฑ๋ฅ
- ์ค์ผ์ผ๋ง ๊ธฐ๋ฒ๊ณผ ๋ฐ์ดํฐ ํ๋ ์ด์ ๋๋ถ์ ์ต๋ 25๋ฐฐ ํฐ ๋ชจ๋ธ๊ณผ ๋ง๋จน๊ฑฐ๋ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ ๋ฌ์ฑ
๋ฐ์ดํฐ ํ๋ ์ด์ : '์ ์ง๋ง ์ ์ ๋ ๊ต์ฌ + ๊ฒ์ฆ๋ ์น'์ ๋ฃ์ด ์ ๋ณด ๋ฐ๋์ ์์ ์ฑ ๊ทน๋ํ
- Synthetic ๊ต๊ณผ์ ์์ฑ : GPT 3.5 Turbo๋ก ๊ณผํ, ์ํ, ์ผ์, ์์ ๋ฑ ์์์ ์ถ๋ก ๊ณผ ์ผ๋ฐ ์ง์์ ๊ฐ๋ฅด์น๊ธฐ ์ํด ์ฐ์ต ๋ฌธ์ ๋ฐ ํด์ค์ ์์ฑ โ ๋ชจ๋ธ์ด ์ถ๋ก ํจํด์ ํ์ตํ๋๋ก ์ค๊ณ
- ์น ๋ฐ์ดํฐ ํํฐ๋ง : ๊ณ ํ์ง ํฌ๋กค๋ง์ GPT-4๋ก ๋ฌธ๋จ๋ณ ํ๊ฐํด์ ์ ์ ๋ฎ์ผ๋ฉด ํ๊ธฐ
โ ๋ ธ์ด์ฆ ๋ฐ ํธํฅ ๊ฐ์, ์์ ์ฑ ์ฆ๊ฐ - ์ฝ๋, ๋ฌธ์ ํ์ด ๋ณด๊ฐ : The Stack, StackOverflow ์ผ๋ถ + ๋จ๊ณ๋ณ ํ์ด๊ฐ ํฌํจ๋ ํ์ด์ฌ ๊ต์ฌ ๋ฐ์ดํฐ
โ ์ฝ๋ฉ, ์๋ฆฌ ์ฑ๋ฅ ๊ฐํ - ํ ํฐ ์ฌํ์ฉ ํ์ต : 250B์ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ pass ๋๋ ค 1.4์กฐ ํ ํฐ ๋ถ๋๋งํผ ํ์ต
โ ๋ฐ์ดํฐ ์ฆ๋ถ ์์ด ํ์ต๋์ ๋ํ ๋ชจ๋ธ ์์ค์ผ๋ก ๋ง์ถค
์ค์ผ์ผ๋ง ๊ธฐ๋ฒ : teacher-student distillation + ๊ฐ์ค์น ์ฌ์ฌ์ฉ์ผ๋ก ํ์ต ํจ์จ์ ๊ทน๋ํ
- ๊ธฐ์กด ๋ฐฉ์ : ์ ํ๋ผ๋ฏธํฐ ์ ๋ถ ๋ฌด์์ ์ด๊ธฐํ ํ ๋๊ท๋ชจ ํ์ต
- Phi-2 ๋ฐฉ์
- Phi-1.5 (1.3B) ๊ฐ์ค์น๋ฅผ 2.7B ์ํคํ ์ฒ์ ํจ๋ฉ ๋ฐ ํ์ผ๋ง ๋ณต์ฌ
- distillation์ ํตํด Phi-1.5๋ฅผ teacher ๋ชจ๋ธ๋ก ์ถ๋ ฅ ๋ถํฌ ํ์ต
- ์ถ๊ฐ attention head์ ๊ฐ์ ์ ํ๋ผ๋ฏธํฐ๋ gradual unfreezing1์ผ๋ก ์ ์ง์ ํ์ต
-
Mistral 7B(7.3B)
- Mistral AI ๋ชจ๋ธ๋ก ๊ณต๊ฐ ๋น์ ๋๊ธ ์ต๊ณ ์ฑ๋ฅ ๊ธฐ๋ก
- Llama2 13B๋ฅผ ๋ฅ๊ฐํ๊ณ Apache-2.0 ๋ผ์ด์ ์ค๋ก ์์ ์ฌ์ฉ
- GQA (๊ทธ๋ฃน ์ฟผ๋ฆฌ ์ดํ ์ )ยทSWA (์ฌ๋ผ์ด๋ฉ ์๋์ฐ ์ดํ ์ ) ๋ฑ ์ถ๋ก ์ต์ ํ ๊ธฐ์ ์ ์ฉํด ๊ธด ๋ฌธ๋งฅ ๋น ๋ฅด๊ฒ ์ฒ๋ฆฌ
GQA : Multi-head attention์ ๊ณ์ฐ/๋ฉ๋ชจ๋ฆฌ ๋น์ฉ ์ ๊ฐ ๋ฐ ์ฑ๋ฅ ์ ์ง
- ์ฌ๋ฌ attention head๊ฐ query๋ ๊ฐ๋ณ์ ์ผ๋ก key, value๋ ๊ทธ๋ฃน ๋จ์๋ก ์ฐ์ฐ
- ๊ธฐ์กด dense attention๊ณผ ๊ฑฐ์ ๊ฐ์ ์ฑ๋ฅ์ ๋ด๋ฉด์ ๋ฉ๋ชจ๋ฆฌ, ์ฐ์ฐ๋์ ๋ํญ ๊ฐ์
- ์ฐธ๊ณ
SWA : ๊ธด ์ํ์ค ์ ๋ ฅ์์ attention ์ฐ์ฐ์ ํจ์จ์ ์ผ๋ก ํ๋๋ก ๊ฐ์
- ๊ฐ ํ ํฐ์ด ์ ์ฒด ํ ํฐ์ ๋ณด์ง ์๊ณ , ์์ ์ ์ค์ฌ์ผ๋ก ํ ์ผ์ ํฌ๊ธฐ์ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ๋ด ํ ํฐ๋ง ์ฐธ์กฐ
- ๋ฉ๋ชจ๋ฆฌ, ์ฐ์ฐ๋ ์ ํ์ผ๋ก ๊ฐ์ํ๊ณ ๊ธด ์ปจํ ์คํธ์์๋ ๋น ๋ฅธ ์ถ๋ก ๊ฐ๋ฅ
- ์ฐธ๊ณ
-
DistilBERT(66M)
- ๊ตฌ๊ธ BERT ์ง์ ์ฆ๋ฅ ๊ธฐ๋ฒ์ผ๋ก ์์ถํ์ฌ 40% ๋ชจ๋ธ ์ถ์ยท60% ์ถ๋ก ๊ฐ์์๋ ์ ํ๋ 95 % ์ด์ ์ ์ง
- ๋ฌธ์ ๋ถ๋ฅ, ์ง์์๋ต ๋ฑ ์ธ์ด ์ดํด ์์ ์์ BERT์ ์คํ๋ ์ฑ๋ฅ์ ํจ์ฌ ์ ์ ์์์ผ๋ก ๋ผ ์ ์์
- 2020๋ ์ด๋ถํฐ ์ฐ์ ๊ณ์์ ๋ง์ด ํ์ฉ
-
Gemma ์๋ฆฌ์ฆ(2B~27B)
- Google์ด ๊ฐ๋ฐํ Gemini ๊ธฐ๋ฐ ๊ฒฝ๋ ๋ชจ๋ธ๊ตฐ
- 1์ธ๋ : 2B/7B ํ๋ผ๋ฏธํฐ๋ก ์ฌ์ด์ ์ฝ๋/์ํ ๋ฐ์ดํฐ ์์ฃผ ํ์ต
- 2์ธ๋ : 2B/9B/27B ๋ฑ์ผ๋ก ์ฑ๋ฅ ํฅ์น
- Gemma3๋ 10์ฌ๊ฐ ์ธ์ด์์ ์ง์ ๋ฒ์๋ฅผ 140๊ฐ ์ด์ ์ธ์ด๋ก ํ๋, 128k ๋ฌธ๋งฅยท๋ฉํฐ๋ชจ๋ฌ ์ง์๊น์ง ํ์ฅ, ๋ชจ๋ฐ์ผยท์น์๋ ๋ฐฐํฌ ๊ฐ๋ฅํ๋๋ก ์ต์ ํ
- Google์ด ๊ฐ๋ฐํ Gemini ๊ธฐ๋ฐ ๊ฒฝ๋ ๋ชจ๋ธ๊ตฐ
3. ๋ํ LLM ๋๋น SLM์ ๊ฐ์ ยท์ฝ์
๋ํ ๋ชจ๋ธ๊ณผ ์ํ ๋ชจ๋ธ์ ์ฉ๋๋ณ๋ก ๋ณํ ์ฌ์ฉํ๋ ํ์ด๋ธ๋ฆฌ๋ ์ ๋ต์ด ํ์ฐ ์ค
๊ฐ์ : ๊ฒฝ๋ํ์์ ์ค๋ ํจ์จ์ฑ
- ๋ฎ์ ์ธํ๋ผ ๋น์ฉ๊ณผ ์ ๋ ฅ ์๋น โ ์จํ๋ ๋ฏธ์ค ์๋ฒ๋ ๋จ๋ง๊ธฐ์์ ์ง์ ๋๋ฆด ์ ์์
- ๋คํธ์ํฌ ์๋ณต ์๋ ๋ฐ๋ฆฌ์ด ์๋ต โ IoT๊ธฐ๊ธฐ๋ ์ค๋งํธํฐ ์์ฑ๋น์, ์ฑ๋ด ์ค์๊ฐ ๊ตฌ๋์ ์ ํฉ
- ์๋ ๋ฐ์ดํฐ๋ก ๋น ๋ฅธ ํ์ธํ๋ ๊ธฐ์ ๋ด๋ถ ์ง์ ๋ฐ์ ์ฌ์
- ๊ธฐ๊ธฐ ๋ด ์ถ๋ก ์ผ๋ก ๋ฏผ๊ฐ ์ ๋ณด ์ ์ถ ์ต์ํ โ ์๋ฃ, ๊ธ์ต ๋ถ์ผ์์ ํด๋ผ์ฐ๋ LLM๋ณด๋ค๋ ์จํ๋ ๋ฏธ์ค SML ์์ ํผ
์ฝ์ : ์ง์ ๋ฒ์์ ๋ฒ์ฉ์ฑ ํ๊ณ
- ํ์ต ๋ฐ์ดํฐ ๋ฒ์๊ฐ ์ข์ ์ผ๋ฐ ์์ ์ปค๋ฒ๋ฆฌ์ง ํ๊ณ
- Emergent capability (๋๋ฐ์ ๋ฅ๋ ฅ) ๋ถ์กฑ์ผ๋ก ๋ณต์กํ ์ถ๋ก ๋ฐ ๋ค๋จ๊ณ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ ์ด์ธ โ ํน๋ณํ ํ๋ จ ์ ๋ต์ผ๋ก ๋ณด์ ํ์ (Phi-2 ์ฌ๋ก)
- ๋๋ฉ์ธ ์ธ ์ง๋ฌธ์์ ํ๊ฐ ๊ฐ๋ฅ์ฑ ์ฆ๊ฐ โ ํน์ ๋๋ฉ์ธ์ ๊ณผ์ ํฉ
- ์ ๋๋ก ์ฐ๋ ค๋ฉด ๋ชจ๋ธ ๊ฒฝ๋ํยทํ๋ ๊ธฐ์ ์ดํด ํ์ โ ํฐ ๋ชจ๋ธ์ API ๋ฐ๋ก ์จ๋ ๋์ง๋ง ์์ ๋ชจ๋ธ์ ์ ๋๋ก ์ฐ๋ ค๋ฉด ๊ฒฝ๋ํ๋ ํ์ธํ๋ ์ญ๋ ํ์
4. ์ฃ์งยท์จ๋๋ฐ์ด์ค ํ์ฉ ์ฌ๋ก ๋ฐ ๊ธฐ์ ์๊ฑด
์ํ ์ธ์ด ๋ชจ๋ธ์ ๊ฐ์ฅ ํฐ ํ์ฉ์ฒ ์ค ํ๋๊ฐ ์ฃ์ง ์ปดํจํ
๊ณผ ์จ๋๋ฐ์ด์ค AI
๋ชจ๋ ํด๋ผ์ฐ๋ ์์กด ์์ด ๋์ํด ์ ์ง์ฐยทํ๋ผ์ด๋ฒ์, ์คํ๋ผ์ธ ๊ฐ์ฉ์ฑ ์ธก๋ฉด์์ ์ฅ์ ์ด ํผ
- ๋ชจ๋ฐ์ผ ๋๋ฐ์ด์ค
- 7B ๋ชจ๋ธ์ 4-bit ์์ํํ๋ฉด 3 ~ 4GB ๋ฉ๋ชจ๋ฆฌ๋ก ์คํ ๊ฐ๋ฅํด 12GB RAM ์ค๋งํธํฐ์์ ์คํ ๊ฐ๋ฅ
- Google์ด Gemma 3 ๋ฑ SLM 10์ฌ ์ข ์ ์จ๋๋ฐ์ค์ด์ค๋ก ๊ตฌ๋ํ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ ๊ณต
- IoTยท์๋ฒ ๋๋
- ๊ณต์ฅ ์ค๋น๊ฐ ์์ฒด SLM์ผ๋ก ์ผ์ ๋ฐ์ดํฐ๋ฅผ ์ค์๊ฐ ํด์
- ๋คํธ์ํฌ ์ง์ฐ์ด๋ ์ฐ๊ฒฐ ๋ถ์์ ์ํฅ ๋ฐ์ง ์์ ์ค์๊ฐ ์ ์ด์ ์์ ์ฑ ํฅ์
- SLM์ ๊ฒฝ๋ ํ๋ ์์ํฌ (C++/๋ง์ดํฌ๋ก๋ฐํ์)๋ก ๊ตฌ๋ํ๊ณ , ๋ชจ๋ธ์ 8-bit ์ดํ ์ ์ ๋ฐ ์์ํํ์ฌ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ ์ค์ด๋ ๊ธฐ์ ์ด ํ์
- ์น ๋ธ๋ผ์ฐ์
- WebGPU+WebLLM์ผ๋ก 7B ๋ชจ๋ธ์ ๋ธ๋ผ์ฐ์ ๋ฉ๋ชจ๋ฆฌ์ ๋ก๋ํด ์คํ๋ผ์ธ ์ฑ๋ด ๊ตฌํ
- ์ค์น์์ด ๋์ํ๊ณ ํ๋ผ์ด๋ฒ์ ์งํค๋ฉด์ AI ๊ธฐ๋ฅ ์ ๊ณต
- ๋ฉํฐ๋ชจ๋ฌยทRAG
- Gemma 3 ๋ฉํฐ๋ชจ๋ฌ variant๊ฐ ์จ๋๋ฐ์ด์ค์์ ์ด๋ฏธ์งยท์์ฑ์ ์ง์ ์ฒ๋ฆฌ
- ์์ ๋ชจ๋ธ + RAG๋ก ์ง์ ๋ณด์ โ ํ์ฌ ๋ด๋ถ ๋ฌธ์๋ฅผ ํด๋ํฐ์์ ๊ฒ์ + ์ง์์๋ต ํด์ฃผ๋ ๊ธฐ์ ์ฉ ์ฑ๋ด์ผ๋ก ํ์ฉ
๋ชจ๋ธ ์ต์ ํ ๋ฐ ๊ฒฝ๋ํ๊ฐ ํ์๋ก ๋ณดํต 4-bit ์ ๋ฐ๋๋ก ์์ํํ ggml/GGUF ํฌ๋งท ๋ชจ๋ธ์ ์ฌ์ฉํ๊ณ C++ ๊ธฐ๋ฐ ์ถ๋ก ์์ง์ ํตํด GPU ์์ด CPU ๋ง์ผ๋ก ์ถ๋ก ํ ์ ์๊ฒ ์ธํ
์ด ํ์
๋ํ ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ์ ๋ฐ์ด๋ ๊ณ ๋ คํด์ผํด์ ํ์์ ์ ์ฉ๋ ๋ชจ๋ธ (3B ์ดํ) ์ ์ ํํ๊ฑฐ๋ ํ๋ ์ ๋จ์๋ก ๋ก๋/์ธ๋ก๋ํ๋ ๊ธฐ๋ฒ ํ์ฉ
ggml๊ณผ GGUF
- ggml : C/C++๋ก ๊ตฌํ๋ ๊ฒฝ๋ ํ ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
- ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ, SIMD ์ต์ ํ, ๋ค์ํ ์์ํ ์ง์
- ๋ชฉ์ : GPU ์์ด๋ ๋ก์ปฌ ํ๊ฒฝ์์ LLM์ ๋น ๋ฅด๊ฒ ๊ตฌ๋
- GGUF : ggml ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ ์ฅํ๋ ์๋ก์ด ํตํฉ ํ์ผ ํฌ๋งท
- GGML Universal Format์ ์ฝ์
- ๋ชจ๋ธ ๊ตฌ์กฐ/๋ฉํ์ ๋ณด ํ์คํ
5. ์ฐ์ ๋์ ์ฌ๋ก
- ์ํ : ๊ณ ๊ฐ์ง์ ์ฑ๋ด์ 7B ํ๊ตญ์ด SLM+RAG๋ฅผ ์ ์ฉํด ์ฐ๊ฐ API ๋น์ฉ ์์ต ์ ์ ๊ฐ
- ์ง๋ฐฉ์์น๋จ์ฒด : ๋ฏผ์ Q&A๋ฅผ ์จํ๋ ๋ฏธ์ค 7B ๋ชจ๋ธ๋ก 24์๊ฐ ์๋ ์๋ต
- ์คํํธ์ : ๊ต์ฌ PDF ์์ฝยท๋ฌธ์ ์ถ์ , ์ฑ์ Mistral 7B ๋ด์ฅํด์ ์ฌ์ฉ์ ๋ฐ์ดํฐ ์ธ๋ถ ์ ์ก ์์
- ์ ์กฐ ๊ธฐ์ : ์ฌ๋ด ๊ธฐ์ ์ํค๋ฅผ ๋ฒกํฐ DB๋ก ๊ตฌ์ถ, 7B ์ฑ๋ด์ด ์ต์ ๋ฌธ์ ๊ธฐ๋ฐ ๋ต๋ณ ์ ๊ณต
- ์ ์์๊ฑฐ๋ : ๋ฆฌ๋ทฐ ๋ฐ์ดํฐ ํ์ต, 300M ํ๋ผ๋ฏธํฐ ์ผํ ํนํ SLM ์คํ์์ค ๊ณต๊ฐ
6. ํ๋ จ ๋ฐ ํ์ธํ๋ ์ ๋ต
SLM ์ ์ยทํ์ฉ์ ์ํ ํต์ฌ ๊ฒฝ๋ํ ๊ธฐ๋ฒ
- Knowledge Distillation
- ๋์ฉ๋ teacher ๋ชจ๋ธ์ ์ง์์ ์ํ student ๋ชจ๋ธ์ ์ ๋ฌํ์ฌ ์ฑ๋ฅ์ ๋์ด๋ ๊ธฐ๋ฒ
- student ๋ชจ๋ธ์ ํ์ต ๊ณผ์ ์์ teacher ๋ชจ๋ธ์ ์ถ๋ ฅ ๋ถํฌ ๋ชจ๋ฐฉํ๋๋ก ํ์ต โ ํฐ ๋ชจ๋ธ ์์ค์ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐ์ถ๊ฒ ๋จ
- ๋๊ท๋ชจ Pre-training ๋จ๊ณ์์ ์ ์ฉ๋๊ธฐ๋ ํ๊ณ ํน์ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์ ๋ํด ๋ฏธ์ธ์กฐ์ ํ ๋ ์ฌ์ฉ
- Quantization
- ๋ชจ๋ธ์ ๊ฐ์ค์น์ ์ฐ์ฐ์ ๊ณ ์ ์์์ ์ ์ ์ ๋ฐ๋ ํํ (8-bit or 4-bit)์ผ๋ก ๋ฐ๊พธ๋ ๊ธฐ๋ฒ
- ํ์ต ์ค (QAT) ํน์ ํ์ต ํ (PTQ)์ ์ ์ฉ ๊ฐ๋ฅํ๋ฉฐ PTQ์ ๊ฒฝ์ฐ ์ถ๊ฐ ํ์ต ์์ด ๋ชจ๋ธ ์ค์ผ ์ ์๊ณ QAT๋ ์ข ๋ ๋ณต์กํ์ง๋ง ์ ํ๋ ์ ํ ์ต์ํ
- ์ฐ์ฐ ์์๋ ์บ์ ์ ์ค์จ์ด ๋์ ์ถ๋ก ๋นจ๋ผ์ง๋ ํจ๊ณผ๋ ์์
- 8-bitยท4-bit ์์ํ๋ ์ฑ์ ๋จ๊ณ์ด๊ณ 3-bit ์์ํ ์ฐ๊ตฌ ์ค
- LoRA2
- ํ์ธํ๋ ์ ๋ชจ๋ ๊ฐ์ค์น ์ ๋ฐ์ดํธํ์ง ์๊ณ ๊ฐ์ค์น ํ๋ ฌ์ ์ ๋ญํฌ ํ๋ ฌ๋ก ๋ถํดํ์ฌ ๊ทนํ ์ผ๋ถ๋ง ํ์ตํด ํ๋ผ๋ฏธํฐ ์์ฒ๋ถ์ ์ผ๋ก ์ถ์
- ๊ฐ ๋ ์ด์ด์ ๊ฐ์ค์น ๋ฅผ ๋ ๊ฐ์ ์์ ํ๋ ฌ ๊ณฑ์ผ๋ก ๋ํ๋ด ๋ก ๊ทผ์ฌํ๊ณ , ๋ง ์ด๊ธฐํํ์ฌ ํ์ต
- ์ถ๋ก ์์๋ ์ ๋ญํฌ ๋ณด์กฐ ํ๋ ฌ๋ง ์ถ๊ฐ ๊ณ์ฐํ๋ฉด ๋์ด ์ถ๋ก ์๋์ ๊ฑฐ์ ์ํฅ ์ฃผ์ง ์์
- QLoRA
- 4-bit ์์ํ ๋ชจ๋ธ ์ LoRA ์ ์ฉํด์ 65์ต~330์ต ๊ธ ๋ชจ๋ธ๋ ๋จ์ผ 48GB GPU์์ ํ์ธํ๋ ๊ฐ๋ฅํ๋ฉฐ ์ฑ๋ฅ์ 99% ์ด์ ์ ์ง
- ์ ๋น์ฉ์ผ๋ก ๊ฑฐ๋ ๋ชจ๋ธ์ ๋๋ฉ์ธ ํนํ ๋ฐ์ดํฐ์ ๋ฏธ์ธํ๋ํ๋ ํ์ค ๊ธฐ์ ๋ก ๊ฐ๊ด
- Pruning
- ์ ๊ฒฝ๋ง์์ ๊ธฐ์ฌ๋ ๋ฎ์ ๊ฐ์ค์น๋ฅผ ์ ๊ฑฐํด ๋ชจ๋ธ ๊ฒฝ๋ํ โ ์ ๋๊ฐ ์์ ๊ฐ์ค์น, ๊ธฐ์ฌ๋ ๋ฎ์ ๋ด๋ฐ ์ ๊ฑฐ
- ์ ํ๋ ์ ํ๊ฐ ์์ ์ ์์ง๋ง ์ถ๊ฐ ํ์ธํ๋์ผ๋ก ํ๋ณต
- ๋ชจ๋ธ ์ถ๋ก ์ ๊ณ์ฐ๋์ ์ค์ด์ง๋ง ํ๋ transformer์์๋ ๊ตฌ์กฐ์ pruning ์๋๋ฉด ํฐ ํจ๊ณผ ์์ด์ N:M sparsity ๋ฑ ํ๋์จ์ด ์นํ์ ๊ธฐ๋ฒ๊ณผ ์ฐ๊ตฌ
๊ตฌ์กฐ์ Pruning : ์ ๊ฒฝ๋ง์ ๊ตฌ์กฐ ๋จ์๋ก ํต์งธ๋ก ์๋๋ด๋ pruning
- ์ฅ์ : ๊ตฌ์กฐ ์ ์ฒด๊ฐ ์ฌ๋ผ์ง๋ฏ๋ก ์ฐ์ฐ๋ ๋ฉ๋ชจ๋ฆฌ ์๋ ๊ฐ์ ํจ๊ณผ ๋งค์ฐ ํผ
- ๋จ์ : ์ ๋ฐํ์ง ๋ชปํ๋ฉด ์ฑ๋ฅ ์ ํ ์ํ
- ์์
- CNN์์ ํํฐ (์ฑ๋) ๋จ์๋ก ์ ๊ฑฐ
- Transformer์์ Attention head ๋จ์๋ก ์ ๊ฑฐ
- ์ฐธ๊ณ
N:M Sparsity : N ๊ฐ์ ํ๋ผ๋ฏธํฐ ์ค M๊ฐ๋ง ๋จ๊ธฐ๊ณ ๋๋จธ์ง๋ 0์ผ๋ก ๋ง๋๋ ํจํดํ๋ ๋น๊ตฌ์กฐ์ sparsity
- ๊ฐ weight chunk๋ง๋ค ๊ณ ์ ๋ N:M ๊ท์น์ผ๋ก ์ ๊ฑฐ
- ์ฅ์ : GPU/AI chip ๋ฑ์์ ์ ์ฉ sparsity ๊ฐ์ ์ง์, ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ๋ ํ์คํ ๊ฐ์
- ๋จ์ : ๊ตฌ์กฐ์ pruning ๋งํผ ์ฌ์ด ์ค๊ณ์๋๊ณ ๋๋ฌด ํฐ N:M์ด๋ฉด ์ฑ๋ฅ ์ ํ ์ํ
- ์ฐธ๊ณ
7. ํต์ฌ ํดํท ๋ฐ ํ๋ ์์ํฌ
- llama.cpp
- LLaMA ๊ณ์ด ๋ชจ๋ธ์ CPU ์์์ ๋๋ฆฌ๊ธฐ ์ํด ๋ง๋ C++ ์ถ๋ก ์์ง
- ๋ชจ๋ธ ๊ฐ์ค์น๋ฅผ GGUF 4-bit ์ผ๋ก ๋ณํํด ์ฌ์ฉํ๋ฉฐ ์์ฃผ ์ ์ ๋ฉ๋ชจ๋ฆฌ๋ก CPUยท๋ชจ๋ฐ์ผ์์ LLM ์ถ๋ก ๊ฐ๋ฅ
- ์ฌ์ค์ ๋ก์ปฌ LLM ์คํ์ ํ์ค ๋๊ตฌ
- ggml
- llama.cpp์์๋ ํ์ฉ๋ ๊ณ ์ฑ๋ฅ ํ ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
- ์จ๋๋ฐ์ด์ค ์ถ๋ก ์ ์ํ ๊ฒฝ๋ ๋ชจ๋ธ์ ํต์ฌ
- GGUF ํฌ๋งท ๋์ ์ผ๋ก ๋ค์ํ ํ๋์จ์ด ์ต์ ํ
- Ollama
- llama.cpp๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ก์ปฌ LLM ์คํ/๊ด๋ฆฌ ํ๋ซํผ
- ๋ชจ๋ธ ๋ค์ด๋ก๋ยท์๋น์ CLI ํ ์ค๋ก ์ฒ๋ฆฌ
- Modelfile๋ง ์์ฑํ๋ฉด ํ์ํ ๋ชจ๋ธ์ ๋ฐ๊ณ ๋ก์ปฌ inference API ์ด์ด์ค (Docker-like ์ด์)
- ๊ธฐ์ ํ์ฅ์์ ์ฌ๋ฌ ๊ฒฝ๋ ๋ชจ๋ธ ์ด์ฉ์ ์ ์ฉํ ๋๊ตฌ
- Hugging Face Transformers
- Python ๊ธฐ๋ฐ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก ์์ฒ ๊ฐ ์ด์์ ๋ชจ๋ธ์ ์ฝ๊ฒ ๋ถ๋ฌ์ ์ถ๋ก ํ๊ฑฐ๋ ํ์ธํ๋ ๊ฐ๋ฅ
- ๋ํ LLM๋ถํฐ SML, LoRAยท์์ํยทPEFT ๋ฑ ์ต์ ๊ธฐ๋ฅ ํตํฉ
- ์ฐ๊ตฌ์ ๊ฐ๋ฐ์ ์ปค๋ฎค๋ํฐ์์ ๊ฐ์ฅ ๋๋ฆฌ ์ฐ์ด๋ LLM/SML ํดํท
8. ํฅํ ์ ๋ง๊ณผ ํ๊ณ
- ๋ํ LLM๊ณผ SLM์ ์ญํ ์ด ๋ถํยท์ํธ๋ณด์์ ๊ตฌ์กฐ๋ก ์ ์ฐฉ๋ ์ ๋ง โ ๊ฐ๋จํ ์์ฒญ์ SLM, ๋ณต์กํ ์๊ตฌ๋ LLM๊ฐ์ ์ง๋ฅํ ๋ผ์ดํ
- ๊ณ ํ์ง ๋ฐ์ดํฐ์ ๊ตฌ์กฐ ํ์ ์ผ๋ก ์์ ๋ชจ๋ธ๋ 128k ๋ฌธ๋งฅยท๋ฉํฐ๋ชจ๋ฌ ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ ํ๋ณด ์ค
- ๋ํ ๋ชจ๋ธ ๊ธฐ๋ฅ์ ๊ฒฝ๋ํ ์ถ์ธ ์ด์ด์ง๊ณ ์ฌ๋ฌ ์ํ ๋ชจ๋ธ ์์๋ธ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ์ฆ๊ฐ์ผ๋ก ์ธ๋ถ ์ง์ ํ์ฉํ๋ ๊ตฌ์กฐ ์ฆ๊ฐํ ๊ฒ
- ์ฐฝ์์ ๊ธ์ฐ๊ธฐยทํฌ๊ท ์ธ์ด ๋ฑ ๊ณ ๋๋ ๊ณผ์ ๋ ๋ํ ๋ชจ๋ธ์ด ์ฌ์ ํ ์ฐ์
- ์คํ์์ค ์ํ๊ณ ํ์ฅ์ผ๋ก ํ๊ตญ์ดยท๋ค๊ตญ์ด SLM์ด ๊ณ์ ๋์ด๋๋ฉฐ ๊ฒฝ๋ AI ๋์คํ๋ฅผ ๊ฐ์