홈 카테고리

홈 카테고리

📚FOS Study

개발 학습 기록을 정리하는 블로그입니다.

바로가기

홈
카테고리

소셜

GitHub
Source Repository

© 2025 FOS Study. Built with Next.js & Tailwind CSS

목록으로 돌아가기

멀티모달 LLM (Multimodal Large Language Model)

약 1분

GitHub에서 보기

멀티모달 LLM (Multimodal Large Language Model)

여러 종류의 입력을 동시에 이해하고 처리할 수 있는 LLM
즉, 기존 LLM이 텍스트만 이해했다면, 멀티모달 LLM은 다음을 모두 처리할 수 있다
- 텍스트
- 이미지
- 음성
- 비디오
- 코드

1. 멀티모달(Multimodal)의 의미

Modal(모달) = 정보의 형태(표현 방식)
- 텍스트 = 언어 모달
- 이미지 = 시각 모달
- 음성 = 오디오 모달
Multi-modal = 여러 모달을 한 번에 다루는 것
- 예:
  - 이미지 + 텍스트
  - 음성 + 텍스트
  - 비디오 + 텍스트
  - 이미지 + 텍스트 + 오디오

2. 멀티모달 LLM이 할 수 있는 일

이미지 분석 + 설명
- "이 사진에서 문젲머이 뭐야?"
이미지 기반 Q & A
- "이 에러 로그가 뜻하는 게 뭐야?"
- "이 설꼐도에서 문제점을 찾아줘."
문서 이미지 -> 내용 이해
- 스캔된 PDF를 이해하고 요약하기
음성 -> 의미 분석
- 통화 녹음을 요약해줘
- 사람 감정 분석
- 지시사항 추출
비디오 기초 분석
- 장면 요약, 객체 설명 등
여러 모달 결합 reasoning
- 사진 속 화이트보드 그림을 보고 코드 생성
- UI 캡처 화면을 보고 UX 개선안 도출
- 시스템 구조도를 보고 리뷰 작성

AI 카테고리의 다른 글 보기 수정 제안하기

목차

멀티모달 LLM (Multimodal Large Language Model)
1. 멀티모달(Multimodal)의 의미
2. 멀티모달 LLM이 할 수 있는 일