📚FOS Study
홈카테고리
홈카테고리
📚FOS Study

개발 학습 기록을 정리하는 블로그입니다.

바로가기

  • 홈
  • 카테고리

소셜

  • GitHub
  • Source Repository

© 2025 FOS Study. Built with Next.js & Tailwind CSS

목록으로 돌아가기
🤖AI

멀티모달 LLM (Multimodal Large Language Model)

약 1분
GitHub에서 보기

멀티모달 LLM (Multimodal Large Language Model)

  • 여러 종류의 입력을 동시에 이해하고 처리할 수 있는 LLM
  • 즉, 기존 LLM이 텍스트만 이해했다면, 멀티모달 LLM은 다음을 모두 처리할 수 있다
    • 텍스트
    • 이미지
    • 음성
    • 비디오
    • 코드

1. 멀티모달(Multimodal)의 의미

  • Modal(모달) = 정보의 형태(표현 방식)
    • 텍스트 = 언어 모달
    • 이미지 = 시각 모달
    • 음성 = 오디오 모달
  • Multi-modal = 여러 모달을 한 번에 다루는 것
    • 예:
      • 이미지 + 텍스트
      • 음성 + 텍스트
      • 비디오 + 텍스트
      • 이미지 + 텍스트 + 오디오

2. 멀티모달 LLM이 할 수 있는 일

  • 이미지 분석 + 설명
    • "이 사진에서 문젲머이 뭐야?"
  • 이미지 기반 Q & A
    • "이 에러 로그가 뜻하는 게 뭐야?"
    • "이 설꼐도에서 문제점을 찾아줘."
  • 문서 이미지 -> 내용 이해
    • 스캔된 PDF를 이해하고 요약하기
  • 음성 -> 의미 분석
    • 통화 녹음을 요약해줘
    • 사람 감정 분석
    • 지시사항 추출
  • 비디오 기초 분석
    • 장면 요약, 객체 설명 등
  • 여러 모달 결합 reasoning
    • 사진 속 화이트보드 그림을 보고 코드 생성
    • UI 캡처 화면을 보고 UX 개선안 도출
    • 시스템 구조도를 보고 리뷰 작성
AI 카테고리의 다른 글 보기수정 제안하기
목차
  • 멀티모달 LLM (Multimodal Large Language Model)
  • 1. 멀티모달(Multimodal)의 의미
  • 2. 멀티모달 LLM이 할 수 있는 일