🤖AI멀티모달 LLM (Multimodal Large Language Model)약 1분GitHub에서 보기멀티모달 LLM (Multimodal Large Language Model) 여러 종류의 입력을 동시에 이해하고 처리할 수 있는 LLM 즉, 기존 LLM이 텍스트만 이해했다면, 멀티모달 LLM은 다음을 모두 처리할 수 있다 텍스트 이미지 음성 비디오 코드 1. 멀티모달(Multimodal)의 의미 Modal(모달) = 정보의 형태(표현 방식) 텍스트 = 언어 모달 이미지 = 시각 모달 음성 = 오디오 모달 Multi-modal = 여러 모달을 한 번에 다루는 것 예: 이미지 + 텍스트 음성 + 텍스트 비디오 + 텍스트 이미지 + 텍스트 + 오디오 2. 멀티모달 LLM이 할 수 있는 일 이미지 분석 + 설명 "이 사진에서 문젲머이 뭐야?" 이미지 기반 Q & A "이 에러 로그가 뜻하는 게 뭐야?" "이 설꼐도에서 문제점을 찾아줘." 문서 이미지 -> 내용 이해 스캔된 PDF를 이해하고 요약하기 음성 -> 의미 분석 통화 녹음을 요약해줘 사람 감정 분석 지시사항 추출 비디오 기초 분석 장면 요약, 객체 설명 등 여러 모달 결합 reasoning 사진 속 화이트보드 그림을 보고 코드 생성 UI 캡처 화면을 보고 UX 개선안 도출 시스템 구조도를 보고 리뷰 작성
멀티모달 LLM (Multimodal Large Language Model) 여러 종류의 입력을 동시에 이해하고 처리할 수 있는 LLM 즉, 기존 LLM이 텍스트만 이해했다면, 멀티모달 LLM은 다음을 모두 처리할 수 있다 텍스트 이미지 음성 비디오 코드 1. 멀티모달(Multimodal)의 의미 Modal(모달) = 정보의 형태(표현 방식) 텍스트 = 언어 모달 이미지 = 시각 모달 음성 = 오디오 모달 Multi-modal = 여러 모달을 한 번에 다루는 것 예: 이미지 + 텍스트 음성 + 텍스트 비디오 + 텍스트 이미지 + 텍스트 + 오디오 2. 멀티모달 LLM이 할 수 있는 일 이미지 분석 + 설명 "이 사진에서 문젲머이 뭐야?" 이미지 기반 Q & A "이 에러 로그가 뜻하는 게 뭐야?" "이 설꼐도에서 문제점을 찾아줘." 문서 이미지 -> 내용 이해 스캔된 PDF를 이해하고 요약하기 음성 -> 의미 분석 통화 녹음을 요약해줘 사람 감정 분석 지시사항 추출 비디오 기초 분석 장면 요약, 객체 설명 등 여러 모달 결합 reasoning 사진 속 화이트보드 그림을 보고 코드 생성 UI 캡처 화면을 보고 UX 개선안 도출 시스템 구조도를 보고 리뷰 작성