[LLM의 기초 뼈대 세우기] 02 - LLM의 중추, 트랜스포머 아키텍쳐 살펴보기 : 트랜스포머 아키텍처란(2)
·
AI/LLM을 활용한 실전 AI 애플리케이션 개발
2.4 정규화와 피드 포워드 층✔️ 정규화: 딥러닝 모델에서 입력이 일정한 분포를 갖도록 만들어 학습이 안정적이고 빨라질 수 있도록 하는 기법과거: 배치 정규화(batch normalization) - 배치 입력 데이터 사이에 정규화 진행현재: 층 정규화(layer normalization) - 트랜스포머 아키텍처에서 사용하는 특정 차원에서 정규화 수행 ✔️ 어텐션 연산: 입력 단어 사이의 관계를 계산해 토큰 임베딩을 조정하는 역할 ✔️ 피드 포워드 층: 전체 입력 문장을 이해하는 연산(완전 연결 층, fully connected layer) 2.4.1 층 정규화 이해하기데이터를 정규화하여 모든 입력 변수가 비슷한 범위의 분포를 갖도록 조정해 특정 변수를 과도하게 반영하는 것을 방지한다. ✔️ 입력 데이..
[LLM의 기초 뼈대 세우기] 01 - LLM 지도 : 언어 모델이 챗GPT가 되기까지 | LLM 애플리케이션의 시대가 열리다
·
AI/LLM을 활용한 실전 AI 애플리케이션 개발
트랜스포머 아키텍쳐, 챗GPT와 그 기반 기술인 정렬에 대해 알아보기1.2.1 RNN에서 트랜스포머 아키텍쳐로텍스트 : 단어가 연결된 문장 형태의 데이터시퀀스(sequence) : 작은 단위(단어)의 데이터가 연결되고, 그 길이가 다양한 데이터의 형태 (e.g. 텍스트, 오디오, 시계열)시퀀스 데이터 처리✔️ 모델 아키텍쳐 : 딥러닝 모델이 갖는 구조RNN은 트랜스포머 개발되기 전에 주로 사용됨RNN 아키텍쳐입력하는 텍스트를 순차적으로 처리해 다음 단어 예측모델이 하나의 잠재 상태(hidden space)에 지금까지의 입력 텍스트의 맥락 압축📍장점여러 단어로 구성된 맥락을 하나의 잠재 상태로 압축하므로 메모리를 적게 사용다음 단어 예측 시 잠재 상태와 입력 단어만 있으면 되므로 다음 단어를 빠르게 생성..
[LLM의 기초 뼈대 세우기] 01 - LLM 지도 : 딥러닝과 언어 모델링
·
AI/LLM을 활용한 실전 AI 애플리케이션 개발
다음 단어 예측이 ChatGPT로 이어지기까지의 핵심 단계LLM의 기본이 되는 딥러닝과 언어 모델링 언어 모델이 chatGPT같은 대화 모델이 되기까지의 과정LLM 활용 기술 1.1 딥러닝과 언어 모델링 딥러닝인간의 두뇌에 영감 받아 만들어진 신경망으로서, 데이터 패턴을 학습하는 머신러닝의 한 분야정형 데이터 (표 형태) + 비정형 데이터 (텍스트, 이미지) 뛰어난 패턴 인식 성능LLMLLM은 딥러닝 기반의 언어 모델자연어 처리 분야 중 자연어 생성에 속함자연어 처리 : 사람의 언어를 컴퓨터가 이해하고 생성할 수 있도록 연구자연어 생성 : 사람과 비슷하게 텍스트를 생성하는 방법을 연구언어 모델 : 다음에 올 단어를 예측하며 문장 만들어 가는 방식으로 텍스트 생성딥러닝 기반의 언어 모델의 중요한 3가지 사..
[INTRO]
·
AI/LLM을 활용한 실전 AI 애플리케이션 개발
최근의 경향검색이 아니라 질문으로 초점이 옮겨지고 있다. 질문을 던진 다음 자신이 원하는 대답을 얻고 싶어한다. 멀티 모달까지 지원하므로 이미지와 텍스트를 조합해서 원하는 질문을 주고받을 수 있다. 머신러닝 딥러닝의 변화✔️ 생성형 AI와 초거대 언어 모델(LLM) 등장 이전: 도메인 전용 모델 - 도메인에 축적된 데이터 활용해 예측을 하고 통찰할 수 있게 협소한 범위의 문제 풀기 (e.g. 이미지 분류 국한)✔️ 생성형 AI와 LLM 등장 이후: 다양한 작업이 가능한 범용적인 모델 (e.g. 계산, 번역, 분류, 요약 등 다양한 기능) 개발 자체의 변화✔️ 초창기 프로그래밍 : 논리 중심✔️ 생성형 AI 등장 이후 : 프롬프트 엔지니어링 - 사람에 밀접한 언어로 비즈니스 로직 구사 가능➡️ 적확성 담보..