728x90
반응형

Bert 7

Downstream in LLM

안녕하세요, MoonLight입니다.​LLM 분야에서 다운스트림(Downstream)은 사전 훈련된(pre-trained) LLM을 특정 목적이나 작업에 맞게 활용하거나 적용하는 모든 후속 단계를 의미합니다.​ 1. LLM의 개발 과정 LLM의 개발 과정을 크게 두 단계로 나누면 업스트림 (Upstream)과정과 다운스트림(Downstream) 과정으로 나눌 수 있습니다. 1.1. 업스트림 (Upstream)사전 훈련 (Pre-training)단계라고 말할 수 있으며, 이 단계에서는 인터넷과 같은 방대한 텍스트 데이터를 사용하여 LLM을 처음부터 학습시키는 단계입니다.​이 단계에서는 모델이 언어 자체의 패턴, 문법, 의미, 상식 등 광범위한 지식을 학습하게 되며, 당연하게도 매우 많은 계산 자원과 ..

Deep_Learning 2025.04.19

1x1 Convolution

안녕하세요, MoonLight입니다.​이번 Post에서는 1x1 Convolution 연산에 대해서 알아보도록 하겠습니다.​우선 일반적인 Convolution 연산에 대해서 알아본 후 이 글을 읽어주셨으면 좋겠습니다.​Convolution에 대한 글은 아래 Link를 참고해 주시기 바랍니다. https://moonlight314.tistory.com/entry/CNN-Convolutional-Neural-Network CNN ( Convolutional Neural Network )CNN(Convolutional Neural Network)은 주로 Image에 사용되는 Deep Learning Architecture입니다. Image Classification, Object Detection / Segm..

Deep_Learning 2024.06.13

Transformer #1 - Attention Mechanism

0. Background ​ Attention Mechanism이 나오기 전에는 Seq2Seq Model이 주로 사용되었습니다. ​ Seq2Seq Model은 당시에는 훌륭한 Idea였지만, 치명적인 문제점을 가지고 있었습니다. ​ 그 어떤 입력값이 들어오더라도 최종적으로 출력은 고정된 길이의 Vector(Hidden State)가 나온다는 것입니다. ​ 입력 문장이 짧으면 별문제가 안되겠지만, 입력 문장이 길어질수록 그 안에 담긴 내용들, 특히 앞쪽의 단어들은 거의 제대로 표현할 수 없다는 문제가 있었습니다. ​ Attention Mechanism은 이 문제를 개선하기 위해서, Seq2Seq 구조의 각 RNN Cell들의 출력(Hidden State)도 Decoder의 입력으로 사용하자는 Idea에서 ..

Deep_Learning 2024.04.17

쉽고 빠르게 익히는 실전 LLM

한빛미디어 '나는 리뷰어다' 활동을 위해서 책을 제공받아 작성된 서평입니다. ​ ​ ​ ​ ChatGPT가 세상에 나오고 LLM의 힘을 보여주면서 사람들은 NLP가 모든 것을 해결해 줄 수 있는 만능의 도구처럼 생각했습니다. ​ 하지만, 실제로 LLM을 이용한 제품이나 서비스를 구현하려고 하면 어디서부터 어떻게 시작해야 할 지 막막할 따름입니다. ​ '쉽고 빠르게 익히는 실전 LLM'은 개발자나 개발자가 아닌 모두에게 LLM의 개념뿐만 아니라, 이를 이용하여 실제로 제품화를 할 수 있도록 안내해주는 훌륭한 가이드입니다. ​ 저자의 이 분야에 대한 오랜 경험을 바탕으로 LLM의 개념에서부터 LLM을 효과적으로 사용하는 데 필요한 모든 정보를 제공합니다. ​ Transformer와 Encoder / Deco..

Book Review 2024.02.17

구글 BERT의 정석 ( Getting Started With Google BERT )

한빛미디어 '나는 리뷰어다' 활동을 위해서 책을 제공받아 작성된 서평입니다. 0. 소개 2012년에 CNN 구조를 사용한 AlexNet이 ImageNet에서 지난 대회 우승 Model보다 압도적인 성능으로 우승을 차지하면서 Deep Learning에 대한 관심은 비약적으로 높아졌습니다. 그 이후로 Image 분야에 Deep Learning을 응용하는 분야는 비교적(?) 접근이 쉽고 이해하기 쉬운 CNN구조를 바탕으로 널리 보급되고 누구나 쉽게 사용할 수 있었습니다. 하지만, NLP(Natural Language Processing)분야는 상대적으로 접근이 어려웠고 실제 업무 / 제품에 응요하기가 용이하지 않다는 분위기가 팽배했습니다. NLP 초창기에는 다양한 기법(말뭉치 , Wordvec, Word Em..

Book Review 2023.09.06

BERT Text Classification

이번 Post에서는 BERT Model을 이용하여, Text 분류 작업을 해보도록 하겠습니다. 영화 감상평이 긍정적인지 부정적인지 분류해 놓은 Data Set을 이용할 예정입니다. 실제로 사용할 Data Set은 Large Movie Review Dataset 입니다. 0. About BERT BERT 및 기타 Transformer Encoder Architecture는 Natural Language Process의 다양한 분야에서 좋은 성능을 보여주고 있습니다. BERT or Transformer Encoder는 Natural Language Process의 다양한 분야에 사용할 수 있는 Vector Space를 계산해 줍니다. BERT(Bidirectional Encoder Representation..

Deep_Learning 2023.08.29

Attention Mechanism

Attention Mechanism은 2015년 Neural machine translation by jointly learning to align and translate 이라는 논문에서 최초로 소개되었습니다. Attention이라는 단어는 직접적으로 등장하지는 않았지만, ‘Align’이라는 단어가 사용되었습니다. Machine Translation에서 큰 위력을 발휘하고 있는 Self-Attention, Transformer, BERT가 모두 Attention을 Base로 만들어진 개념들입니다. 이번에는 Attention Mechanism에 대해서 알아보도록 하겠습니다. 0. Seq2Seq Model vs Attention Mechanism 우선, 기존의 Seq2Seq Model과의 비교를 위해 간단..

Deep_Learning 2023.08.20
728x90
반응형