전체 글 161

스파르타 AI-8기 TIL(11/7) - 파인튜닝 하는법

사전 학습사전 학습(Pre-training)은 기계 학습, 특히 자연어 처리(NLP)와 같은 분야에서 사용되는 개념으로, 모델이 특정 작업을 수행하기 전에 대량의 데이터에서 일반적인 패턴과 지식을 학습하는 과정을 의미합니다.데이터 수집: 모델이 사전 학습을 위해 사용할 대량의 데이터 세트를 수집합니다. 이 데이터는 텍스트, 이미지, 오디오 등 다양한 형식일 수 있습니다.일반적인 패턴 학습: 모델은 수집한 데이터를 기반으로 일반적인 패턴, 구조, 언어 규칙 등을 학습합니다. 이 단계에서는 특정 작업에 대한 정보가 포함되어 있지 않지만, 모델은 언어의 일반적인 구조와 의미를 이해하게 됩니다.미세 조정(Fine-tuning): 사전 학습이 완료된 후, 모델은 특정 작업(예: 감정 분석, 질문 답변 등)에 대해..

카테고리 없음 2024.11.08

스파르타 AI-8기 TIL(11/6) -> 임베딩, Word2Vec

임베딩 임베딩(Embedding)은 고차원 데이터를 컴퓨터가 이해할 수 있도록 저차원 벡터로 변환하는 기술입니다. 예를 들어, 텍스트나 이미지 같은 고차원 데이터를 숫자 벡터로 표현해 다양한 인공지능 모델이 처리할 수 있게 합니다. 임베딩은 주로 자연어 처리(NLP), 이미지 인식, 추천 시스템 등에서 사용되며, 각 데이터 간의 유사성이나 관계를 벡터 공간에서 나타낼 수 있게 합니다. 1. 단어 임베딩 (Word Embedding)단어 임베딩은 단어를 벡터로 표현하는 방식입니다. 이를 통해 단어 간의 유사성을 벡터 공간에서 파악할 수 있으며, 대표적으로 Word2Vec과 GloVe가 있습니다. 이 임베딩을 통해 단어 사이의 의미적 유사성을 계산할 수 있습니다.gensim 라이브러리를 사용하여 Word2V..

카테고리 없음 2024.11.06

스파르타 AI-8기 TIL(11/5) -> hugging face와 transformer로 다양한 NLP 모델 찾아보기

Transformers 라이브러리란?transformers 라이브러리는 Hugging Face에서 개발한 자연어 처리(NLP)용 파이썬 라이브러리로, Transformer 기반의 다양한 사전 훈련 모델을 제공하고 쉽게 사용할 수 있도록 도와줍니다. 이 라이브러리는 GPT, BERT, T5, RoBERTa 등과 같은 대표적인 Transformer 모델들을 포함하여 텍스트 생성, 번역, 감정 분석 등 여러 NLP 작업에 활용할 수 있습니다. 주요 특징과 기능 사전 훈련 모델 제공 transformers 라이브러리에는 수많은 사전 훈련된 NLP 모델이 포함되어 있어, 특정 작업을 위해 처음부터 모델을 학습시키지 않고도 바로 사용할 수 있습니다. 모델은 여러 언어와 데이터셋에서 학습되었으며, 높은 성능을 보이는..

카테고리 없음 2024.11.05

스파르타 AI-8기 TIL(11/4) -> 허깅 페이스

주로 자연어 처리(NLP)와 머신러닝(ML)에서 사용되는 오픈 소스 플랫폼으로, 다양한 언어 모델과 데이터셋을 제공하며 특히 Transformer 기반 모델의 개발 및 배포에 특화되어 있습니다.  주요 특징Transformers 라이브러리: Hugging Face의 대표 라이브러리로, BERT, GPT, RoBERTa, T5와 같은 다양한 사전 학습된 모델을 쉽게 불러와 사용할 수 있습니다. 이 라이브러리는 대규모 사전 학습 모델을 통해 NLP 과제를 해결할 수 있도록 도와주며, 많은 NLP 작업을 위한 고도로 최적화된 코드를 제공합니다. 데이터셋(Datasets) 라이브러리: 수천 개의 공개 데이터셋을 포함하고 있어 NLP 연구와 모델 학습에 필수적인 데이터를 쉽게 탐색하고 로드할 수 있습니다. 이 라..

카테고리 없음 2024.11.04

스파르타 AI-8기 TIL(11/3) -> AI활용에 대한 이해 = API

AI활용은 연구와 다르다!AI 활용 -> 이미 만들어진 AI를 이용해 문제를 해결연구 -> AI활용을 위한 AI를 직접 개발, 혹은 성능을 개선을 위한 활동입니다.API API(Application Programming Interface)는 소프트웨어 애플리케이션들이 서로 상호작용할 수 있도록 해주는 인터페이스를 의미합니다. API는 다양한 소프트웨어나 서비스들이 내부 로직을 공개하지 않고도 데이터를 교환하거나 특정 기능을 사용할 수 있도록 하는 표준화된 방법을 제공해줍니다. 쉽게 말해 두 체재가 서로의 로직을 숨김과 동시에 데이터를 사로 사용할 수 있게 해주는 방식이라고 생각하시면 좋습니다.좀 더 구체적으로, API는 특정 작업을 수행하기 위한 일련의 규칙, 프로토콜, 도구들을 정의합니다. 이 규칙을 ..

카테고리 없음 2024.11.03

스파르타 AI-8기 TIL(11/2) -> NLP의 예시 코드

GPT를 이용해 NLP의 예시코드를 받아왔습니다.import refrom collections import Counterimport torchimport torch.nn as nnfrom torch.utils.data import DataLoader, Dataset# 예제 텍스트 데이터train_data = [ ("I loved this movie", 1), ("This film was terrible", 0), ("Amazing story and great acting", 1), ("Worst movie ever", 0)]def build_vocab(data): words = [] for sentence, _ in data: words.extend(re.fi..

카테고리 없음 2024.11.02

스파르타 AI-8기 TIL(11/1) -> CNN 예제 코드 복습

예제 코드에서 다룰 개념데이터셋 전처리: 이미지 데이터의 로드, 정규화 등.CNN 모델 구성: CNN 구조와 각 계층의 역할.손실 함수와 옵티마이저: 분류 모델에 필요한 손실 함수와 최적화 기법.모델 학습과 평가: 배치 학습, 모델 성능 평가.추론(예측): 학습된 모델로 새로운 이미지 분류.import torchimport torch.nn as nnimport torch.optim as optimfrom torch.utils.data import DataLoader, random_splitfrom torchvision import datasets, transformsimport matplotlib.pyplot as plt# 1. 데이터 전처리 및 로드transform = transforms.Compose..

카테고리 없음 2024.11.01

스파르타 AI-8기 TIL(10/31) -> 도전 과제 전체 코드 학습

먼저 맨 위에 코드를 보겠습니다.import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltimport reimport torchimport torch.nn as nnimport torch.optim as optimfrom torch.utils.data import DataLoader, Datasetfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import LabelEncoderfrom torchtext.data.utils import get_tokenizerfrom torchtext.vocab import bu..

카테고리 없음 2024.10.31

스파르타 AI-8기 TIL(10/30) -> 도전 과제 전체 코드 학습

tokens = []for token in doc: tokens.append(token.text)​import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltimport reimport torchimport torch.nn as nnimport torch.optim as optimfrom torch.utils.data import DataLoader, Datasetfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import LabelEncoderfrom torchtext.data.utils import get..

카테고리 없음 2024.10.30