2024/11 26

스파르타 AI-8기 TIL(11/16) -> 처음부터 다시

hello = 'hillo'hello[1] = 'e'print(hello)진짜 자신의 부족함을 너무나 절신히 느낀 나머지 전부 복습정수형말 그대로 정수를 뜻하는 자료형 양의, 음의 숫자 0을 적을 수 있다.a = 10a = -10a = 0 실수형실수형(floating-point), 즉 소수점이 포함된 자료형a = 1.5a = 10.9655여기서 컴퓨터식 지수 표현 방식 -> 예시: e5 or e-5print(4.24e10)print(4.42e-4)출력:42400000000.00.000442말 그대로e10 -> 10^10e-4 -> 10^-4사칙 연산사칙 연산을 하는 연산자들a = 5b = 2print(a + b) # 더하기print(a - b) # 빼기print(a * b) # 곱하기print(a / b..

카테고리 없음 2024.11.16

스파르타 AI-8기 TIL(11/15) -> 개인과제 공부: 계속

그전에 LLM과 벡터 검색의 서로 다른 역할과 흐름 차이를 먼저 보겠습니다. 대규모 언어 모델(LLM)을 구축하는 과정과 각 단계에 대해 좀 더 깊이 알아보겠습니다.LLM1. 데이터 수집 및 전처리 (Data Collection and Preprocessing) 작동 방식: LLM을 훈련시키기 위해 가장 중요한 첫 단계는 다양한 소스에서 데이터를 수집하는 것입니다. 예를 들어, 뉴스 기사, 책, 논문, 웹페이지 등에서 텍스트 데이터를 수집할 수 있습니다. 데이터는 반드시 전처리 과정을 거쳐야 합니다. 데이터 전처리 단계에서는 불필요한 문자를 제거하거나, 텍스트를 표준화하여 모델이 학습하기 쉬운 형태로 변환합니다. 예를 들어, 특수문자 제거, 소문자화, 불용어(stop words) 제거 등의 작업을 할 수..

카테고리 없음 2024.11.15

스파르타 AI-8기 TIL(11/14) -> 개인과제 공부

개인과제 하면서 배운것들참고로 일단 만들어 본 코드import osimport openaiopenai.api_key = os.getenv("OPENAI_API_KEY")from langchain_openai import ChatOpenAIfrom langchain.document_loaders import PyPDFLoaderclient = ChatOpenAI(model = 'gpt-4o')loader = PyPDFLoader('C:\Users\kevinkim\OneDrive\바탕 화면\Sparta_Work\초거대 언어모델 연구 동향.pdf')docs = loader.load()from langchain.text_splitter import RecursiveCharacterTextSplitterrecur..

카테고리 없음 2024.11.14

스파르타 AI-8기 TIL(11/13) -> RAG 체인에 FAISS 통합

실습 코드를 먼저 보겠습니다.(진짜 어려워서 하나하나 알아갈예정)1. 임베딩 모델 설정: 텍스트를 벡터로 변환 from langchain_openai import OpenAIEmbeddingsembeddings = OpenAIEmbeddings(model="text-embedding-ada-002")텍스트를 임베딩(벡터)로 변환하여 숫자 형식으로 표현합니다. OpenAIEmbeddings는 OpenAI의 text-embedding-ada-002 모델을 사용하여 텍스트 데이터를 고차원 벡터로 변환합니다. 벡터화된 텍스트는 후속 단계에서 벡터 간의 유사도 계산에 사용됩니다. 즉, 원본 텍스트를 수학적 표현으로 바꿔 유사도를 계산할 수 있도록 준비하는 과정입니다.2. 벡터 인덱스 생성: 유사도 기반 검색 준비..

카테고리 없음 2024.11.13

스파르타 AI-8기 TIL(11/12) -> LLM 제작 및 사용

주의 사항ChatGPTLLM(대규모 언어 모델)을 사용하기 전에 고려해야 할 중요한 사항들은 모델의 정확성과 안전성, 데이터 보호, 목적에 따른 최적화 등 여러 요소에 관한 것입니다. LLM은 강력한 도구이지만, 올바르게 사용하지 않으면 예기치 않은 문제나 비효율이 발생할 수 있으므로 주의가 필요합니다.1. 출력 내용의 정확성과 신뢰성 한계 인식: LLM은 학습된 데이터에 기반해 예측을 수행하지만, 항상 정확한 정보를 제공하지는 않습니다. 가짜 정보나 신뢰성이 낮은 답변이 생성될 가능성이 있습니다. 검증 필요: 모델의 응답이 중요한 의사결정이나 민감한 주제에 활용된다면 반드시 검증 절차를 거쳐야 합니다. AI가 제공하는 정보는 참고용으로 사용하고, 필요한 경우 전문가의 검토를 받는 것이 좋습니다. 2. ..

카테고리 없음 2024.11.12

스파르타 AI-8기 TIL(11/11) -> 논리적인 추론 강화

논리적인 추론의 문제LLM이 논리적 추론 문제를 잘 해결하지 못하는 이유는 언어 모델의 학습 방식과 논리적 사고 능력의 한계에서 비롯됩니다. 현재의 LLM은 방대한 양의 텍스트 데이터를 바탕으로 통계적으로 학습하는 구조인데, 이러한 학습 방식은 주로 패턴 인식에 기반하여 추론을 수행합니다. 하지만 이 방식은 논리적 사고와 체계적 추론을 수행하는 데 한계가 있습니다.왜 논리적 추론에 어려움을 겪는가?패턴 학습 기반: LLM은 방대한 텍스트 데이터에서 단어와 문장 간의 패턴을 학습합니다. 그러나 이는 사전 정의된 규칙이나 논리적 구조를 이해하는 것이 아니라, 단어와 문장 간의 빈도와 상관성을 바탕으로 다음 단어를 예측하는 데 기반합니다. 즉, 논리적인 상황에서의 추론보다는 기존의 유사한 예제에 의존해 답변을..

카테고리 없음 2024.11.11

스파르타 AI-8기 TIL(11/10) -> LLM

LLMLLM(Large Language Model)은 방대한 양의 텍스트 데이터를 학습해 언어의 패턴과 구조를 이해하고 텍스트 생성, 질의응답, 번역, 요약 등의 작업을 수행할 수 있는 인공지능 모델을 말합니다. 대표적인 LLM으로는 OpenAI의 GPT 시리즈, Google's BERT, T5, 그리고 Meta의 LLaMA 등이 있습니다.주요 특징 대규모 데이터 학습: 수백억에서 수조 개의 파라미터와 수많은 텍스트 데이터를 사용하여 다양한 주제와 표현을 학습합니다. Transformer 아키텍처: 대부분의 LLM은 Transformer라는 모델 아키텍처를 기반으로 하며, 이는 효율적이고 병렬화가 용이해 대규모 모델 훈련에 적합합니다. 다양한 활용 가능성: LLM은 텍스트 생성, 코드 작성, 감정 분석,..

카테고리 없음 2024.11.10

스파르타 AI-8기 TIL(11/9) -> 모델 서빙-ChatGPT와 Elevenlabs

모델 서빙모델 서빙(Model Serving)은 머신러닝 또는 AI 모델을 학습 후, 실제 애플리케이션 환경에서 실시간으로 사용할 수 있도록 배포하고 제공하는 과정을 말합니다. 이를 통해 모델은 사용자나 시스템의 요청을 실시간으로 받아들이고, 이에 대해 예측이나 생성 결과를 반환하게 됩니다.주요 개념들RESTful API RESTful API처럼 모델에 접근하는 기본적인 인터페이스로, 모델 서빙의 입출력 통로입니다. 클라이언트가 모델에게 데이터를 보내고 결과를 받을 때 사용됩니다. HTTP를 통해 특정 엔드포인트로 요청을 보내면, 모델이 그 요청을 처리하고 결과를 돌려주는 방식이죠. RPC (Remote Procedure Call) RESTful API와 달리 함수를 원격에서 호출하듯이 모델을 호출하는 ..

카테고리 없음 2024.11.09

스파르타 AI-8기 TIL(11/8) -> hugging face와 stable diffusion

실습으로 알아보는 생성형 AIfrom openai import OpenAIclient = OpenAI()completion = client.chat.completions.create( model="gpt-4o", messages=[ {"role": "system", "content": "너는 환영 인사를 하는 인공지능이야, 농담을 넣어 재미있게해줘"}, {"role": "user", "content": "안녕?"} ])print("Assistant: " + completion.choices[0].message.content)# 안녕하세요! 만나서 반가워요. 저랑 얘기하다가 재미 없으면 이렇게 생각해보세요: 적어도 엉덩이에 꼬리 달린 원숭이와는 다르게, 저는 평범하게 무리하지 않거든요!..

카테고리 없음 2024.11.08

스파르타 AI-8기 TIL(11/7) - 파인튜닝 하는법

사전 학습사전 학습(Pre-training)은 기계 학습, 특히 자연어 처리(NLP)와 같은 분야에서 사용되는 개념으로, 모델이 특정 작업을 수행하기 전에 대량의 데이터에서 일반적인 패턴과 지식을 학습하는 과정을 의미합니다.데이터 수집: 모델이 사전 학습을 위해 사용할 대량의 데이터 세트를 수집합니다. 이 데이터는 텍스트, 이미지, 오디오 등 다양한 형식일 수 있습니다.일반적인 패턴 학습: 모델은 수집한 데이터를 기반으로 일반적인 패턴, 구조, 언어 규칙 등을 학습합니다. 이 단계에서는 특정 작업에 대한 정보가 포함되어 있지 않지만, 모델은 언어의 일반적인 구조와 의미를 이해하게 됩니다.미세 조정(Fine-tuning): 사전 학습이 완료된 후, 모델은 특정 작업(예: 감정 분석, 질문 답변 등)에 대해..

카테고리 없음 2024.11.08