728x90 분류 전체보기143 Langchain / Retriever 참고 : https://wikidocs.net/234016문맥 압축 검색기 ContextualCompressionRetriever검색 시스템에서 직면하는 어려움 중 하나는 데이터를 시스템에 수집할 때 어떤 특정 질의를 처리해야 할지 미리 알 수 없다는 점입니다.이는 질의와 가장 관련성이 높은 정보가 많은 양의 무관한 텍스트를 포함한 문서에 묻혀 있을 수 있음을 의미합니다.이러한 전체 문서를 애플리케이션에 전달하면 더 비용이 많이 드는 LLM 호출과 품질이 낮은 응답으로 이어질 수 있습니다.ContextualCompressionRetriever 은 이 문제를 해결하기 위해 고안되었습니다.아이디어는 간단합니다. 검색된 문서를 그대로 즉시 반환하는 대신, 주어진 질의의 맥락을 사용하여 문서를 압축함으로써 관련.. 2024. 5. 23. Langchain / Splitter 참고: https://velog.io/@dlsrks0631/LangChain-3.-RAGLangChain - Text SplittersText Splitter는 토큰 제한이 있는 LLM이 여러 문장을 참고해 답변할 수 있도록 문서를 분할하는 역할이다.여러개의 문서를 더 작은 단위로 나눈 chunking을 통해 chunk들이 만들어지고 임베딩 벡터로 변환되는 과정을 거치고 사용자 질문을 하나의 임베딩 벡터로 수치화하는 과정을 거친다. 그것과 가장 유사한 수치를 벡터 스토어에서 찾고 이 임베딩 벡터에 해당하는 chunk와 사용자의 질문이 합쳐져서 최종 prompt가 완성되고 이 prompt를 통해 LLM이 답변을 한다. 또한 chunk 하나당 하나의 vector가 매칭이 된다. vector store안에 있.. 2024. 5. 23. 'Gen AI Engineeer' 라는 단어를 보며. 파키스탄 동료들 중 몇몇이 슬랙에 자신들의 소개를 'Gen AI Engineer' 라고 써두었다.생성형 인공지능 개발자? 과연 지금 내가 만드는 모델이 생성형 모델일까? LLM이 나오고 나서, 더 정확히는 챗GPT가 나오고 나서부터 생성형 AI 에 대한 관심은 너무나도 뜨겁다.나도 그랬다. 나도 주식커뮤니티 앱에서 일할 때에는 신나게 챗GPT를 가지고 열심히 컨텐츠를 생산해냈다.면접에서 질문들이 그랬다. 주식쪽 도메인이니까 어떻지 않겠냐고.주식이니까 금융쪽 데이터를 만졌을 것이라는 흔한 착각이다.나는 주식 도메인에 있었지만 뉴스 기사로 컨텐츠를 만들었기 때문에 텍스트를 벡터화하는 워크플로우였고,다른분들은 가격과 같은 숫자의 데이터로 투자 기법이나 예측 했기 때문에 머신러닝이나 시계열 라이브러리를 사용하는.. 2024. 5. 23. Langchain / Document_loader # pdf or docx를 확장자 기준으로 나눠 한번에 로드하는 코드from langchain_community.document_loaders import Docx2txtLoader, PyPDFLoaderfrom langchain.document_loaders import DirectoryLoaderdef doc_loader(file_path): _, file_ext = os.path.splitext(file_path) if file_ext.lower() == 'docx': txt_loader = DirectoryLoader(os.path.dirname(file_path), glob=os.path.basename(file_path), loader_cls=Docx2txtLoader) docu.. 2024. 5. 23. 데이터를 많이 줄래, 에포크를 많이 줄래? many data vs. many epochs 학습이 잘되게 하는 법은 데이터를 늘이거나, 에포크를 늘이거나.즉 학습할 지식이 많거나, 반복학습으로 잘 익히거나.지식을 더 때려 넣을것이냐 vs 학습을 더 많이 시킬것이냐.정답은? 지식을 많이 주고, 에포크를 낮추는게 더 좋았다.(N = data 수, D = diversity. 10개로 1번 학습하면 d=1, 10번 학습하면 d=0.1) 그럼 데이터셋을 확장하려고 한다면, 어떻게 다양성을 증가시킬 수 있는가? 더 다양한 소스에서 데이터를 수집하거나, 다양한 언어로 수집하거나, 라벨링된 데이터를 추가로 수집하거나, 데이터셋 내의 불균형 문제를 해결해서 특정 클래스에 치우치는 것을 줄이거나, 혹은 생성모델이나 코드로 augmentation할 수 있다.하지만 우.. 2024. 5. 21. PDF file - RAG 0. 라이브러리 및 모듈 임포트!pip install docx==0.2.4!pip install langchain==0.1.16!pip install langchain_community==0.0.32!pip install langchain_core==0.1.42!pip install langchain_openai==0.1.3!pip install numpy==1.23.5!pip install pandas==2.2.2!pip install faiss-cpu doc2txt pypdf langchain_pineconefrom langchain_community.document_loaders import Docx2txtLoader, PyPDFLoaderfrom langchain.document_loaders i.. 2024. 5. 21. 새 장비 셋팅하기 (맥북) 내가 빨리 셋팅하려고 정리해놓음.. 0. 애플 아이디 만들기 1. 앱스토어에 애플 아이디로 앱 다운받기 (magnet, kakao, slack, chrome) 2. 기본 terminal로 homebrew 설치하기/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" 3. brew --version 후,zsh: no such file or directory: 라고 에러 뜨면 경로 추가해주기echo 'export PATH=/opt/homebrew/bin:$PATH' >> ~/.zshrcsource ~/.zshrcbrew --version 4. miniconda 설치, 경로추가 (windows.. 2024. 5. 14. 구글 서치 API Google Search API 구글 검색 API 발급받기 구글 검색결과 크롤링 액션을 사용하기 위한, 구글 검색 API 발급받는 방법을 알려드리겠습니다. 간단한 클릭만으로 발급이 가능하며 자세한 방법은 아래 순서를 참고해 주세요. 🔎Click! 이미지를 클릭하면 예시 화면을 크게 볼 수 있습니다. 구글 로그인 후 API 발급 페이지에 접속합니다. https://developers.google.com/custom-search/v1/overview?hl=ko 페이지 중단의 키 가져오기버튼을 클릭합니다. 검색 API 발급 팝업이 실행되면 이용약관에 동의 후 다음 단계로 이동하세요. API KEY 영역에 발급된 KEY 정보가 나타납니다. KEY 정보는 바티에 계정 연동 시 복사해서 붙여 넣어주세요. KEY 발급 후 관리자 페이지에 접속 후 .. 2024. 4. 14. VIX (미국증시 변동성 지수) 정의 Volatility Index Chicago Board of Options Exchange에서 제공하는 통계치 미래의 시장 변동성에 대한 예측치 DoD 계산방식 옵션의 매수/ 매도 중간점으로 계산됨 자세한 것은 파일로 다운로드함 중요도 ★★★★ 주가 변동성과 밀접한 연관을 가짐 해석방법 주가 하락 -> 지수 상승 주가 상승 -> 지수 하락 인사이트 주가와는 보통 역의 관계에 있음 지수가 상승할 것으로 예상된다면 -> 변동성이 높아질 것이다, 불안정해질 것이다 -> 주가가 떨어질 가능성이 높다는 신호로 투자를 보수적으로 할 수 있음. 지수가 하락할 것으로 예상된다면 -> 변동성이 낮아질 것이다. 안정될 것이다. -> 주가가 상승할 가능성이 높다는 신호로 투자를 공격적으로 할 수 있음. 2024. 1. 12. KR BSI (기업경기실사지수) 정의 Business Survey Index 한국은행에서 국내 전역의 기업가들을 대상으로 한 설문조사를 통해 발표됨 MoM 계산방식 제조업 BSI 비제조업 BSI OECD 기업경기조사 통일기준에 의거, 긍정/보통/부정의 3점 척도를 사용하여 (긍정응답업체수 - 부정응답업체수)/전체응답업체수 * 100 + 100 중요도 ★★★★★ 실물지표와 높은 상관관계를 보임 제조업 BSI 가 더 중요 해석방법 min 0 - max 200 100 이상 : 긍정적으로 응답한 업체수 > 부정적으로 응답한 업체수 100 이하 : 긍정적으로 응답한 업체수 < 부정적으로 응답한 업체수 인사이트 GDP보다 선행 원본 지수자료 : https://www.bok.or.kr/ebook/ecatalog5.jsp?Dir=11 Electro.. 2024. 1. 12. 이전 1 2 3 4 ··· 15 다음 728x90