AI/tutorials
-
VectorDB에 저장된 레퍼런스 문서를 참고해서 답변을 해주는 chatbot 만들기 (simple ver.) import os from openai import OpenAI def pdf_chat(query: str) -> str: # 1. 사용자 쿼리 벡터화 query_vector = query_embed(query) # 2. Hybrid Search 통해 레퍼런스 문서 반환 query_response = index.query( namespace="test--pdf-chat", top_k=10, include_values=True, include_metadata=True, vector=query_vector, filter={ "file": {"$in": [FILE_NAME]}, }, ) referen..
LINER PDF Chat Tutorial (2)VectorDB에 저장된 레퍼런스 문서를 참고해서 답변을 해주는 chatbot 만들기 (simple ver.) import os from openai import OpenAI def pdf_chat(query: str) -> str: # 1. 사용자 쿼리 벡터화 query_vector = query_embed(query) # 2. Hybrid Search 통해 레퍼런스 문서 반환 query_response = index.query( namespace="test--pdf-chat", top_k=10, include_values=True, include_metadata=True, vector=query_vector, filter={ "file": {"$in": [FILE_NAME]}, }, ) referen..
2024.03.06 -
https://github.com/liner-engineering/liner-pdf-chat-tutorial/tree/main GitHub - liner-engineering/liner-pdf-chat-tutorial: LINER PDF Chat Tutorial with ChatGPT & Pinecone LINER PDF Chat Tutorial with ChatGPT & Pinecone. Contribute to liner-engineering/liner-pdf-chat-tutorial development by creating an account on GitHub. github.com ChatGPT를 활용해 PDF 파일에 기반해 답변할 수 있는 질의응답 챗봇 코드를 다루고 있는 튜토리얼이다. 튜토리얼..
LINER PDF Chat Tutorialhttps://github.com/liner-engineering/liner-pdf-chat-tutorial/tree/main GitHub - liner-engineering/liner-pdf-chat-tutorial: LINER PDF Chat Tutorial with ChatGPT & Pinecone LINER PDF Chat Tutorial with ChatGPT & Pinecone. Contribute to liner-engineering/liner-pdf-chat-tutorial development by creating an account on GitHub. github.com ChatGPT를 활용해 PDF 파일에 기반해 답변할 수 있는 질의응답 챗봇 코드를 다루고 있는 튜토리얼이다. 튜토리얼..
2024.03.06 -
1) 텍스트 클리닝 (html / url / 특수 문자 제거 등) 크롤링 데이터의 경우 html tag 제거 필요하지 않은 특수문자 매핑 또는 제거 ㄱ-ㅎ/ㅏ-ㅣ 등 자음과 모음으로만 이루어진 글자들 제거 @#$%^&*() 등 puctuation(문장부호) 제거 import re punct = "/-'?!.,#$%\'()*+-/:;@[\\]^_`{|}~" + '""“”’' + '∞θ÷α•à−β∅³π‘₹´°£€\×™√²—–&' punct_mapping = {"‘": "'", "₹": "e", "´": "'", "°": "", "€": "e", "™": "tm", "√": " sqrt ", "×": "x", "²": "2", "—": "-", "–": "-", "’": "'", "_": "-", "`": "..
한국어 텍스트 데이터 전처리1) 텍스트 클리닝 (html / url / 특수 문자 제거 등) 크롤링 데이터의 경우 html tag 제거 필요하지 않은 특수문자 매핑 또는 제거 ㄱ-ㅎ/ㅏ-ㅣ 등 자음과 모음으로만 이루어진 글자들 제거 @#$%^&*() 등 puctuation(문장부호) 제거 import re punct = "/-'?!.,#$%\'()*+-/:;@[\\]^_`{|}~" + '""“”’' + '∞θ÷α•à−β∅³π‘₹´°£€\×™√²—–&' punct_mapping = {"‘": "'", "₹": "e", "´": "'", "°": "", "€": "e", "™": "tm", "√": " sqrt ", "×": "x", "²": "2", "—": "-", "–": "-", "’": "'", "_": "-", "`": "..
2023.04.22 -
키워드 추출 (Keyword Extraction)이란? Keyword extraction is about automatically finding what’s relevant in a large set of data. 문서를 가장 잘 나타내는 N개의 키워드를 찾는 작업 1. Model 문서를 가장 잘 나타내는 키워드 또는 키구문을 찾아주는, 쉽게 사용 가능한 BERT-based 모델 KeyBERT KeyBERT 란? KeyBERT is a minimal and easy-to-use keyword extraction technique that leverages BERT embeddings to create keywords and keyphrases that are most similar..
키워드 추출하기 (1)키워드 추출 (Keyword Extraction)이란? Keyword extraction is about automatically finding what’s relevant in a large set of data. 문서를 가장 잘 나타내는 N개의 키워드를 찾는 작업 1. Model 문서를 가장 잘 나타내는 키워드 또는 키구문을 찾아주는, 쉽게 사용 가능한 BERT-based 모델 KeyBERT KeyBERT 란? KeyBERT is a minimal and easy-to-use keyword extraction technique that leverages BERT embeddings to create keywords and keyphrases that are most similar..
2023.04.22