![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/b1CAUx/btra9Xfw1nw/CvNg4brPv47p0q9Os8ccnk/img.png)
엑셀 작업을 하다가 중복단어가 있는 경우 삭제하기 내용을 적용하여. "중복단어 삭제"를 정리해 보았습니다. 🌌 다룰 내용 리스트 형식의 전체 단어 중 2개 이상인 단어의 경우 삭제하고 1개만 추출하기. 전체 단어 중 단어가 2개 이상인 경우 삭제하고 1개만 추출하기. join과 OrderedDict.fromkeys를 사용한 방법 *import 설정 및 기본 내용은 생략했습니다. 1. list에 담긴 값 list = ['안녕','안녕','하이','안녕','방가'] 2. 최상단에 collections 모듈의 OrderedDict클래스를 선언 from collections import OrderedDict 파이썬 3.6 이전에는 사전에 얻은 데이터를 순서대로 얻을 수 없었습니다. 즉 무작위 순서로 데이터를 얻..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/duiYQT/btq9TFlB545/nnA2bMvGpejhHpHzuklsiK/img.png)
pdftotext나 docx를 사용하여 문서를 파싱 한 후 필요 없는 헤더와 푸터를 자를 필요가 있습니다. 예시로 이미지와 같은 부분만 남기고 서론과 결론은 자를 경우에 대한 함수를 짜 보겠습니다. 가정: 라이브러리를 통해 파일을 불러온 상태입니다. 본론만 가져오기 목표 1. 전체 글에서 특정 단어가 나올 경우 서론을 날린다. 2. 전체 글에서 특정 단어가 나올 경우 결론을 날린다. 3. 날린 부분에 대한 빈 문자열 처리를 해서 전체 길이를 같게 유지한다. 목표의 세부 가정 1. 전체 글에서 특정 단어를 찾는다. 2. 전체 글에 대한 각각의 string index 번호를 알아낸다. 3. 전체 string에서 특정 단어가 나올 경우 해당 index를 last_index로 담는다. 4. last_index ..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bghAhh/btq8rc1aBaV/z2Z0QrBb1IJ5jKfhQBs4A1/img.png)
파이썬으로 어절수 조건에 맞는 경우만 출력하는 경우를 포스팅하려합니다. 제가 풀다가 이것도 도저히 못 풀겠어서 헤맸네요... 알고리즘 열심히 풀어야겠습니다... 매번 뭘 써야겠다는 아는데 퍼즐이 맞춰지지 않는 느낌... 정말 화나네요 ^^;; 조건: 30어절 이하 10어절 이상일 경우만 출력하기 ' - 출력하고자 하는 리스트 sent_tokens = ['이처럼 대외적 위기에',' 따라 군무는 격상되었고', '정부는 군사우위정책을 본격적으로 시행하였다.1900년 6월 의화단진압 전쟁이 시작되었고', '인접국의 전쟁 상황은 국경에서의 문제를 수반하였다.', '대한제국은 난민문제 및 청비의 침략 등을 막기 위해 평안・함경도에 진위대를 증설했고타 지역으로부터 지원 병력을 차출하여 배치하기도 하였다.', '이로써..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bk9Bdk/btq8piE8foy/NPZnnKAXMs5TdPclFSn4LK/img.png)
여러가지 함수의 input, output알아보기 - split() - join() - append - extend - a ='', a+=b split() - 기준점: ()안 내용, 빈공간 시 공백기준으로 나눔 input: string output: list "".join() - 기준 ""로 리스트의 문자열들을 붙여준다. input: list output: string append - 빈 배열에 stirng 값을 더해준다. input: string output: list extend input: string output: list 토큰화 a =' ' , a += b. 한페이지에 string이 " " 기준으로 여러개 있을 시 사용하여 붙일 수 있다. "".join()이 먹히지 않아서 사용했는데. 둘의 차이점..
1. kss 모듈을 먼저쓸까? 정제와 토큰화 후 kss를 쓸까? -> 모듈을 사용하여 불러온 pdf를 split('\n')해주고, 함수를 사용하여 정제 후 깨끗한 한글문장에서 kss를 사용. 2. kss 사용을 위한 문자열 변환 시키기 -> 임의의 ex_sentence = '' 를 생성 후 한글을 출력해 string sentence를 ex_sentence =+ sentence 이용하여 만듬 2. 파이참에서 출력 시 부분적으로 짤리는 오류가 있었고, 터미널에선 없었는데 왜 그럴까? -> 추후 추가 3. footer의 규칙없는 더러운 내용 지우는 방법? -> 정규식을 써야할 지, 다른 방법이 있나 고민 중... 4. all_text = '' / all_text += sentence 의 사용으로 ''를 붙이자..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/ziERm/btq7VyI5H8X/UGkYYNV02WoNYKzaaaEnk0/img.png)
파이썬으로 pdf -> text 추출을 하기 위해 공부한 내용을 정리한다. 처음부터 정리했기 때문에 데이터 정제를 하는 사람이라면 꼭 참고하여 도움이 되길... 처음 인지해야 할 것! ☆ 처음 들어온 값이 리스트인지 스트링 타입인지 알 것 - 이걸 알고 있는 상태로 전체 로직을 구성해야한다. ☆ 들어오는 인풋 값과 나가는 아웃풋이 무엇으로 나가는지 생각해야 한다.(위와 같은 내용) - 아무것도 모를 때 신경을 쓰지 않았는데 그러다 보니 타입 오류 & 정규식이 먹지 않는 현상이 발생한다. ☆ 네이밍 신경 쓰기 - answer, result, sentence 이런 것만 돌리지 말고 한눈에 이해할 수 있는 변수명 사용하기 ☆ 작동이 되지 않는다면 print() 함수를 이용하여 하나하나 어떤 값이 들어오는지 찍..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/MjFzK/btq3GDVXVnG/1xdjS5B7aLY2B0ZsywS4u0/img.png)
오류! Error: EPERM: operation not permitted, unlink (파일 이름 경로) 나의 프로젝트와 파이어베이스를 연동하기 위해 npm install --save firebase 명령어를 이용하여 설치를 하니 생긴 내가 마주한 오류다. 해결방법 스택오버플로우 열심히 검색 ㄱㄱ했다. 다양한 형님들이 댓글을 달아주셨는데 그중 내가 해보고 된 방법을 소개하겠다. 1. :C -> Users -> (내 컴퓨터 이름) -> AppData -> Roming -> npm, npm-cache삭제 -> Roming파일까지 와서 npm과 npm-cache파일을 삭제해 준다. 2. node.js 재 설치 3. npm install --save firebase 실행 여기서 안되면 4. npm cache..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/589Nm/btq3nIpP9xa/Vfe0FUNa98XlpC6IjUBz5K/img.png)
2021.04.23 - [BackEnd/Firebase] - [Firebase 공식문서 참고] Firebase 시작하기, firebase init 분석 웹 제작을 하며 서버 연결, 회원가입, 인증 보안 등의 문제로 겉핥기식으로 하던 Firebase를 상세하게 파헤쳐 보려 한다. 나와 같이 프로젝트 형식으로 Firebase를 이용하는 사람이나, Firebase를 깊은 곳까지 궁금해하는 사람들에게 도움이 되었으면 좋겠다. Visual Studio Code, React, Node.js, window os를 기본으로 작성되었습니다. 리액트 패키지를 설치하고 난 후 정리 글입니다. 2021.04.23 - [BackEnd/Firebase] - [Firebase 공식문서 참고] Firebase 시작하기, fireba..
- Total
- Today
- Yesterday