본문 바로가기
  • Hello_
728x90
반응형

전체 글98

[MySQL] MySQL에서 엑셀 파일 가져오기 본 포스팅에서는 MySQL을 활용하여 로컬에 있는 csv 파일을 가져오는 방법에 대해 포스팅하겠다. csv 파일 위 제목에서는 엑셀 파일 가져오기라고 명했지만 명확히 얘기하면 csv 파일을 가져오는 방법에 대해 얘기하고자 한다. 필자는 excel 파일과 csv 파일을 혼용해서 사용했었지만, MS excel을 활용하여 데이터를 가져올 때 큰 차이점이 있다는 것을 알았고 이를 명확히 구분 지어서 얘기를 해야 한다는 것을 알았다. 아래 링크를 통해 excel 파일(.xlsx)과 csv 파일(.csv)의 차이점을 간단히 구분 짓고 특징을 정리해 보았다. [Python] pandas로 xlsx 파일과 csv 파일 읽기 본 포스팅에서는 excel 파일의 확장자인 xlsx와 csv를 비교해 보고 padas로 각각 읽.. 2023. 2. 3.
[Python_Error] TypeError: first argument must be an iterable of pandas objects, you passed an object of type "DataFrame" 본 포스팅은 업무 중 발생했던 오류들을 어떻게 해결했는지 작성했다. TypeError: first argument must be an iterable of pandas objects, you passed an object of type "DataFrame" 위 에러는 pandas에서 제공하는 concat 함수를 사용할 때 발생한 오류이다. concat에 입력이 리스트 혹은 튜플이 아닌 형태로 들어갈 때 위와 같은 에러 메시지가 떴다. 에러가 발생한 코드는 다음과 같다. xray_excel_path = './new_annotation.xlsx' for i in range(10): ct_dict = {} ct_dict['name'] = ['ct_{}'.format(i+1)] ct_dict['dcm_paths.. 2023. 2. 3.
[Pytorch] torchvision을 활용하여 dataset 다운로드하기 본 포스팅에서는 pytorch의 torchvision을 활용하여 범용적으로 사용하는 데이터셋을 다운로드하고 이를 시각화 및 분석해 보겠다. torchvision torchvision은 컴퓨터 비전에서 많이 사용되는 데이터셋, 모델 아키텍처, 이미지 변환 등의 함수들을 제공하는 pytorch 라이브러리이다. torchvision의 세 가지 중점적인 기능 중 오늘은 데이터셋에 대해 말해보겠다. torchvision.datasets를 활용하여 오픈 데이터셋을 다운로드할 수 있으며, 컴퓨터 비전에서 많이 사용되는 오픈 데이터셋으로는 MNIST, CIFAR10, CIFAR100, STL10, SVHN 등이 있다. 위 데이터셋들 중 MNIST, CIFAR10, STL10, SVHN을 직접 다운로드해 보고 시각화 및.. 2023. 2. 2.
[Python] pandas로 xlsx 파일과 csv 파일 읽기 본 포스팅에서는 excel 파일의 확장자인 xlsx와 csv를 비교해 보고 padas로 각각 읽는 법에 대해 얘기하겠다. 'xlsx' vs 'csv' xlsx 파일은 이진파일로 구성이 되어 있으며 편집을 하는데 제한이 있다. 또한 메모리 사용량이 많지만 대용량 파일을 조작하는데 쉽다. 개발자가 프로그래밍으로 조작하기에는 상대적으로 어렵다. 반대로 csv 파일은 단순 텍스트 파일이다. 이러한 특징으로 인해 여러 텍스트 편집기에서 열 수 있고 메모리 사용량이 적다. 물론 텍스트 파일이기에 프로그래밍으로 조작하기에 용이하다. 다만 대용량 파일을 조작하는 데는 제한이 많다. 형식 편집기 메모리 사용량 대용량 파일 조작 프로그래밍 조작 유연성 EXCEL (.xlsx) 이진 형식 제한적 많음 쉬움 어려움 CSV (.. 2023. 2. 2.
[Python] np.nan으로 nan 생성하기 본 포스팅에서는 nan 값의 정의와 np.nan에 활용법에 대해 살펴보겠다. nan의 정의 nan 값은 "not a number"의 줄임말로 컴퓨터로는 표현할 수 없는 숫자를 나타낼 때 사용된다. 뿐만 아니라 누락되거나 정의되지 않은 데이터를 나타내는 데 사용되는 특수 부동 소수점 값 (floating-point value)이다. 따라서 nan 값은 어떠한 연산을 하던 nan과 관련된 연산은 nan을 반환한다. 이를 통해 수치 계산에서 누락된 데이터를 쉽게 처리할 수 있다. np.nan np.nan은 nan 값을 생성하는 함수로써 float('nan')과 동일한 역할을 한다. 만약 'a'와 같이 배열 내에 3번째 인덱스에 nan값이 포함되어 있다고 해보자. 이때 해당 인덱스에 np.nan을 기입하여 na.. 2023. 2. 1.
[Python] pandas로 엑셀 읽고 저장하기 본 포스팅에서는 python으로 엑셀을 읽는 법과 저장하는 법에 대해 얘기하고자 한다. pandas.read 다음과 같이 name, dcm_paths, label_paths, dcm_extentions, label_extentions의 열들을 가지는 xlsx 파일을 읽어보자. pandas는 보통 pd로 줄여서 통용된다. "pd.read_excel('엑셀파일명')"을 사용하면 쉽게 파일을 읽을 수 있다. import pandas as pd excel_path = './annotation.xlsx' df = pd.read_excel(excel_path) df 위 예제와 같이 pd.read_excel로 읽어들이면 DataFrame 형태로 반환해 주는데 여기서 DataFrame이란 pandas에서 제공해주는 데.. 2023. 1. 31.
728x90
반응형