판다스 자료구조

시리즈는 데이터가 순차적으로 나열된 1차원 배열의 형태를 갖는다.

보통 인덱스(index)와 데이터 값(value)의 일대일 대응이라고 표현하며

인덱스의 경우 자기 자신과 짝을 이루는 데이터 값의 순서와 위치를 저장한다.

이러한 특징때문에 비슷한 구조의 딕셔너리(dictionary)를 시리즈로 변환하여 사용한다.

딕셔너리를 시리즈로

# pandas 불러오기
import pandas as pd

# {key:value} 형태로 딕셔너리를 만들고 새로운 변수에 저장
dic_data = {'L':1, 'O':2, 'V':3, 'E':4}

# pandas 내장함수인 Series()를 이용하여 딕셔너리를 시리즈로 변환, 또 다른 변수에 저장
new_data = pd.Series(dic_data)

# 결과보기
type(new_data), new_data

결과

(pandas.core.series.Series,
 L    1
 O    2
 V    3
 E    4
 dtype: int64)

리스트(list) 도 동일한 함수를 사용하여 시리즈로 변환이 가능하다.

이때는 딕셔너리와는 다르게 key 값은 없고, value 값만 있으므로 인덱스로 변환될 값이 없다.

따라서 인덱스를 별도로 정의하지 않으면, default로 정수형(int) 위치 인덱스(0, 1, 2, 3...)가 자동으로 입력된다.

리스트를 시리즈로

import pandas as pd

list_data = ['1993-11-18', '소소한혜밍', 30, True]

new_data=pd.Series(list_data)

type(new_data), new_data

결과

(pandas.core.series.Series,
 0    1993-11-18
 1    소소한혜밍
 2            30
 3          True
 dtype: object)

튜플(tuple)도 시리즈로 변환이 가능한데,

리스트처럼 딕셔너리의 key에 해당하는 값이 없어서 시리즈로 변환할 때 정수형 위치 인덱스가 자동으로 지정된다.

만약, default로 지정되는 정수형 인덱스가 아닌 인덱스 이름을 따로 지정하고 싶다면

index 옵션을 이용하여 이름을 지정할 수 있다.

튜플을 시리즈로, 인덱스 이름을 새로 지정하기

import pandas as pd

tup_data = ['1993-11-18', '소소한혜밍', 30, True]

new_data=pd.Series(tup_data, index = ['생년월일', '별명', '나이', '학생여부'])

type(new_data), new_data

결과

(pandas.core.series.Series,
 생년월일    1993-11-18
 별명        소소한혜밍
 나이              30
 학생여부          True
 dtype: object)

'Python > Pandas' 카테고리의 다른 글

[Tensorflow]tensor란? (0)	2022.09.13

소소하게 시작하는 코딩스토리

판다스 자료구조 - 시리즈

'Python > Pandas' 카테고리의 다른 글

댓글

티스토리툴바

판다스 자료구조 - 시리즈

'Python > Pandas' 카테고리의 다른 글

관련글

댓글

티스토리툴바