import pandas

pandas.read_csv('./sehir_cinsiyet.csv')

df = pandas.read_csv('./sehir_cinsiyet.csv')

df

print(df)

   boy  kilo cinsiyet
0  185    85    erkek
1  174    65    kadin
2  180    95    kadin
3  168    58    kadin
4  175    80    erkek
5  170    70    erkek
6  169    75    erkek
7  183    74    erkek
8  180    80    erkek
9  170    60    kadin

df.head()

df.tail()

df.shape

(10, 3)

df.columns

Index(['boy', 'kilo', 'cinsiyet'], dtype='object')

df.dtypes

boy          int64
kilo         int64
cinsiyet    object
dtype: object

df['boy']

0    185
1    174
2    180
3    168
4    175
5    170
6    169
7    183
8    180
9    170
Name: boy, dtype: int64

df['cinsiyet']

0    erkek
1    kadin
2    kadin
3    kadin
4    erkek
5    erkek
6    erkek
7    erkek
8    erkek
9    kadin
Name: cinsiyet, dtype: object

cinsiyetler = df['cinsiyet']

cinsiyetler.head()

0    erkek
1    kadin
2    kadin
3    kadin
4    erkek
Name: cinsiyet, dtype: object

df[['boy','kilo']] # alt küme alır ve çift köşeli parantez!!! (köşeli parantez içerisine liste alıyor)

# df['boy','kilo'] # çalışmaz çünkü tek kolon değil

df[2:]

df[2:5]

df.shape

(10, 3)

df.loc[1] # seri döndürür (zaman serisi vs.)

boy           174
kilo           65
cinsiyet    kadin
Name: 1, dtype: object

Seri döndürür, zaman serisi vs. dolayısıyla mesela df.loc[-1] çalışmaz.

df.loc[df.shape[0]-1] # -1 yerine bu yazılabilir

boy           170
kilo           60
cinsiyet    kadin
Name: 9, dtype: object

df.iloc[3]#verilen satırı alır (row number) , loc ise row name alır (isim ile)

boy           168
kilo           58
cinsiyet    kadin
Name: 3, dtype: object

df.ix[0] #eskiden kullanılıyordu artık iloc veya loc kullanılıyord

/Users/sadievrenseker/anaconda3/lib/python3.6/site-packages/ipykernel_launcher.py:1: DeprecationWarning: 
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.

boy           185
kilo           85
cinsiyet    erkek
Name: 0, dtype: object

df.iloc[[2,5,6]]

Veri bilimi başlangıcı¶

1. Giriş¶

Örnek 1: Cinsiyete göre boy ve kilo ortalamalarını almak istiyor olalım...

df.groupby('cinsiyet') # sonuç göstermez çünkü nasıl aggregate edeceği belirtilmemiş

<pandas.core.groupby.DataFrameGroupBy object at 0x107018a58>

df.groupby('cinsiyet')['boy'] # cinsiyete göre gruplanmış verinin sadece boy kolonunu alır

<pandas.core.groupby.SeriesGroupBy object at 0x10712e518>

df.groupby('cinsiyet')['boy'].mean()

cinsiyet
erkek    177
kadin    173
Name: boy, dtype: int64

df.groupby('cinsiyet').mean()

df.groupby('cinsiyet').median()

df.groupby('cinsiyet').max()

2. Veri Birleştirme¶

df1 = pandas.read_csv('./pandas/data/concat_1.csv')
df2 = pandas.read_csv('./pandas/data/concat_2.csv')
df3 = pandas.read_csv('./pandas/data/concat_3.csv')

df1

pandas.concat([df1,df2,df3])

pandas.concat([df1,df3,df1,df2])

rdf=pandas.concat([df1,df3,df1,df2])

rdf.shape

(16, 4)

pandas.concat([df1,df3,df1,df2],axis=1)

cdf = pandas.concat([df1,df3,df1,df2],axis=1)

cdf['A']

df1.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

df1.columns = ['A', 'X','C','D']

df1

cdf

rdf

pandas.concat([df1,df3,df1,df2])

rdf.to_csv('birlesik.csv')

merged_data = site.merge(visited, left_on='name', right_on='site')

merged_data

	A	B	C	D
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3

	A	B	C	D
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
0	a4	b4	c4	d4
1	a5	b5	c5	d5
2	a6	b6	c6	d6
3	a7	b7	c7	d7
0	a8	b8	c8	d8
1	a9	b9	c9	d9
2	a10	b10	c10	d10
3	a11	b11	c11	d11

	A	B	C	D
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
0	a8	b8	c8	d8
1	a9	b9	c9	d9
2	a10	b10	c10	d10
3	a11	b11	c11	d11
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
0	a4	b4	c4	d4
1	a5	b5	c5	d5
2	a6	b6	c6	d6
3	a7	b7	c7	d7

	A	B	C	D	A	B	C	D	A	B	C	D	A	B	C	D
0	a0	b0	c0	d0	a8	b8	c8	d8	a0	b0	c0	d0	a4	b4	c4	d4
1	a1	b1	c1	d1	a9	b9	c9	d9	a1	b1	c1	d1	a5	b5	c5	d5
2	a2	b2	c2	d2	a10	b10	c10	d10	a2	b2	c2	d2	a6	b6	c6	d6
3	a3	b3	c3	d3	a11	b11	c11	d11	a3	b3	c3	d3	a7	b7	c7	d7

	A	A	A	A
0	a0	a8	a0	a4
1	a1	a9	a1	a5
2	a2	a10	a2	a6
3	a3	a11	a3	a7

	boy	kilo	cinsiyet
0	185	85	erkek
1	174	65	kadin
2	180	95	kadin
3	168	58	kadin
4	175	80	erkek
5	170	70	erkek
6	169	75	erkek
7	183	74	erkek
8	180	80	erkek
9	170	60	kadin

	boy	kilo
0	185	85
1	174	65
2	180	95
3	168	58
4	175	80
5	170	70
6	169	75
7	183	74
8	180	80
9	170	60

	A	B	C	D
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
0	a4	b4	c4	d4
1	a5	b5	c5	d5
2	a6	b6	c6	d6
3	a7	b7	c7	d7
0	a8	b8	c8	d8
1	a9	b9	c9	d9
2	a10	b10	c10	d10
3	a11	b11	c11	d11

	A	B	C	D
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
0	a8	b8	c8	d8
1	a9	b9	c9	d9
2	a10	b10	c10	d10
3	a11	b11	c11	d11
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
0	a4	b4	c4	d4
1	a5	b5	c5	d5
2	a6	b6	c6	d6
3	a7	b7	c7	d7

	A	B	C	D	A	B	C	D	A	B	C	D	A	B	C	D
0	a0	b0	c0	d0	a8	b8	c8	d8	a0	b0	c0	d0	a4	b4	c4	d4
1	a1	b1	c1	d1	a9	b9	c9	d9	a1	b1	c1	d1	a5	b5	c5	d5
2	a2	b2	c2	d2	a10	b10	c10	d10	a2	b2	c2	d2	a6	b6	c6	d6
3	a3	b3	c3	d3	a11	b11	c11	d11	a3	b3	c3	d3	a7	b7	c7	d7

	A	B	C	D	A	B	C	D	A	B	C	D	A	B	C	D
0	a0	b0	c0	d0	a8	b8	c8	d8	a0	b0	c0	d0	a4	b4	c4	d4
1	a1	b1	c1	d1	a9	b9	c9	d9	a1	b1	c1	d1	a5	b5	c5	d5
2	a2	b2	c2	d2	a10	b10	c10	d10	a2	b2	c2	d2	a6	b6	c6	d6
3	a3	b3	c3	d3	a11	b11	c11	d11	a3	b3	c3	d3	a7	b7	c7	d7

	A	B	C	D
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
0	a8	b8	c8	d8
1	a9	b9	c9	d9
2	a10	b10	c10	d10
3	a11	b11	c11	d11
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
0	a4	b4	c4	d4
1	a5	b5	c5	d5
2	a6	b6	c6	d6
3	a7	b7	c7	d7

	A	B	C	D	X
0	a0	NaN	c0	d0	b0
1	a1	NaN	c1	d1	b1
2	a2	NaN	c2	d2	b2
3	a3	NaN	c3	d3	b3
0	a8	b8	c8	d8	NaN
1	a9	b9	c9	d9	NaN
2	a10	b10	c10	d10	NaN
3	a11	b11	c11	d11	NaN
0	a0	NaN	c0	d0	b0
1	a1	NaN	c1	d1	b1
2	a2	NaN	c2	d2	b2
3	a3	NaN	c3	d3	b3
0	a4	b4	c4	d4	NaN
1	a5	b5	c5	d5	NaN
2	a6	b6	c6	d6	NaN
3	a7	b7	c7	d7	NaN

	name	lat	long	ident	site	dated
0	DR-1	-49.85	-128.57	619	DR-1	1927-02-08
1	DR-1	-49.85	-128.57	622	DR-1	1927-02-10
2	DR-1	-49.85	-128.57	844	DR-1	1932-03-22
3	DR-3	-47.15	-126.72	734	DR-3	1939-01-07
4	DR-3	-47.15	-126.72	735	DR-3	1930-01-12
5	DR-3	-47.15	-126.72	751	DR-3	1930-02-26
6	DR-3	-47.15	-126.72	752	DR-3	NaN
7	MSK-4	-48.87	-123.40	837	MSK-4	1932-01-14

	boy	kilo
0	185	85
1	174	65
2	180	95
3	168	58
4	175	80
5	170	70
6	169	75
7	183	74
8	180	80
9	170	60

	A	B	C	D
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
0	a4	b4	c4	d4
1	a5	b5	c5	d5
2	a6	b6	c6	d6
3	a7	b7	c7	d7
0	a8	b8	c8	d8
1	a9	b9	c9	d9
2	a10	b10	c10	d10
3	a11	b11	c11	d11

	A	B	C	D
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
0	a8	b8	c8	d8
1	a9	b9	c9	d9
2	a10	b10	c10	d10
3	a11	b11	c11	d11
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
0	a4	b4	c4	d4
1	a5	b5	c5	d5
2	a6	b6	c6	d6
3	a7	b7	c7	d7

	A	B	C	D	A	B	C	D	A	B	C	D	A	B	C	D
0	a0	b0	c0	d0	a8	b8	c8	d8	a0	b0	c0	d0	a4	b4	c4	d4
1	a1	b1	c1	d1	a9	b9	c9	d9	a1	b1	c1	d1	a5	b5	c5	d5
2	a2	b2	c2	d2	a10	b10	c10	d10	a2	b2	c2	d2	a6	b6	c6	d6
3	a3	b3	c3	d3	a11	b11	c11	d11	a3	b3	c3	d3	a7	b7	c7	d7

	A	B	C	D	A	B	C	D	A	B	C	D	A	B	C	D
0	a0	b0	c0	d0	a8	b8	c8	d8	a0	b0	c0	d0	a4	b4	c4	d4
1	a1	b1	c1	d1	a9	b9	c9	d9	a1	b1	c1	d1	a5	b5	c5	d5
2	a2	b2	c2	d2	a10	b10	c10	d10	a2	b2	c2	d2	a6	b6	c6	d6
3	a3	b3	c3	d3	a11	b11	c11	d11	a3	b3	c3	d3	a7	b7	c7	d7

	A	B	C	D
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
0	a8	b8	c8	d8
1	a9	b9	c9	d9
2	a10	b10	c10	d10
3	a11	b11	c11	d11
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
0	a4	b4	c4	d4
1	a5	b5	c5	d5
2	a6	b6	c6	d6
3	a7	b7	c7	d7

	A	B	C	D	X
0	a0	NaN	c0	d0	b0
1	a1	NaN	c1	d1	b1
2	a2	NaN	c2	d2	b2
3	a3	NaN	c3	d3	b3
0	a8	b8	c8	d8	NaN
1	a9	b9	c9	d9	NaN
2	a10	b10	c10	d10	NaN
3	a11	b11	c11	d11	NaN
0	a0	NaN	c0	d0	b0
1	a1	NaN	c1	d1	b1
2	a2	NaN	c2	d2	b2
3	a3	NaN	c3	d3	b3
0	a4	b4	c4	d4	NaN
1	a5	b5	c5	d5	NaN
2	a6	b6	c6	d6	NaN
3	a7	b7	c7	d7	NaN

	boy	kilo
0	185	85
1	174	65
2	180	95
3	168	58
4	175	80
5	170	70
6	169	75
7	183	74
8	180	80
9	170	60

	A	B	C	D
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
0	a4	b4	c4	d4
1	a5	b5	c5	d5
2	a6	b6	c6	d6
3	a7	b7	c7	d7
0	a8	b8	c8	d8
1	a9	b9	c9	d9
2	a10	b10	c10	d10
3	a11	b11	c11	d11

	A	B	C	D
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
0	a8	b8	c8	d8
1	a9	b9	c9	d9
2	a10	b10	c10	d10
3	a11	b11	c11	d11
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
0	a4	b4	c4	d4
1	a5	b5	c5	d5
2	a6	b6	c6	d6
3	a7	b7	c7	d7

	A	B	C	D	A	B	C	D	A	B	C	D	A	B	C	D
0	a0	b0	c0	d0	a8	b8	c8	d8	a0	b0	c0	d0	a4	b4	c4	d4
1	a1	b1	c1	d1	a9	b9	c9	d9	a1	b1	c1	d1	a5	b5	c5	d5
2	a2	b2	c2	d2	a10	b10	c10	d10	a2	b2	c2	d2	a6	b6	c6	d6
3	a3	b3	c3	d3	a11	b11	c11	d11	a3	b3	c3	d3	a7	b7	c7	d7

	A	B	C	D	A	B	C	D	A	B	C	D	A	B	C	D
0	a0	b0	c0	d0	a8	b8	c8	d8	a0	b0	c0	d0	a4	b4	c4	d4
1	a1	b1	c1	d1	a9	b9	c9	d9	a1	b1	c1	d1	a5	b5	c5	d5
2	a2	b2	c2	d2	a10	b10	c10	d10	a2	b2	c2	d2	a6	b6	c6	d6
3	a3	b3	c3	d3	a11	b11	c11	d11	a3	b3	c3	d3	a7	b7	c7	d7

	A	B	C	D
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
0	a8	b8	c8	d8
1	a9	b9	c9	d9
2	a10	b10	c10	d10
3	a11	b11	c11	d11
0	a0	b0	c0	d0
1	a1	b1	c1	d1
2	a2	b2	c2	d2
3	a3	b3	c3	d3
0	a4	b4	c4	d4
1	a5	b5	c5	d5
2	a6	b6	c6	d6
3	a7	b7	c7	d7

	A	B	C	D	X
0	a0	NaN	c0	d0	b0
1	a1	NaN	c1	d1	b1
2	a2	NaN	c2	d2	b2
3	a3	NaN	c3	d3	b3
0	a8	b8	c8	d8	NaN
1	a9	b9	c9	d9	NaN
2	a10	b10	c10	d10	NaN
3	a11	b11	c11	d11	NaN
0	a0	NaN	c0	d0	b0
1	a1	NaN	c1	d1	b1
2	a2	NaN	c2	d2	b2
3	a3	NaN	c3	d3	b3
0	a4	b4	c4	d4	NaN
1	a5	b5	c5	d5	NaN
2	a6	b6	c6	d6	NaN
3	a7	b7	c7	d7	NaN