pandas数据分析使用技巧

顺晟科技

2021-06-16 10:39:41

337

1、被下单数最多商品（项目)是什么

c=chipo[['item_name '，' quantity']].groupby(['item_name']，as_index=False).agg({'quantity':sum})

c.sort_values(['quantity']，升序=False，就地=真)

c.head()

groupby()和agg()

2、在项目名称这一列中，一共有多少种商品被下单？

(1)

chipo['item_name'].nunique()

(2)

len(chipo。项目名称。value _ counts())

nunique()

3、将项目价格(_ p)转换为浮点数

chipo[' item _ price ']=chipo。项目_价格。应用(x :浮点(x[1:])

apply() lambda

4、在该数据集对应的时期内，收入（收入)是多少

收入=(chipo['数量] * chipo['item_price']).总和()

总和()

5、对数据框纪律，学科按照先红牌再黄牌进行排序

纪律。sort_values(['红牌','黄牌'],升序=False)

sort_values()，sort_index()

6、选取以字母G开头的球队数据

12欧元Team.str.startswith('G')]

str.startswith()

7、找到英格兰（英国)、意大利（意大利)和俄罗斯（俄罗斯)的射正率（拍摄精度)

euro 12 . loc[euro 12 . Team . isin([' England '，' Italy '，' Russia'])，['Team '，'投篮准确性']]

loc()，isin()

8、打印出每个大陆对精神饮品消耗的平均值，更大值和最小值

饮料。groupby(')大陆')。spirit_servings.agg(['mean '，' min '，' max'])

9、将年的数据类型转换为datetime64

犯罪Year=pd.to_datetime(犯罪.年份，格式=“% Y”)

pd.to_datetime()

10、将列年设置为数据框的索引

犯罪=犯罪set_index('Year '，drop=True)

set_index()

11、del df['temp']是正确的，而del df.temp是错误的

12、按照年对数据框进行分组并求和

temp=crime.resample('10AS ').sum() #每十年对时间序列重新采样一次

# 用重新取样去得到"人口"列的更大值

人口=犯罪['人口']。重新取样(' 10AS ').更大值()

# 更新"人口"

临时[人口]=人口

重新取样()

13、何时是美国历史上生存最危险的年代？

crime.idxmax(0)

签名环： df。idxmax(轴=0，skipna=真)

Docstring:

返回请求轴上更大值次出现的索引。

不包括空值。

轴： {0或索引'，1或列' }，默认为0

0或“索引”代表行，1或"列"代表列

14、构建数据帧标准数据格式：

raw_data_1={

subject_id': ['1 '，' 2 '，' 3 '，' 4 '，' 5']，

first_name': ['Alex '，' Amy '，' Allen '，' Alice '，' Ayoung']，

last_name': ['Anderson '，' Ackerman '，' Ali '，' Aoni '，' Atiches']}

raw_data_2={

subject_id': ['4 '，' 5 '，' 6 '，' 7 '，' 8']，

first_name': ['Billy '，' Brian '，' Bran '，' Bryce '，' Betty']，

last_name': ['Bonder '，' Black '，' Balwner '，' Brice '，' Btisan']}

raw_data_3={

subject_id': ['1 '，' 2 '，' 3 '，' 4 '，' 5 '，' 7 '，' 8 '，' 9 '，' 10 '，' 11']，

test_id': [51，15，15，61，16，14，15，1，61，16]}

注意构造数据帧的数据格式是字典

15、按照主题编号的值对所有数据(_ d)和数据3作合并

pd.merge(all_data，data3，on='subject_id ')

合并(on=)

16、".数据"数据的读取方式

data=pd.read_table('wind.data '，sep='\s '，parse _ date=[[0，1，2]])

17、2061年？我们真的有这一年的数据？创建一个函数并用它去修复这个臭虫。

"年_月_日"日期时间64

def fix_century(x):

year=x.year - 100如果1989年

返回datetime.date(年、月、日)

#对列应用函数固定世纪，并将值替换为正确的值

数据['Yr_Mo_Dy']=数据['Yr_Mo_Dy'].应用（修复世纪)

注意这里对日期时间类型数据的使用方法e: x.year

18、对于每一个位置，计算一月份的平均风速

熊猫。查询()相当于结构化查询语言的查询语句

data['date']=data.index

#为每个起始日期值创建一列

数据['月']=数据['日期'].apply(lambda date : date。月份)

数据['年份']=数据['日期'].应用(lambda date: date.year)

数据['日']=数据['日期'].apply(lambda date: date.day)

#获取个月的所有值并分配给janyary_winds

1月_风=数据。查询('月==1 ')

#从一月风获取平均值，使用。锁定不打印月、年、日的平均值

january_winds.loc[:' RPT':'MAL'].平均值()

查询()

19、有重复的日期吗？

apple.index.is_unique

index.is_unique

20、数据集中最早的日期和最晚的日期相差多少天？

苹果。索引。max()-苹果。索引。min()).天

21、在数据中一共有多少个月？

(太神奇了，这是个神奇的组合键孤立性纤维性肿瘤选项k)

apple _ months=apple。重采样(' BM ').平均值()

len(apple_months.index)

重新取样是一个非常重要的函数，抽样函数

22、删除有缺失值的行

iris=iris.dropna(how='any ')

dropna(how=)

23、重新设置索引

iris=iris。重置_索引(丢弃=真)

重置_索引（丢弃=真)

上一篇：JavaScript函数劫持思路分析下一篇：Python判断字符数组中是否所有的

网站建设

开发小记

pandas数据分析使用技巧