python与sql的区别_2020年入门数据分析选择Python还是SQL?七个常用操作对比! - Go语言中文社区

python与sql的区别_2020年入门数据分析选择Python还是SQL?七个常用操作对比!


SQL和Python几乎是当前数据分析师必须要了解的两门语言,它们在处理数据时有什么区别?本文将分别用MySQL和pandas来展示七个在数据分析中常用的操作,希望可以帮助掌握其中一种语言的读者快速了解另一种方法!

在阅读本文前,你可以访问下方网站下载本文使用的示例数据,并导入MySQL与pandas中,一边敲代码一边阅读!https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/io/data/csv/tips.csv

一、选择

在SQL中,我们可以使用SELECT语句从表选择数据,结果被存储在一个结果表中,语法如下:SELECT column_name,column_name

FROM table_name;

如果不想显示全部的记录,可以使用TOP或LIMIT来限制行数。因此选择tips表中的部分列可以使用下面的语句SELECT total_bill, tip, smoker, time

FROM tips

LIMIT 5;

b0beb844415cbb7e4810dd0d41af0012.png

而在pandas中,我们可以通过将列名列表传递给DataFrame来完成列选择

cc528ef9b7bf095bc4d6afca84ec4da7.png在SQL中,进行选择的同时还可以进行计算,比如添加一列SELECT *, tip/total_bill as tip_rate

FROM tips

LIMIT 5;

b2488af4f4b201a8b3bcfd9540cd85cf.png在pandas中使用DataFrame.assign()同样可以完成这个操作

c8187fbf98c814666c47e5519023577d.png

二、查找

单条件查找

在SQL中,WHERE子句用于提取那些满足指定条件的记录,语法如下SELECT column_name,column_name

FROM table_name

WHERE column_name operator value;

比如查找示例数据中time = dinner的记录SELECT *

FROM tips

WHERE time = 'Dinner'

LIMIT 5;

aac0bc96f9f3e61d304032a15bd0a052.png而在pandas中,按照条件进行查找则可以有多种形式,比如可以将含有True/False的Series对象传递给DataFrame,并返回所有带有True的行

5a4c72f4ef1f847d2a1b3aa73c36e2d6.png

多条件查找

在SQL中,进行多条件查找可以使用AND/OR来完成SELECT *

FROM tips

WHERE time = 'Dinner' AND tip > 5.00;

6ca0f220ad8e841a96042a399fed1047.png在pandas中也有类似的操作

393bef1b2b8963c001b10438de5ef8be.png

查找空值

在pandas检查空值是使用notna()和isna()方法完成的。frame[frame['col1'].notna()]

在SQL中可以使用IS NULL和IS NOT NULL完成SELECT *

FROM frame

WHERE col2 IS NULL;

SELECT *

FROM frame

WHERE col1 IS NOT NULL;

三、更新

在SQL中使用UPDATEUPDATE tips

SET tip = tip*2

WHERE tip 

而在pandas中则有多种方法,比如使用loc函数tips.loc[tips['tip'] 

四、删除

在SQL中使用DELETEDELETE FROM tips

WHERE tip > 9;

在pandas中,我们选择应保留的行,而不是删除它们tips = tips.loc[tips['tip'] <= 9]

五、分组

在pandas中,使用groupby()方法实现分组。groupby()通常是指一个过程,在该过程中,我们希望将数据集分为几组,应用某些功能(通常是聚合),然后将各组组合在一起。

常见的SQL操作是获取整个数据集中每个组中的记录数。例如,通过对性别进行分组查询SELECT sex, count(*)

FROM tips

GROUP BY sex;

5a8e3b618a627c08664956410061d720.png在pandas中的等价操作为

aecf7c4a40f069b2be304f0bd91d507e.png注意,在上面代码中,我们使用size()而不是count() 这是因为count()将函数应用于每一列,并返回每一列中非空记录的数量!

六、连接

在pandas可以使用join()或merge()进行连接,每种方法都有参数,可让指定要执行的联接类型(LEFT,RIGHT,INNER,FULL)或要联接的列。

现在让我们重新创建两组示例数据,分别用代码来演示不同的连接df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],

....:                     'value': np.random.randn(4)})

....:

df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'],

....:                     'value': np.random.randn(4)})

内连接

内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行,在SQL中实现内连接使用INNER JOINSELECT *

FROM df1

INNER JOIN df2

ON df1.key = df2.key;

在pandas中可以使用merge()

77cad263d15130f1ade82261593f25d4.pngmerge()提供了一些参数,可以将一个DataFrame的列与另一个DataFrame的索引连接在一起

版权声明:本文来源CSDN,感谢博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/weixin_32824625/article/details/113500083
站方申明:本站部分内容来自社区用户分享,若涉及侵权,请联系站方删除。
  • 发表于 2021-06-12 18:58:36
  • 阅读 ( 417 )
  • 分类:

0 条评论

请先 登录 后评论

官方社群

GO教程

猜你喜欢