做IT这行十五年,见过太多孩子填报志愿时一头雾水,或者工作两年后迷茫不知道往哪转。最近好多私信问我关于“数据科学与大数据技术”这个专业的事。说实话,这名字听起来高大上,但真到了干活的时候,很多人连环境都配不明白。今天我不讲那些虚头巴脑的理论,就结合我带过团队、面试过上百个应届生的经验,跟大家唠唠这行到底咋回事,以及你该怎么准备。
先说个大实话,这专业是个“万金油”,但也容易变成“万金油”式的废物。很多高校的课程设置,既要教计算机基础,又要教统计学,还要教大数据框架。结果呢?学生什么都学点皮毛,最后啥都不精。我去年面试过一个小伙子,简历上写着精通Hadoop、Spark,结果问到底层原理,支支吾吾答不上来,连MapReduce的执行流程都说不清。这种简历,HR看一眼就扔了。所以,别指望学校能把你教成专家,学校只是给你指个路,真正的本事得靠你自己去“野路子”里练出来。
那具体该咋办?我的建议是,你得尽早选定一个方向。数据科学与大数据技术这个领域,主要分两块:一块是搞开发的,一块是搞分析的。搞开发的,就是去建数据仓库、清洗数据、搭建平台;搞分析的,就是去挖数据里的规律,给业务提建议。这两者的技能树完全不一样。
如果你想走开发路线,那Java或者Scala是必须啃下来的硬骨头。我见过不少学生,代码写得稀烂,却在那纠结用Python还是R语言做分析。记住,在大厂眼里,能扛住高并发、能处理海量数据的后端开发能力,才是硬通货。你得熟悉Linux常用命令,得懂SQL,最好再懂点分布式系统的原理。我有个前同事,刚毕业时只懂简单的Python爬虫,后来硬是花了半年时间,把Hadoop生态全家桶摸透了,现在年薪三十多万,这就是差距。
如果你想走分析路线,那数学基础和业务敏感度就至关重要。别以为会画几个饼图就是数据分析了。你得知道怎么通过数据发现问题,怎么设计实验,怎么通过A/B测试验证假设。这里有个真实案例,我之前服务的一家电商客户,他们觉得某个促销活动效果不好,问我能不能看看数据。我让他们把用户行为日志导出来,发现其实流量没少,但转化率极低。进一步分析发现,是支付页面的加载速度太慢,导致用户流失。这就是数据在说话,而不是拍脑袋。这种通过数据驱动业务增长的能力,才是企业真正想要的。
当然,学习过程中肯定会有很多坑。比如环境配置,Hadoop集群搭建,光是JDK版本不兼容就能让你抓狂。我当年刚入行时,为了配通一个Spark环境,熬了三个通宵,头发都掉了一把。但这没关系,这些折腾的过程,正是你积累经验的时候。别怕报错,报错信息里往往藏着解决问题的线索。
还有,别光盯着技术看,得关注行业动态。大数据技术迭代太快了,今天还在讲Hadoop,明天可能云原生数据湖就火了。保持好奇心,多看看GitHub上的开源项目,多参与一些实际的数据竞赛,比死看书管用得多。
最后想说,这行虽然门槛看起来高,但只要肯下功夫,路还是很宽的。别被那些“35岁危机”的言论吓倒,技术这东西,越老越吃香,前提是你要一直在学习,一直在更新自己的知识库。数据科学与大数据技术,不只是一个专业名称,更是一种思维方式。学会了用数据去观察世界,你会发现,很多看似复杂的问题,其实都有迹可循。
本文关键词:数据科学与大数据技术