网易首页 > 网易号 > 正文 申请入驻

DeepSeek!一文搞定GEO芯片数据挖掘!

0
分享至

今天给大家带来一篇干货满满的推文,教大家如何用DeepSeek工具轻松搞定GEO芯片数据挖掘!无论你是科研小白还是数据分析高手,这篇文章都能让你快速上手,掌握GEO芯片数据挖掘的核心技巧!

1. 什么是GEO芯片数据?GEO(Gene Expression Omnibus)是一个公共数据库,存储了大量的基因表达数据。通过分析这些数据,我们可以发现基因在不同条件下的表达差异,从而揭示疾病的潜在机制或药物的作用靶点。

2. 为什么要用DeepSeek?DeepSeek是一款强大的生物信息学工具,专门用于处理和分析GEO芯片数据。它集成了数据下载、预处理、差异表达分析、功能富集分析等多种功能,操作简单,结果可靠,是科研工作者的得力助手!

3. 手把手教程:从数据下载到差异表达分析

Step 1:数据下载

首先,打开GEO数据库,找到你感兴趣的芯片数据集。复制数据集编号(如GSE12345),然后在DeepSeek中输入编号,点击下载。DeepSeek会自动下载并解压数据文件,省去了手动操作的麻烦。

Step 2:数据预处理

下载完成后,DeepSeek会自动进行数据预处理,包括背景校正、归一化、探针注释等。这些步骤确保了数据的质量,为后续分析打下坚实基础。

Step 3:差异表达分析

接下来,DeepSeek会根据你设定的条件(如对照组 vs 实验组)进行差异表达分析。通过统计检验,筛选出显著差异表达的基因。DeepSeek还提供了多种可视化工具,如火山图、热图等,帮助你直观地展示分析结果。

Step 4:功能富集分析

最后,DeepSeek会对差异表达基因进行功能富集分析,包括GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)分析。这些分析可以帮助你理解差异基因的生物学功能和参与的代谢通路,为后续实验提供重要线索。

4. 实例演示。为了让大家更好地理解,我们以GSE7014数据集为例,演示如何使用DeepSeek进行数据挖掘。

########################糖尿病数据综合分析####################################
rm(list = ls())
getwd()
gc()
########--------GPL570平台-------########
# 加载包
library(GEOquery)
library(limma)
library(ggplot2)
library(pheatmap)
library(clusterProfiler)
library(org.Hs.eg.db)
library(DOSE)
library(STRINGdb)
library(annotate)
library(hgu133plus2.db)  # GPL570 对应的注释包
## 数据加载
# 下载 GSE7014 数据集
gse <- getGEO("GSE7014", GSEMatrix = TRUE)
# 提取表达矩阵
exprs <- exprs(gse[[1]])
# 提取样本信息
pdata <- pData(gse[[1]])
# 查看样本信息
head(pdata)
# 查看表达矩阵
dim(exprs)
head(exprs)
## 数据清洗
# 检查是否有缺失值
sum(is.na(exprs))
# 如果有缺失值,可以使用impute包进行填补
if (sum(is.na(exprs)) > 0) {
  BiocManager::install("impute")
  library(impute)
  exprs <- impute.knn(exprs)$data
}
# 标准化数据
exprs <- normalizeBetweenArrays(exprs, method = "quantile")
# 查看标准化后的数据
boxplot(exprs, main = "Normalized Expression Data")
##探针ID转换
# 使用 hgu133plus2.db 包将探针 ID 转换为基因符号
probe_ids <- rownames(exprs)
gene_symbols <- mapIds(hgu133plus2.db, keys = probe_ids, column = "SYMBOL", keytype = "PROBEID")
# 去除未注释的探针
exprs <- exprs[!is.na(gene_symbols), ]
gene_symbols <- gene_symbols[!is.na(gene_symbols)]
# 合并重复基因符号(取平均值)
exprs <- aggregate(exprs, by = list(gene_symbols), FUN = mean)
rownames(exprs) <- exprs$Group.1
exprs <- exprs[, -1]  # 去除分组列
exprs = log2(exprs)
## 差异分析
# 创建设计矩阵
groups <- pdata$description
CTRL <- exprs[,grep('N',groups)]
DM1 <- exprs[,grep('DM1',groups)]
DM2 <- exprs[,grep('DM2',groups)]
exprs <- cbind(CTRL,DM1,DM2)
groups <- c(rep('CTRL',ncol(CTRL)),
            rep('DM1',ncol(DM1)),
            rep('DM2',ncol(DM2)))
groups <- factor(groups, levels = c("CTRL", "DM1", "DM2"))
design <- model.matrix(~0 + groups)
colnames(design) <- c("CTRL", "DM1", "DM2")
# 拟合线性模型
fit <- lmFit(exprs, design)
# 创建对比矩阵
contrast.matrix <- makeContrasts(DM1-CTRL, DM2-CTRL, DM1-DM2, levels=design)
# 拟合对比
fit2 <- contrasts.fit(fit, contrast.matrix)
fit2 <- eBayes(fit2)
# 提取差异表达基因
results <- decideTests(fit2)
summary(results)
# 提取DM1 vs CTRL的差异表达基因
DM1_vs_CTRL <- topTable(fit2, coef=1, number=Inf, p.value=0.05)
DM2_vs_CTRL <- topTable(fit2, coef=2, number=Inf, p.value=0.05)
DM1_vs_DM2 <- topTable(fit2, coef=3, number=Inf, p.value=0.05)
# 保存差异表达基因
write.csv(DM1_vs_CTRL, "DM1_vs_CTRL.csv")
write.csv(DM2_vs_CTRL, "DM2_vs_CTRL.csv")
write.csv(DM1_vs_DM2, "DM1_vs_DM2.csv")
## 数据可视化
# 绘制热图
pheatmap(exprs[1:50,], scale = "row", clustering_distance_rows = "euclidean", 
         clustering_distance_cols = "euclidean", clustering_method = "complete",
         show_rownames = F)
# 绘制火山图
volcano_plot <- function(de_results, title) {
  ggplot(de_results, aes(x=logFC, y=-log10(P.Value), color=adj.P.Val < 0.05)) +
    geom_point() +
    theme_bw() +
    ggtitle(title)+
    theme(legend.position = "none") 
}
p1 = volcano_plot(DM1_vs_CTRL, "DM1 vs CTRL")
p2 = volcano_plot(DM2_vs_CTRL, "DM2 vs CTRL")
p3 = volcano_plot(DM1_vs_DM2, "DM1 vs DM2")
 
p1+p2+p3

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
彭伟国:33岁退役,坐宝马开酒楼,财富自由,每天在约球和找美食

彭伟国:33岁退役,坐宝马开酒楼,财富自由,每天在约球和找美食

白面书誏
2026-04-08 13:59:47
孔德:次回合以11人应战的巴萨能在场上压制马竞,打进三个球

孔德:次回合以11人应战的巴萨能在场上压制马竞,打进三个球

懂球帝
2026-04-09 07:45:07
女子回应“汉堡自助吃太多被拒绝接待”:不接受道歉,更不要赔偿 涉事店铺去年被列为经营异常

女子回应“汉堡自助吃太多被拒绝接待”:不接受道歉,更不要赔偿 涉事店铺去年被列为经营异常

红星新闻
2026-04-08 19:52:16
《楚乔传》续集首波口碑出炉了!观众的打分评价都“一针见血”

《楚乔传》续集首波口碑出炉了!观众的打分评价都“一针见血”

星宿影视鸭
2026-04-08 14:49:27
巴黎2-0利物浦!法国球队创14年神迹,红军被打回原形?

巴黎2-0利物浦!法国球队创14年神迹,红军被打回原形?

阿晞体育
2026-04-09 07:25:01
阿不都18+10+9!新疆加时逆转天津结束4连败 齐麟25+7爆发

阿不都18+10+9!新疆加时逆转天津结束4连败 齐麟25+7爆发

醉卧浮生
2026-04-08 22:08:38
王辅一将军逝世,生前被誉为“军史活辞典”

王辅一将军逝世,生前被誉为“军史活辞典”

澎湃新闻
2026-04-08 22:32:27
特朗普是个什么样的人,这篇文章分析得很透彻

特朗普是个什么样的人,这篇文章分析得很透彻

我是健康专家
2026-04-07 08:43:05
消失9年,芙蓉姐姐近况曝光:病中探望老友,衣着朴素身价过亿

消失9年,芙蓉姐姐近况曝光:病中探望老友,衣着朴素身价过亿

可爱小菜
2026-04-08 14:47:21
恶心的一幕发生,银行卡被冻结、被执行55万元,王思聪做得好

恶心的一幕发生,银行卡被冻结、被执行55万元,王思聪做得好

观察鉴娱
2026-04-08 09:39:33
停火、谈判、通航,“最后期限”之际的伊朗战事最新进展

停火、谈判、通航,“最后期限”之际的伊朗战事最新进展

极目新闻
2026-04-08 08:36:22
里夫斯打完湖人生涯最后一战?年薪谈判区间曝光 不排除先签后换

里夫斯打完湖人生涯最后一战?年薪谈判区间曝光 不排除先签后换

罗说NBA
2026-04-09 05:11:35
美伊停火的关键斡旋者:与特朗普私交甚好的巴基斯坦陆军元帅

美伊停火的关键斡旋者:与特朗普私交甚好的巴基斯坦陆军元帅

红星新闻
2026-04-08 18:56:17
加州最高法院下令:禁止调查选票欺诈

加州最高法院下令:禁止调查选票欺诈

大洛杉矶LA
2026-04-09 06:00:21
金高银为搭戏00后小生,每月跑皮肤科还背Z世代黑话

金高银为搭戏00后小生,每月跑皮肤科还背Z世代黑话

娱圈观察员
2026-04-08 10:06:00
拿600万,罚球4中2,上场11分钟输17分,球迷:你的顶薪该广东出

拿600万,罚球4中2,上场11分钟输17分,球迷:你的顶薪该广东出

弄月公子
2026-04-08 23:54:31
陈光标又闹笑话了,火速删掉博文!

陈光标又闹笑话了,火速删掉博文!

葱哥说
2026-04-08 13:12:40
没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

健康之光
2026-01-04 09:31:45
极有可能万斯会当上总统!对全世界都不是什么好事!因为万斯年轻

极有可能万斯会当上总统!对全世界都不是什么好事!因为万斯年轻

西楼知趣杂谈
2026-04-08 09:49:23
广东逆行堵路 "路霸" 后续,硬刚交警下场很惨,处罚结果大快人心

广东逆行堵路 "路霸" 后续,硬刚交警下场很惨,处罚结果大快人心

十九妹
2026-04-09 03:08:46
2026-04-09 08:19:00
芒果师兄 incentive-icons
芒果师兄
一起学习,共同成长,让生信助力科研。
503文章数 67关注度
往期回顾 全部

科技要闻

吴泳铭成立阿里技术委员会 为何这四人入选

头条要闻

特朗普称"彻底胜利" 美媒:目标一个没实现还陷入困境

头条要闻

特朗普称"彻底胜利" 美媒:目标一个没实现还陷入困境

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

谁骗了董宇辉?

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

房产
教育
旅游
时尚
数码

房产要闻

正式动工!珠城马场地块,签约华尔道夫!

教育要闻

“这长相,就别担心早恋了!”家长晒学霸儿子,被群嘲后看清现实

旅游要闻

洛阳西安,不掐了?|豫观察

50岁,我妈在恋综抢男人

数码要闻

SK海力士开始供应321层QLC NAND cSSD:最高可选2TB

无障碍浏览 进入关怀版