AI科研到底能做什么?看完你就懂了!

2025-03-04  本文已影响0人  JavaEdge

0 前言

本专栏目标:

本质: 多Agent实现从数据采集到可视化全流程

AIGC数据应用:

数据采集

通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采集社交媒体数据、数据库内容、文本数据、接口数据等。

数据处理

通过数据清洗、数据集成、数据变换、特征工程等方式,实现数据结构、数据融合、格式转换、特征提取等。

数据分析

对数据进行诊断、预测、关联、聚类分析,常用于问题定位、需求预测、推荐系统、异常检测等。

数据挖掘

对数据进行分类、社交网络分析或时序模式挖掘,常用于客户细分、信用评分、社交媒体营销、股价预测等。

数据可视化

将数据转化为统计图、热力图、网络关系图、词云、树形图等,用于揭示数据中蕴含的模式、趋势、异常和洞见。

模型特点

DeepSeek R1:

Open AI o3 mini:

Claude 3.5 sonnet:

Kimi k1.5:

1 爬虫数据采集

任务

  1. 阅读网页源代码,提取特定网页内容
  2. 撰写 python 脚本
  3. 提取并合并网址
  4. 提取网址内容
  5. 写入文件

提示词

你需要完成以下两个任务:

  1. 阅读网页【网址】源代码【对应网页源代码】,提取所有包含“春运 2025 | X 月 X 日,全社会跨区域人员流动量完成 X 万人次”的网址进行去重、筛选、合并成网址列表
  2. 撰写 python 脚本,基于步骤 1 输出的网址列表,提取所有网址内容“截至目前 2025 年春运(2025 年 1 月 14 日到 2 月 8 日)相关数据(如日期、全社会跨区域人员流动量、铁路客运量、公路人员流动量、水路客运量、民航客运量等)”完成数据提取并写入文件“2025 春运数据.txt”

如:

帮我写python爬虫,爬取https://news.buaa.edu.cn/zhxw.html网站中的标题和链接

帮我写python爬虫,爬取https://news.buaa.edu.cn/xxgg_new.html网站中class="listlefttop auto"下面的所有标题和链接

(如果乱码?UTF-8)
在桌面新建一个excel文档,并把结果放在这个文档中
对于每一个链接,请爬取每一个链接的内容,并保存到excel的新列'text'中
对于每一个链接,请爬取每一个链接中class="v_news_content"的内容,并保存到excel的新列'text'中

DeepSeek R1

能提取所有网址并进行筛选、去重,所撰写代码运行后完成数据爬虫任务,所获取数据准确,少量数据有所遗漏。

Open AI o3mini:

响应速度快,能高效提取所有需求链接,输出完整可运行 python 脚本,代码运行后生成文件,但数据采集结果为空。

测试结果受到数据样本、测试环境、AI 抽卡、提示词模板等因素影响,仅供参考,无法作为决策制定、质量评估或产品验证的最终依据。

Claude 3.5 sonnet

可提取所有网址,调整后可输出正确代码,运行代码能生成本地文件,但提取数据结果为空。

Kimi k1.5

能够提取所有网址,代码运行后生成本地文件,但提取数据结果为空。

结论:

2 文件数据读取

任务

  1. 读取文件;
  2. 根据指定内容整理成表格。

提示词

所上传的“2025春运数据(1月14-2月8日).txt”包含了从2025年1月14日至2025年2月8日每天各种交通方式的春运客运量信息,请从中读取每一天的信息,并整理成一张表格,要求包括以下几项信息:

1.当天日期;

2.当天的铁路客运量、比2024年同期多或者少的百分比、环比的百分比。

3.当天的公路客运量、比2024年同期多或者少的百分比、环比的百分比。

4.当天的民航客运量、比2024年同期多或者少的百分比、环比的百分比。

DeepSeek R1能详细全面地提取文件中的数据,并整理成可视化数据表格,逻辑性强、指标清晰。

Open AI o3 mini暂不支持附件上传,响应速度快,能够快速读取粘贴数据,输出结果格式工整、简洁。

Claude 3.5 sonnet
很好地完成了数据读取及提取任务 ,没有漏数据指标,数据逻辑性很好

Kimi k1.5
能够快速读取文件数据,并整理成可视化数据表格,但填入数据有所缺失。

结论:

3 文本数据集成

任务

  1. 分别阅读约7000token和15000token的文本内容,测试模型对中、长文本处理效果
  2. 整理集成可视化的数据表格
  3. 按照日期规范排序

提示词

【所需阅读文本】请根据以上文本完成以下三个任务:

1、阅读文本内容;

2、整理集成可视化的数据表格;

3、按照日期规范排序(直接分析并输出结果,不使用python)

DeepSeek R1

一般文本(7000token):能详细全面地提取文本数据,并集成可视化表格,但受大样本或模型稳定性影响,输出表格末尾缺失,需要重复尝试生成。

长文本(15000token):暂时无法给出答复。

Open AI o3mini

一般文本(7000token):能够高效提取文本中的数据,并整理成可视化数据表格,格式工整、简洁,数据准确但数据维度有所缺失。

长文本(15000token):反应迅速,高效提取文本中数据,输出格式规范的数据表格,但集成数据维度仍然缺失。

Claude 3.5 sonnet
一般文本(7000token):能够准确提取文本数据,并整理成可视化图表,表格文字简洁,没有提及文本中的环比和同比数据。
长文本(15000token):长文本粘贴后会自动形成文件,能够准确集成文本数据表格,但数据维度有限。

Kimi k1.5
一般文本(7000token):能快速提取文本数据,并整理成可视化数据表格,数据准确,所提取数据维度不够全面。
长文本(15000token):同样能够高效准确地提取文本中数据,较一般长度文本所集成数据维度反而更加全面。

小结:

4 数据分析

任务

提示词

请读取所上传的泰坦尼克号遇难者名单数据文件,并分析找出其中规律。

DeepSeek R1:

OpenAI o3mini:

Claude 3.7 sonnet
提供数据分析程序代码,能够提取大部分特征并对其与生存率的关联进行分析 ,并形成明确的结论。

Kimi k1.5

能够精准分析关键指标生存率,但对特征提取不完整 ,仅能识别较为浅层的数据关联,分析能力相对较弱。

小结:

5 数据挖掘

任务

1、读取即将上映的2025年电影数据集

2、对数据集进行深入分析和数据挖掘

提示词

第一轮对话:请帮我分析这一份数据文件

第二轮对话:

(基于初步分析结果,选择其中一部分或某个方向进行深入的数据挖掘)

基于所上传数据,对致据的潜在用途进行深入地数据挖据和分析

请对其中中文电影进行详细且深入的数据分析

DeepSeek R1

能够准确对数据进行分类,从多个维度进行梳理和分析,借助可视化图表进行数据挖掘,基于分析结果提供可行建议,但整体数据挖掘深度较浅,缺少对不同类型数据直接关联性的探究。

Claude 3.5 sonnet

基于数据集 ,在整体数据概括后提供多个深入数据挖掘方向 ,根据需求输入研究倾向,高效生成多个维度的数据分析,语言简洁,挖掘深度较浅。

Kimi k1.5

提供数据的潜在用途方向 ,深入分析过程中,从多个维度(如时间 、语言 、地区)深入挖掘数据意义和关联性,进一步总结趋势结论并提出相关建议。

小结:

6 数据可视化

任务

基于titanic遇难者数据分析结果绘制可

视化图表

Open AI o3mini

能够直接调用DALLE,根据分析结果和任务需求高效绘制各类可视化图表,部分较为复杂的图表可能出现数据错误或无法生成的情况。

DeepSeek R1

能够结合数据样本和分析结果,提供多种可视化图表绘制方案,但暂时不能直接绘制出可视图表 ,需要将对应的绘图代码复制到本地运行制作图表。

Kimi k1.5

结合数据样本和分析结果 ,提供多种可视化图表绘制方案及对应代码,需采用Python代码完成绘图任务 。大样本会省略数据;小样本不省略数据。

Claude 3.5 sonnet

暂时不能直接绘制出可视图表, 需要将绘图代码复制到本地运行。

7 数据应用情况总结

DeepSeek R1

OpenAI o3 mini

Claude 3.5 sonnet

Kimi k1.5

8 实践新思路

8.1 优势互补,协同应用

8.2 DeepSeek R1的数据应用

中文数据处理优势

低成本高性能优势

数据读取分析能力

编程代码生成能力

创意写作生成能力

8.3 Open AI o3mini的数据应用

推理响应速度快

数据分析效率高

格式化输出能力

数据可视化优势

写作情感表达能力

本文已收录在Github关注我,紧跟本系列专栏文章,咱们下篇再续!

本文由博客一文多发平台 OpenWrite 发布!

上一篇 下一篇

猜你喜欢

热点阅读