AI科研到底能做什么？看完你就懂了！

2025-03-04 本文已影响0人 JavaEdge

0 前言

本专栏目标：

能做什么？
要怎么做？
效果如何？

本质：多Agent实现从数据采集到可视化全流程

AIGC数据应用：

数据采集

通过编写爬虫代码、访问数据库、读取文件、调用API等方式，采集社交媒体数据、数据库内容、文本数据、接口数据等。

数据处理

通过数据清洗、数据集成、数据变换、特征工程等方式，实现数据结构、数据融合、格式转换、特征提取等。

数据分析

对数据进行诊断、预测、关联、聚类分析，常用于问题定位、需求预测、推荐系统、异常检测等。

数据挖掘

对数据进行分类、社交网络分析或时序模式挖掘，常用于客户细分、信用评分、社交媒体营销、股价预测等。

数据可视化

将数据转化为统计图、热力图、网络关系图、词云、树形图等，用于揭示数据中蕴含的模式、趋势、异常和洞见。

模型特点

DeepSeek R1：

高效推理：专注于低延迟和高吞吐量，适合实时应用
轻量化设计：模型结构优化，资源占用少，适合边缘设备和移动端
多任务支持：支持多种任务，如文本生成、分类和问答

Open AI o3 mini：

小型化设计：轻量级模型，适合资源有限的环境。
快速响应：优化推理速度，适合实时交互场景。
通用性强：适用于多种自然语言处理任务，如对话生成和文本理解

Claude 3.5 sonnet：

平衡性能：在模型大小和性能之间取得平衡，适合中等规模任务。
多模态支持：支持文本和图像处理，扩展应用场景。
可解释性：注重模型输出可解释性和透明性

Kimi k1.5：

垂直领域优化：针对特定领域（如医疗、法律）进行优化，提供高精度结果
低成本推理：擅长处理长文本和复杂查询，适合专业场景。
定制化能力：支持用户自定义训练和微调，适应特定需求

1 爬虫数据采集

任务

阅读网页源代码，提取特定网页内容
撰写 python 脚本
提取并合并网址
提取网址内容
写入文件

提示词

你需要完成以下两个任务：

阅读网页【网址】源代码【对应网页源代码】，提取所有包含“春运 2025 | X 月 X 日，全社会跨区域人员流动量完成 X 万人次”的网址进行去重、筛选、合并成网址列表
撰写 python 脚本，基于步骤 1 输出的网址列表，提取所有网址内容“截至目前 2025 年春运（2025 年 1 月 14 日到 2 月 8 日）相关数据（如日期、全社会跨区域人员流动量、铁路客运量、公路人员流动量、水路客运量、民航客运量等）”完成数据提取并写入文件“2025 春运数据.txt”

如：

帮我写python爬虫，爬取https://news.buaa.edu.cn/zhxw.html网站中的标题和链接

帮我写python爬虫，爬取https://news.buaa.edu.cn/xxgg_new.html网站中class="listlefttop auto"下面的所有标题和链接

(如果乱码？UTF-8)
在桌面新建一个excel文档，并把结果放在这个文档中
对于每一个链接，请爬取每一个链接的内容，并保存到excel的新列'text'中
对于每一个链接，请爬取每一个链接中class="v_news_content"的内容，并保存到excel的新列'text'中

DeepSeek R1

能提取所有网址并进行筛选、去重，所撰写代码运行后完成数据爬虫任务，所获取数据准确，少量数据有所遗漏。

Open AI o3mini:

响应速度快，能高效提取所有需求链接，输出完整可运行 python 脚本，代码运行后生成文件，但数据采集结果为空。

测试结果受到数据样本、测试环境、AI 抽卡、提示词模板等因素影响，仅供参考，无法作为决策制定、质量评估或产品验证的最终依据。

Claude 3.5 sonnet

可提取所有网址，调整后可输出正确代码，运行代码能生成本地文件，但提取数据结果为空。

Kimi k1.5

能够提取所有网址，代码运行后生成本地文件，但提取数据结果为空。

结论：

目前DeepSeek R1、Open AI o3mini、Kimi k1.5支持联网查询网址，Claude 3.5 sonnet暂不支持
四个模型均能根据上传的网页代码，对多个网址链接进行筛选、去重，完全提取出符合指令要求的所有网址链接并形成列表
在复杂爬虫任务上，DeepSeek R1与Open AI o3mini生成的代码均能正常执行数据采集任务，o3响应速度更快，R1数据采集结果更加完整准确；其他2个模型都存在多次调试但代码仍然运行不成功的问题，如代码中罗列URL不全、输出文本中提取数据为空等。

2 文件数据读取

任务

读取文件；
根据指定内容整理成表格。

提示词

所上传的“2025春运数据(1月14-2月8日).txt”包含了从2025年1月14日至2025年2月8日每天各种交通方式的春运客运量信息，请从中读取每一天的信息，并整理成一张表格，要求包括以下几项信息：

1.当天日期；

2.当天的铁路客运量、比2024年同期多或者少的百分比、环比的百分比。

3.当天的公路客运量、比2024年同期多或者少的百分比、环比的百分比。

4.当天的民航客运量、比2024年同期多或者少的百分比、环比的百分比。

DeepSeek R1能详细全面地提取文件中的数据，并整理成可视化数据表格，逻辑性强、指标清晰。

Open AI o3 mini暂不支持附件上传，响应速度快，能够快速读取粘贴数据，输出结果格式工整、简洁。

Claude 3.5 sonnet
很好地完成了数据读取及提取任务，没有漏数据指标，数据逻辑性很好

Kimi k1.5
能够快速读取文件数据，并整理成可视化数据表格，但填入数据有所缺失。

结论：

DeepSeek R1与Claude 3.5 sonnet均能很好的完成文件数据读取任务，生成的表格逻辑性强、数据指标清晰，Claude 3.5 sonnet-次性完成表格生成后支持直接复制和表格文件下载
Open Al o3mini能够更加高效地完成数据提取任务，输出表格准确，但暂不支持附件上传，文件读取依靠粘贴稍显不便
Kimi k1.5文件数据提取有明显空缺

3 文本数据集成

任务

分别阅读约7000token和15000token的文本内容，测试模型对中、长文本处理效果
整理集成可视化的数据表格
按照日期规范排序

提示词

【所需阅读文本】请根据以上文本完成以下三个任务：

1、阅读文本内容；

2、整理集成可视化的数据表格；

3、按照日期规范排序（直接分析并输出结果，不使用python）

DeepSeek R1

一般文本（7000token）：能详细全面地提取文本数据，并集成可视化表格，但受大样本或模型稳定性影响，输出表格末尾缺失，需要重复尝试生成。

长文本（15000token）：暂时无法给出答复。

Open AI o3mini

一般文本（7000token）：能够高效提取文本中的数据，并整理成可视化数据表格，格式工整、简洁，数据准确但数据维度有所缺失。

长文本（15000token）：反应迅速，高效提取文本中数据，输出格式规范的数据表格，但集成数据维度仍然缺失。

Claude 3.5 sonnet
一般文本(7000token)：能够准确提取文本数据，并整理成可视化图表，表格文字简洁，没有提及文本中的环比和同比数据。
长文本(15000token)：长文本粘贴后会自动形成文件，能够准确集成文本数据表格，但数据维度有限。

Kimi k1.5
一般文本(7000token)：能快速提取文本数据，并整理成可视化数据表格，数据准确，所提取数据维度不够全面。
长文本(15000token)：同样能够高效准确地提取文本中数据，较一般长度文本所集成数据维度反而更加全面。

小结：

一般文本处理任务中，DeepSeek R1所提取的文本数据维度最全面，但易受文本长度或模型稳定性影响出现失误；其他三个模型在文本数据提取过程中，都存在对部分数据的忽略问题，没有完整集成到可视化表格中
长文本处理仟务中，Kimik1.5相较短文本处理表现更加突出，提取准确的同时教据维度更加全面；由于文本过长Deenseek R1无法完成任务
综合来看，Open Al o3mini响应最快效率最高，但在数据集成维度上稍显不足，同时与Claude 3.5 sonnet所输出的表格更为工整、简洁

4 数据分析

任务

读取泰坦尼克号遇难者名单 excel
找出其中规律

提示词

请读取所上传的泰坦尼克号遇难者名单数据文件，并分析找出其中规律。

DeepSeek R1：

详细展示长思维链，精准提取关键指标“幸存率
分析多个因素特征对幸存率的影响
结合历史背景对数据及规律进行验证
敏锐察觉数据异常，提出了异常处理建议

OpenAI o3mini：

响应速度快，高效输出数据分析结果
分析各因素对关键指标生存率的影响
语言表达自然，重点突出结合历史背景对数据规律进行验证
但没有察觉数据异常

Claude 3.7 sonnet
提供数据分析程序代码，能够提取大部分特征并对其与生存率的关联进行分析，并形成明确的结论。

Kimi k1.5

能够精准分析关键指标生存率，但对特征提取不完整，仅能识别较为浅层的数据关联，分析能力相对较弱。

小结：

DeepSeek R1与Open AI o3mini的数据分析能力相当，且领先其他两个模型，均能够精准抓取数据核心指标并做统计，找到各特征与核心指标的关联，其中R1分析逻辑更加清晰严谨，而o3推理更加高效
Kimi k1.5推理逻辑清晰但分析能力相对较弱， Claude 3.5 sonnet能够提供分析思路也有一些明确结论

5 数据挖掘

任务

1、读取即将上映的2025年电影数据集

2、对数据集进行深入分析和数据挖掘

提示词

第一轮对话：请帮我分析这一份数据文件

第二轮对话：

（基于初步分析结果，选择其中一部分或某个方向进行深入的数据挖掘）

基于所上传数据，对致据的潜在用途进行深入地数据挖据和分析

请对其中中文电影进行详细且深入的数据分析

DeepSeek R1

能够准确对数据进行分类，从多个维度进行梳理和分析，借助可视化图表进行数据挖掘，基于分析结果提供可行建议，但整体数据挖掘深度较浅，缺少对不同类型数据直接关联性的探究。

Claude 3.5 sonnet

基于数据集，在整体数据概括后提供多个深入数据挖掘方向，根据需求输入研究倾向，高效生成多个维度的数据分析，语言简洁，挖掘深度较浅。

Kimi k1.5

提供数据的潜在用途方向，深入分析过程中，从多个维度（如时间、语言、地区）深入挖掘数据意义和关联性，进一步总结趋势结论并提出相关建议。

小结：

Kimi k1.5该任务中表现最为出色，对特征进行精准分类，从多维度深入挖掘指定数据的深层内涵和关联性
DeepSeek R1与Claude 3.5 sonnet同样能准确完成数据的分类任务，但数据之间的关联挖掘程度相对较浅
Open AI o3mini受附件上传限制影响，由于数据集较大，暂不能完成该任务

6 数据可视化

任务

基于titanic遇难者数据分析结果绘制可

视化图表

Open AI o3mini

能够直接调用DALLE，根据分析结果和任务需求高效绘制各类可视化图表，部分较为复杂的图表可能出现数据错误或无法生成的情况。

DeepSeek R1

能够结合数据样本和分析结果，提供多种可视化图表绘制方案，但暂时不能直接绘制出可视图表，需要将对应的绘图代码复制到本地运行制作图表。

Kimi k1.5

结合数据样本和分析结果，提供多种可视化图表绘制方案及对应代码，需采用Python代码完成绘图任务。大样本会省略数据；小样本不省略数据。

Claude 3.5 sonnet

暂时不能直接绘制出可视图表，需要将绘图代码复制到本地运行。

7 数据应用情况总结

DeepSeek R1

文件数据读取完整无缺失
数据分析全面、逻辑清晰严谨
网络爬虫任务数据爬取完整、准确
数据挖掘能够准确分类并提供建议
数据可视化任务能力有待完善

OpenAI o3 mini

数据分析高效、全面、准确
数据可视化能力突出、直接生成
网络爬虫任务爬取数据结果为空
暂不支持上传数据附件
数据挖掘深度较浅

Claude 3.5 sonnet

数据读取输出逻辑性强、指标清晰
数据分析任务完成得较为简单
爬虫数据采集未形成明确结论
数据挖掘深度较浅
暂不能直接绘制出可视图标

Kimi k1.5

数据挖掘能力出色
快速读取文件数据，提取网址链接
长文本数据处理能力突出
爬虫数据采集存在代码错误问题
数据分析能力相对较弱

8 实践新思路

8.1 优势互补，协同应用

8.2 DeepSeek R1的数据应用

中文数据处理优势

智能中文古籍修复与注释：利用 DeepSeek R1 强大的中文理解能力，自动识别并修复古籍中的破损文字，同时生成准确的注释和解释，帮助修复难以辨认的古籍内容
中文法律文本分析与生成：基于 DeepSeek R1 的中文数据处理能力，快速分析法律文本，提取关键信息，自动生成合同草案、法律意见书等，提高律师工作效率

低成本高性能优势

中小企业 AI 定制化服务：为中小企业提供定制化的 AI 解决方案，如智能客服、营销和办公工具，提升企业竞争力
开源 AI 教育平台：借助 DeepSeek R1 的低成本特性，创建开源 AI 教育平台，提供免费课程和实验资源，促进 AI 教育普及

数据读取分析能力

智能医疗数据分析与诊断：构建智能医疗平台，分析病历、检查报告和基因数据，帮助医生提供更准确的诊断与治疗方案
金融风险预测与管理：开发金融风险分析工具，收集并分析市场数据，预测风险并为金融机构提供管理建议

编程代码生成能力

智能编程教育助手：为编程学生提供实时编程指导，自动生成代码示例，帮助解决编程难题
自动化代码审查工具：自动审查代码，发现潜在问题并提供优化建议，提升开发效率与代码质量

创意写作生成能力

智能文学创作辅助：为作家提供创作灵感和文本构思，生成符合中文文学传统的故事情节和诗句，助力突破创作瓶颈
智能广告创意生成：根据产品特点和目标受众自动生成创意广告文案和宣传语，提高广告创作效率

8.3 Open AI o3mini的数据应用

推理响应速度快

实时数据流处理与决策: 利用o3mini在物联网和工业自动化领域, 快速处理来自传感器和设备的实时数据, 进行即时分析和决策, 减少停机时间, 提高生产效率
高频交易数据分析: 利用o3mini快速处理高频交易数据, 识别市场趋势和交易模式, 为交易者提供实时决策支持

数据分析效率高

复杂数据模式识别: 借助o3mini高效分析复杂数据, 帮助科学研究和工程领域发现模式和规律, 如天文学中的星系演化或地质学中的地震数据分析
多源数据融合分析: 在智能交通和城市规划中, o3mini有助于将不同来源的数据(如交通流量、气象数据等)进行融合分析, 预测交通拥堵, 为城市规划提供决策支持

格式化输出能力

数据报告自动化生成：基于o3mini自动生成格式化的数据报告, 包括图表、表格和文字说明, 帮助管理者快速理解分析结果
数据接口标准化: 根据标准格式输出数据, 利用o3mini方便不同系统和平台之间的数据共享, 提升跨机构协作效率

数据可视化优势

交互式数据可视化: 在商业智能和数据分析领域, o3mini可以将多维数据以可视化的方式呈现, 并支持用户进行交互式分析
实时数据可视化与预警: 在实时监控和数据分析中, o3mini可以实时将数据以可视化的方式展示, 并支持用户与数据进行交互

写作情感表达能力

情感分析与数据解读：利用o3mini结合情感分析, 对数据进行深入解读, 帮助市场调研等领域理解消费者情感, 优化产品和策略
故事化数据呈现：借助o3mini将数据以故事的形式呈现, 增强数据的可读性和吸引力, 帮助公众理解复杂的科学和技术知识

本文已收录在Github，关注我，紧跟本系列专栏文章，咱们下篇再续！

🚀 魔都架构师 | 全网30W+技术追随者
🔧 大厂分布式系统/数据中台实战专家
🏆 主导交易系统亿级流量调优 & 车联网平台架构
🧠 AIGC应用开发先行者 | 区块链落地实践者
🌍 以技术驱动创新，我们的征途是改变世界！
👉 实战干货：编程严选网

本文由博客一文多发平台 OpenWrite 发布！

AI科研到底能做什么？看完你就懂了！

0 前言

本质：多Agent实现从数据采集到可视化全流程

数据采集

数据处理

数据分析

数据挖掘

数据可视化

模型特点

1 爬虫数据采集

任务

提示词

2 文件数据读取

任务

提示词

3 文本数据集成

4 数据分析

任务

提示词

5 数据挖掘

任务

提示词

6 数据可视化

7 数据应用情况总结

8 实践新思路

8.1 优势互补，协同应用

8.2 DeepSeek R1的数据应用

中文数据处理优势

低成本高性能优势

数据读取分析能力

编程代码生成能力

创意写作生成能力

8.3 Open AI o3mini的数据应用

推理响应速度快

数据分析效率高

格式化输出能力

数据可视化优势

写作情感表达能力

猜你喜欢

热点阅读

AI科研到底能做什么？看完你就懂了！

0 前言

本质： 多Agent实现从数据采集到可视化全流程

数据采集

数据处理

数据分析

数据挖掘

数据可视化

模型特点

1 爬虫数据采集

任务

提示词

2 文件数据读取

任务

提示词

3 文本数据集成

4 数据分析

任务

提示词

5 数据挖掘

任务

提示词

6 数据可视化

7 数据应用情况总结

8 实践新思路

8.1 优势互补，协同应用

8.2 DeepSeek R1的数据应用

中文数据处理优势

低成本高性能优势

数据读取分析能力

编程代码生成能力

创意写作生成能力

8.3 Open AI o3mini的数据应用

推理响应速度快

数据分析效率高

格式化输出能力

数据可视化优势

写作情感表达能力

猜你喜欢

热点阅读

本质：多Agent实现从数据采集到可视化全流程