输入“/”快速插入内容

简单5步,轻松学会数据可视化

❤️
作者:陈羽姿
50%
❤️
微信公众号:TCC翻译情报局
50%
❤️
发布时间:2022-12-06 09:00
50%
一图读懂
正文
本文共 6759 字,预计阅读 17 分钟
TCC 情报局的 第 168 篇 干货分享2022 年的 第 66 篇
TCC 推荐:大家好,这里是 TCC 翻译情报局,我是张聿彤。
作者对现有的可视化工具专职为部分数据可视化人群和职能的现象不满意,认为不能孤立的看数据处理的每个步骤下的数据可视化。
他认为最好的看待数据可视化的方式就是不要受限于角色或工具,而是专注于在数据处理过程中哪里需要使用到数据可视化。
作者介绍了在数据生命周期中,数据可视化是如何参与到每个阶段并产生影响力的。
如今你能看到的任何地方,特别是在数据驱动的组织机构,你会发现数据可视化。
数据可视化是现代公司缔造影响力的关键要素存在于每个工具和工作流程里
它不仅仅是数据工程师、数据科学家、数据分析员的工作中重要的部分,也是那些职位名称中不带“数据”的人的工作重要部分。
数据可视化出现在产品演示中,在 Slack 上的临时通讯中、在提交给股东的领导层报告中,甚至在营销材料中。
我们希望改变人们经常在数据可视化中看到的以工具为中心和以角色为中心的设计方法,这些方法强迫用户在工具间或者不同角色的权限墙中来回跳跃。
在 Noteable,我们很清楚地设计了视觉可视化来反映当今人们在工作中如何使用数据,而不是他们在 15 年前如何使用数据。
无论数据工作者的职位名称是什么,无论数据消费者在解决的问题是什么,我们正在研究他们的期望是如何增长并融合的。
我们希望 改变人们经常在数据可视化中看到的以工具为中心和以角色为中心的设计方法这些方法强迫用户在工具间或者不同角色的权限墙中来回跳跃
我们感觉通过从其他方法中引入优势,会鼓励数据可视化表达的多样性。这意味着,即使我们在开发一个 计算笔记本【1】产品,我们仍然需要跳出传统笔记本的局限性,去看数据可视化,并将其置于更广阔的背景下,即每个人如何使用数据可视化。
(【1】计算笔记本(computational notebook):指能让用户将说明文本、数学方程、代码和可视化内容全部组合到一个易于共享的文档中的工具。是特别适合数据科学使用的平台,能让数据科学家在同一个文档中编写代码、分析数据和插入可视化。)
1. 现有的工具往往倾向到具体工作/职能
1. Existing tools tend to be specific to the job/function
创建可视化数据的设计工具无处不在的呈现与反映在各方面并没有改变。现有可用的工具通常与某个具体的使用案例相关,并针对案例进行优化。如果你是数据科学家,你会专注于验证方法,通常你会使用 Jupyter notebooks 或者 RStudio;如果你是分析师,你可能会使用 Tableau 或者 Looker;如果你需要制作说明图表,你是软件开发你可能会使用 D3,如果你不是开发你可能会选择 Powerpoint;如果你从业于金融或人力资源,你可能会选择Excel。
2. 很多工具在数据科学兴起前已存在
2. Many tools were designed before the data science boom
这些工具是在数据素养更低数据驱动的组织机构更少以及技术限制导致工具功能受限时设计的。当行业继续发展,很多工具随之发展的过程和特定的数据、数据处理方法及专业角色结合得太过紧密,导致这些工具让人感觉过于专业化,例如主要为数据分析师使用的BI商业智能工具。
数据处理方法和工具的紧密耦合也是数据角色演变后的结果,随着它们的成熟,反而加强了让工具定义工作:研究生课程宣传如何通过学习 python 计算笔记本成为一名数据科学家,训练营告诉你要学 D3 软件这样你才可以成为一名数据可视化开发,无数的工作坊帮助你学习 Tableau 软件来成为一名分析师
但是由 分析师 / 数据科学家 / 产品经理 所做的工作并不是离散的、孤立的数据可视化片刻。在这些领域中用的某一数据处理方法在本质上和在另一领域用到的没有任何不同。恰恰相反:如果将一种方法中使用到的技能和方法结合到另一种方法中,可能会非常有用。
我们看到这些步骤是孤立的,不是因为这是使用它们的最佳方式,而是因为它们目前是处于孤立状态下运行的。
这就是为什么我们应该避开“分析师做的数据可视化与数据科学家做的不一样”的观点。我们看到这些步骤是孤立的,不是因为这是使用它们的最佳方式,而是因为它们目前是处于孤立状态下运行的。这就是便利规则被创建的原因,例如“不要用饼图”或“从不使用彩虹配色方案”或“最大化你的 数据墨水比 【2】”。即使在孤立状态之外的进行数据分析任务时,这些便利规则仍会受到挑战,但这些步骤是将原始数据转化为洞察和行动的过程的一部分。这个过程横跨从早期对数据的完全探索到最后给股东和领导层的汇报。(【2】数据墨水比(Data-Ink-Ratio):图形中的数据墨水量除以图形中的总墨水量,即在展示介质/页面上,用于展示数据所用的“墨水”量与介质/页面上全部“墨水”量之间的比值。其中数据墨水指的是图表中不可删除的核心内容。数据墨水比值越大,即意味着数据可视化图表中的冗余信息越少,不可删除的核心内容越多。)
3. 数据可视化生命周期
3. The Data Visualization Lifecycle