కేస్ స్టడీ: ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్
8వేలకు పైగా ఆడియో గంటలు సేకరించబడ్డాయి, బహుభాషా వాయిస్ టెక్నాలజీ కోసం 800 గంటలు లిప్యంతరీకరించబడింది
పరిచయం
భారతీయ భాషలలో డిజిటల్ సేవలను అందించడానికి బహుభాషా డేటాసెట్లు మరియు AI-ఆధారిత భాషా సాంకేతిక పరిష్కారాలను రూపొందించడంపై దృష్టి సారించే వేదిక భారతదేశానికి అవసరం. ఈ చొరవను ప్రారంభించడానికి, బహుళ-భాషా ప్రసంగ నమూనాలను రూపొందించడానికి భారతీయ భాషను సేకరించడానికి మరియు లిప్యంతరీకరణ చేయడానికి షైప్తో క్లయింట్ భాగస్వామ్యం కుదుర్చుకుంది.
వాల్యూమ్
సవాళ్లు
భారతీయ భాషల కోసం వారి స్పీచ్ టెక్నాలజీ స్పీచ్ రోడ్మ్యాప్తో క్లయింట్కు సహాయం చేయడానికి, AI మోడల్ను రూపొందించడానికి బృందం పెద్ద మొత్తంలో శిక్షణ డేటాను పొందడం, విభజించడం మరియు లిప్యంతరీకరించడం అవసరం. క్లయింట్ యొక్క క్లిష్టమైన అవసరాలు:
వివరాల సేకరణ
- భారతదేశంలోని మారుమూల ప్రాంతాల నుండి 8000 గంటల శిక్షణ డేటాను పొందండి
- 20-70 సంవత్సరాల వయస్సు గల వారి నుండి స్పాంటేనియస్ స్పీచ్ని సేకరించడానికి సరఫరాదారు
- వయస్సు, లింగం, విద్య మరియు మాండలికాల ప్రకారం మాట్లాడేవారి విభిన్న మిశ్రమాన్ని నిర్ధారించుకోండి
- ప్రతి ఆడియో రికార్డింగ్ 16 బిట్లు/నమూనాతో కనీసం 16kHz ఉండాలి.
డేటా ట్రాన్స్క్రిప్షన్
అక్షరాలు మరియు ప్రత్యేక చిహ్నాలు, స్పెల్లింగ్ మరియు వ్యాకరణం, క్యాపిటలైజేషన్, సంక్షిప్తీకరణలు, సంకోచాలు, వ్యక్తిగతంగా మాట్లాడే అక్షరాలు, సంఖ్యలు, విరామచిహ్నాలు, ఎక్రోనింలు మరియు ఇనిషియలిజమ్లు, అస్పష్టమైన ప్రసంగం, అర్థం కాని ప్రసంగం, నాన్-టార్గెట్ లాంగ్ల గురించి వివరాల లిప్యంతరీకరణ మార్గదర్శకాలను అనుసరించండి
నాణ్యత తనిఖీ & అభిప్రాయం
అన్ని రికార్డింగ్లు నాణ్యత అంచనా మరియు ధృవీకరణకు లోనవుతాయి, ధృవీకరించబడిన ప్రసంగ రికార్డింగ్లు మాత్రమే పంపిణీ చేయబడతాయి
సొల్యూషన్
సంభాషణ AI గురించి మా లోతైన అవగాహనతో, భారతదేశంలోని మారుమూల ప్రాంతాల నుండి ఆడియో డేటా యొక్క పెద్ద కార్పస్ను రూపొందించడానికి నిపుణులైన కలెక్టర్లు, భాషావేత్తలు మరియు ఉల్లేఖనాల బృందంతో ఆడియో డేటాను సేకరించడానికి, లిప్యంతరీకరించడానికి మేము క్లయింట్కు సహాయం చేసాము.
Shaip కోసం పని యొక్క పరిధిని కలిగి ఉంది కానీ పెద్ద వాల్యూమ్ల ఆడియో శిక్షణ డేటాను పొందడం, డేటాను లిప్యంతరీకరణ చేయడం మరియు మెటాడేటాను కలిగి ఉన్న సంబంధిత JSON ఫైల్లను పంపిణీ చేయడం [స్పీకర్లు మరియు ట్రాన్స్క్రైబర్లు రెండింటికీ పరిమితం కాలేదు. ప్రతి స్పీకర్ కోసం, మెటాడేటాలో అనామక స్పీకర్ ID, పరికర వివరాలు, వారి పిన్కోడ్, సామాజిక-ఆర్థిక స్థితి, మాట్లాడే భాషలు మరియు వారి జీవిత కాలం యొక్క రికార్డుతో పాటు లింగం, వయస్సు మరియు విద్య వంటి జనాభా సమాచారం ఉంటుంది. ప్రతి ట్రాన్స్క్రైబర్ కోసం, డేటాలో అనామక ట్రాన్స్క్రైబర్ ID, స్పీకర్ల మాదిరిగానే జనాభా వివరాలు, వారి ట్రాన్స్క్రిప్షన్ అనుభవ వ్యవధి మరియు వారు చదవగలిగే, వ్రాయగల మరియు మాట్లాడగల భాషల సమగ్ర విభజన ఉంటుంది.
షైప్ సేకరించారు 8000 గంటల ఆడియో డేటా / స్కేల్లో స్పాంటేనియస్ స్పీచ్ మరియు కాంప్లెక్స్ ప్రాజెక్ట్ల కోసం స్పీచ్ టెక్నాలజీకి శిక్షణ ఇవ్వడానికి కావలసిన నాణ్యత స్థాయిని కొనసాగిస్తూ 800 గంటలు లిప్యంతరీకరించబడింది. పాల్గొనే ప్రతి ఒక్కరి నుండి స్పష్టమైన సమ్మతి ఫారమ్ తీసుకోబడింది. విశ్వవిద్యాలయం అందించిన చిత్రాల ఆధారంగా సేకరించిన / స్పాంటేనియస్ ప్రసంగం. యొక్క 3500 చిత్రాలు 1000 సాధారణమైనవి మరియు 2500 జిల్లా-నిర్దిష్ట సంస్కృతి, పండుగలు మొదలైన వాటికి సంబంధించినవి. చిత్రాలు రైలు స్టేషన్లు, మార్కెట్లు, వాతావరణం మరియు మరిన్నింటి వంటి వివిధ డొమైన్లను వర్ణిస్తాయి.
వివరాల సేకరణ
| రాష్ట్రం | జిల్లాలు | ఆడియో గంటలు | ట్రాన్స్క్రిప్షన్ (గంటలు) |
|---|---|---|---|
| బీహార్ | సరన్, తూర్పు చంపారన్, గోపాల్గంజ్, సీతామర్హి, సమస్తిపూర్, దర్భంగా, మాధేపురా, భాగల్పూర్, గయా, కిషన్గంజ్, వైశాలి, లఖిసరాయ్, సహర్సా, సుపాల్, అరారియా, బెగుసరాయ్, జహనాబాద్, పూర్నియా, ముజఫర్పూర్, జాముయి | 2000 | 200 |
| ఉత్తర ప్రదేశ్ | డియోరియా, వారణాసి, గోరఖ్పూర్, ఘాజీపూర్, ముజఫర్నగర్, ఎటా, హమీర్పూర్, జ్యోతిబా ఫూలే నగర్, బుదౌన్, జలౌన్ | 1000 | 100 |
| రాజస్థాన్ | నాగౌర్, చురు | 200 | 20 |
| ఉత్తరాఖండ్ | తెహ్రీ గర్వాల్, ఉత్తరకాశీ | 200 | 20 |
| ఛత్తీస్గఢ్ | బిలాస్పూర్, రాయ్ఘర్, కబీర్ధామ్, సర్గుజా, కోర్బా, జష్పూర్, రాజ్నంద్గావ్, బలరాంపూర్, బస్తర్, సుక్మా | 1000 | 100 |
| పశ్చిమ బెంగాల్ | పశ్చిమ్ మెదినీపూర్, మాల్దా, జల్పైగురి, పురూలియా, కోల్కతా, ఝర్గ్రామ్, ఉత్తర 24 పరగణాలు, దక్షిణ్ దినాజ్పూర్ | 800 | 80 |
| జార్ఖండ్ | సాహెబ్గంజ్, జమ్తారా | 200 | 20 |
| ఆంధ్ర ప్రదేశ్ | గుంటూరు, చిత్తూరు, విశాఖపట్నం, కృష్ణా, అనంతపురం, శ్రీకాకుళం | 600 | 60 |
| తెలంగాణ | కరీంనగర్, నల్గొండ | 200 | 20 |
| గోవా | ఉత్తర & దక్షిణ గోవా | 100 | 10 |
| కర్ణాటక | దక్షిణ కన్నడ, గుల్బర్గా, ధార్వాడ్, బళ్లారి, మైసూర్, షిమోగా, బీజాపూర్, బెల్గాం, రాయచూర్, చామరాజ్నగర్ | 1000 | 100 |
| మహారాష్ట్ర | సింధుదుర్గ్, ధూలే, నాగ్పూర్, పూణే, ఔరంగాబాద్, చంద్రపూర్, షోలాపూర్ | 700 | 70 |
| మొత్తం | 8000 | 800 | |
సాధారణ మార్గదర్శకాలు
ఫార్మాట్
- 16 kHz వద్ద ఆడియో, 16 బిట్స్/నమూనా.
- ఒకే ఛానెల్.
- ట్రాన్స్కోడింగ్ లేకుండా రా ఆడియో.
శైలి
- ఆకస్మిక ప్రసంగం.
- విశ్వవిద్యాలయం అందించిన చిత్రాల ఆధారంగా వాక్యాలు. 3500 చిత్రాలలో, 1000 సాధారణమైనవి మరియు 2500 జిల్లా-నిర్దిష్ట సంస్కృతి, పండుగలు మొదలైన వాటికి సంబంధించినవి. చిత్రాలు రైలు స్టేషన్లు, మార్కెట్లు, వాతావరణం మరియు మరిన్నింటి వంటి వివిధ డొమైన్లను వర్ణిస్తాయి.
రికార్డింగ్ నేపథ్యం
- నిశ్శబ్ద, ప్రతిధ్వని రహిత వాతావరణంలో రికార్డ్ చేయబడింది.
- రికార్డింగ్ సమయంలో స్మార్ట్ఫోన్ ఆటంకాలు (వైబ్రేషన్ లేదా నోటిఫికేషన్లు) లేవు.
- క్లిప్పింగ్ లేదా ఫార్-ఫీల్డ్ ఎఫెక్ట్స్ వంటి వక్రీకరణలు లేవు.
- ఫోన్ నుండి వైబ్రేషన్లు ఆమోదయోగ్యం కాదు; ఆడియో స్పష్టంగా ఉంటే బాహ్య వైబ్రేషన్లు తట్టుకోగలవు.
స్పీకర్ స్పెసిఫికేషన్
- ప్రతి జిల్లాకు సమతుల్య లింగ పంపిణీతో 20-70 సంవత్సరాల మధ్య వయస్సు.
- ప్రతి జిల్లాలో కనీసం 400 మంది స్థానిక మాట్లాడేవారు.
- మాట్లాడేవారు వారి ఇంటి భాష/మాండలికాన్ని ఉపయోగించాలి.
- పాల్గొనే వారందరికీ సమ్మతి ఫారమ్లు తప్పనిసరి.
నాణ్యత తనిఖీ & క్లిష్టమైన నాణ్యత హామీ
QA ప్రక్రియ ఆడియో రికార్డింగ్లు మరియు ట్రాన్స్క్రిప్షన్ల కోసం నాణ్యత హామీకి ప్రాధాన్యతనిస్తుంది. ఆడియో ప్రమాణాలు ఖచ్చితమైన నిశ్శబ్దాలు, సెగ్మెంట్ వ్యవధి, సింగిల్-స్పీకర్ స్పష్టత మరియు వయస్సు మరియు సామాజిక-ఆర్థిక స్థితితో సహా వివరణాత్మక మెటాడేటాపై దృష్టి పెడతాయి. లిప్యంతరీకరణ ప్రమాణాలు ట్యాగ్ ఖచ్చితత్వం, పదం యొక్క ఖచ్చితత్వం మరియు సరైన సెగ్మెంట్ వివరాలను నొక్కి చెబుతాయి. ఆడియో బ్యాచ్లో 20% కంటే ఎక్కువ మంది ఈ ప్రమాణాలను విఫలమైతే, అది తిరస్కరించబడుతుందని అంగీకార ప్రమాణం నిర్దేశిస్తుంది. 20% కంటే తక్కువ వ్యత్యాసాల కోసం, సారూప్య ప్రొఫైల్లతో భర్తీ రికార్డింగ్లు అవసరం.
డేటా ట్రాన్స్క్రిప్షన్
లిప్యంతరీకరణ మార్గదర్శకాలు పదాలు స్పష్టంగా మరియు అర్థమయ్యేలా ఉన్నప్పుడు మాత్రమే ఖచ్చితత్వం మరియు వెర్బేటిమ్ ట్రాన్స్క్రిప్షన్ను నొక్కి చెబుతాయి; సమస్య ఆధారంగా అస్పష్టమైన పదాలు [అర్థం కానివి] లేదా [వినబడనివి]గా గుర్తించబడతాయి. పొడవైన ఆడియోలో వాక్య సరిహద్దులు దీనితో గుర్తించబడ్డాయి , మరియు వ్యాకరణ లోపాల యొక్క పారాఫ్రేసింగ్ లేదా దిద్దుబాటు అనుమతించబడదు. వెర్బేటిమ్ ట్రాన్స్క్రిప్షన్ లోపాలు, యాసలు మరియు పునరావృత్తులు కవర్ చేస్తుంది కానీ తప్పుడు ప్రారంభాలు, పూరక శబ్దాలు మరియు నత్తిగా మాట్లాడటం మినహాయించబడుతుంది. నేపథ్యం మరియు ముందువైపు శబ్దాలు వివరణాత్మక ట్యాగ్లతో లిప్యంతరీకరించబడతాయి, అయితే సరైన పేర్లు, శీర్షికలు మరియు సంఖ్యలు నిర్దిష్ట లిప్యంతరీకరణ నియమాలను అనుసరిస్తాయి. ప్రతి వాక్యానికి స్పీకర్ లేబుల్లు ఉపయోగించబడతాయి మరియు అసంపూర్ణ వాక్యాలు సూచించబడతాయి.
ప్రాజెక్ట్ వర్క్ఫ్లో
వర్క్ఫ్లో ఆడియో ట్రాన్స్క్రిప్షన్ ప్రక్రియను వివరిస్తుంది. ఇది ఆన్బోర్డింగ్ మరియు శిక్షణలో పాల్గొనేవారితో ప్రారంభమవుతుంది. వారు QA ప్లాట్ఫారమ్కు అప్లోడ్ చేయబడిన యాప్ని ఉపయోగించి ఆడియోను రికార్డ్ చేస్తారు. ఈ ఆడియో నాణ్యత తనిఖీలు మరియు స్వయంచాలక విభజనకు లోనవుతుంది. టెక్ బృందం తర్వాత ట్రాన్స్క్రిప్షన్ కోసం విభాగాలను సిద్ధం చేస్తుంది. మాన్యువల్ ట్రాన్స్క్రిప్షన్ తర్వాత, నాణ్యత హామీ దశ ఉంది. ట్రాన్స్క్రిప్షన్లు క్లయింట్కు డెలివరీ చేయబడతాయి మరియు ఆమోదించబడినట్లయితే, డెలివరీ పూర్తయినట్లు భావించబడుతుంది. కాకపోతే, క్లయింట్ ఫీడ్బ్యాక్ ఆధారంగా పునర్విమర్శలు చేయబడతాయి.
ఫలితం
నిపుణులైన భాషావేత్తల నుండి అధిక-నాణ్యత ఆడియో డేటా మా క్లయింట్ నిర్ణీత సమయంలో విభిన్న మాండలికాలతో వివిధ భారతీయ భాషలలో బహుభాషా స్పీచ్ రికగ్నిషన్ మోడల్లను ఖచ్చితంగా శిక్షణ ఇవ్వడానికి మరియు రూపొందించడానికి అనుమతిస్తుంది. స్పీచ్ రికగ్నిషన్ మోడల్స్ వీటిని ఉపయోగించవచ్చు:
- పౌరులను వారి స్వంత మాతృభాషలో కార్యక్రమాలకు అనుసంధానించడం ద్వారా డిజిటల్ చేరిక కోసం భాషా అవరోధాన్ని అధిగమించండి.
- డిజిటల్ గవర్నెన్స్ను ప్రోత్సహిస్తుంది
- భారతీయ భాషలలో సేవలు మరియు ఉత్పత్తుల కోసం పర్యావరణ వ్యవస్థను రూపొందించడానికి ఉత్ప్రేరకం
- ప్రజా ప్రయోజనాల డొమైన్లలో మరింత స్థానికీకరించబడిన డిజిటల్ కంటెంట్, ప్రత్యేకించి, పాలన & విధానం
సంభాషణ AI రంగంలో షైప్ నైపుణ్యానికి మేము విస్మయం చెందాము. 8000 విభిన్న జిల్లాల్లో 800 గంటల ఆడియో డేటాతో పాటు 80 గంటల ట్రాన్స్క్రిప్షన్ను నిర్వహించడం స్మారక పని. ఈ డొమైన్కు సంబంధించిన క్లిష్టమైన వివరాలు మరియు సూక్ష్మ నైపుణ్యాల గురించి షైప్కు లోతైన అవగాహన ఉండటం వల్ల అటువంటి సవాలుతో కూడిన ప్రాజెక్ట్ని విజయవంతంగా అమలు చేయడం సాధ్యమైంది. అత్యున్నత స్థాయి నాణ్యతను నిర్ధారిస్తూ, ఈ విస్తారమైన డేటా యొక్క సంక్లిష్టతలను సజావుగా నిర్వహించగల మరియు నావిగేట్ చేయగల వారి సామర్థ్యం నిజంగా అభినందనీయం.